Data Lake Analytics + OSS数据文件格式处理大全(19)
下面SQL示例json_parse , json_extract_scalar , json_extract等常用JSON函数的使用方式:
2.5 ORC文件
Optimized Row Columnar(ORC)是Apache开源项目Hive支持的一种优化的列存储文件格式 。 与CSV文件相比 , 不仅可以节省存储空间 , 还可以得到更好的查询性能 。
对于ORC文件 , 只需要在建表时指定 STORED AS ORC 。
例如 ,
2.6 PARQUET文件
Parquet是Apache开源项目Hadoop支持的一种列存储的文件格式 。
使用DLA建表时 , 需要指定STORED AS PARQUET即可 。
例如 ,
2.7 RCFILE文件
Record Columnar File (RCFile) 列存储文件 , 可以有效地将关系型表结构存储在分布式系统中 , 并且可以被高效地读取和处理 。
DLA在建表时 , 需要指定STORED AS RCFILE 。
例如 ,
推荐阅读
- sccc|虎牙data2:sccc满血归来人气超越主舞台,连麦老队友解说外战
- 苹果新13英寸MacBook Pro或将搭载英特尔第十代Ice Lake芯片
- Strategy Analytics到2025年:可折叠智能手机出货量将达1亿部
- 最前线 | Trustdata:生鲜电商赛道梯队分化加剧,疫情之后谁能继续领跑
- NET开发-SqlDataReader只读流,有哪些属性和方法如何读数据
- SuperData:2019 Q4 Index出货10.3万台,Quest出货31.7万台
- Intel于去年八月份正式发布了Ice Lake系列处理器
- Strategy Analytics:2019年Apple AirPods销量达到近6000万
- 如何制作长方形的datamatrix二维码
- DataPipeline陈诚:2020年,企业将从关注商业智能转向数据应用