Data Lake Analytics + OSS数据文件格式处理大全(19)


下面SQL示例json_parse , json_extract_scalar , json_extract等常用JSON函数的使用方式:

2.5 ORC文件

Optimized Row Columnar(ORC)是Apache开源项目Hive支持的一种优化的列存储文件格式 。 与CSV文件相比 , 不仅可以节省存储空间 , 还可以得到更好的查询性能 。

对于ORC文件 , 只需要在建表时指定 STORED AS ORC 。
例如 ,

2.6 PARQUET文件

Parquet是Apache开源项目Hadoop支持的一种列存储的文件格式 。
使用DLA建表时 , 需要指定STORED AS PARQUET即可 。
例如 ,

2.7 RCFILE文件

Record Columnar File (RCFile) 列存储文件 , 可以有效地将关系型表结构存储在分布式系统中 , 并且可以被高效地读取和处理 。
DLA在建表时 , 需要指定STORED AS RCFILE 。
例如 ,

推荐阅读