Data Lake Analytics + OSS数据文件格式处理大全( 七 )

本文详细介绍如何根据存储在OSS上的文件格式使用Data Lake Analytics (下文简称 DLA)进行分析 。 DLA内置了各种处理文件数据的SerDe(Serialize/Deserilize的简称目的是用于序列化和反序列化)实现 , 用户无需自己编写程序 , 基本上能选用DLA中的一款或多款SerDe来匹配您OSS上的数据文件格式 。 如果还不能满足您特殊文件格式的处理需求 , 请联系我们 , 尽快为您实现 。

1. 存储格式与SerDe

用户可以依据存储在OSS上的数据文件进行建表 , 通过STORED AS 指定数据文件的格式 。

例如 ,

建表成功后可以使用SHOW CREATE TABLE语句查看原始建表语句 。

下表中列出了目前DLA已经支持的文件格式 , 当针对下列格式的文件建表时 , 可以直接使用STORED AS , DLA会选择合适的SERDE/INPUTFORMAT/OUTPUTFORMAT 。

在指定了STORED AS 的同时 , 还可以根据具体文件的特点 , 指定SerDe (用于解析数据文件并映射到DLA表) , 特殊的列分隔符等 。

推荐阅读