Data Lake Analytics + OSS数据文件格式处理大全(22)

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700
\"GET /apache_pb.gif HTTP/1.0\" 200 2326

127.0.0.1 - - [26/May/2009:00:00:00 +0000
\"GET /someurl/?track=Blabla(Main) HTTP/1.1\" 200 5864 - \"Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/525.19 (KHTML like Gecko) Chrome/1.0.154.65 Safari/525.19\"

每行文件可以用下面的正则表达式表示 , 列之间使用空格分隔:

([^
*) ([^
*) ([^
*) (-|\\\\[[^\\\\

*\\\\
) ([^ \\\"
*|\\\"[^\\\"
*\\\") (-|[0-9
*) (-|[0-9
*)(?: ([^ \\\"
*|\\\"[^\\\"
*\\\") ([^ \\\"
*|\\\"[^\\\"
*\\\"))?

针对上面的文件格式 , 建表语句可以表示为:

查询结果

2.10 Esri ArcGIS的地理JSON数据文件

DLA支持Esri ArcGIS的地理JSON数据文件的SerDe处理 , 关于这种地理JSON数据格式说明 , 可以参考:https://github.com/Esri/spatial-framework-for-hadoop/wiki/JSON-Formats

推荐阅读