Data Lake Analytics + OSS数据文件格式处理大全( 九 )
不支持字段内嵌入的行分割符;
所有字段定义STRING类型;
其他数据类型的处理 , 可以在SQL中使用函数进行转换 。
例如 ,
自定义分隔符
需要自定义列分隔符(FIELDS TERMINATED BY) , 转义字符(ESCAPED BY) , 行结束符(LINES TERMINATED BY) 。
需要在建表语句中指定
忽略CSV文件中的HEADER
在csv文件中 , 有时会带有HEADER信息 , 需要在数据读取时忽略掉这些内容 。 这时需要在建表语句中定义skip.header.line.count 。
例如 , 数据文件oss://my-bucket/datasets/tpch/nation_csv/nation_header.tbl的内容如下:
相应的建表语句为:
skip.header.line.count的取值x和数据文件的实际行数n有如下关系:
推荐阅读
- sccc|虎牙data2:sccc满血归来人气超越主舞台,连麦老队友解说外战
- 苹果新13英寸MacBook Pro或将搭载英特尔第十代Ice Lake芯片
- Strategy Analytics到2025年:可折叠智能手机出货量将达1亿部
- 最前线 | Trustdata:生鲜电商赛道梯队分化加剧,疫情之后谁能继续领跑
- NET开发-SqlDataReader只读流,有哪些属性和方法如何读数据
- SuperData:2019 Q4 Index出货10.3万台,Quest出货31.7万台
- Intel于去年八月份正式发布了Ice Lake系列处理器
- Strategy Analytics:2019年Apple AirPods销量达到近6000万
- 如何制作长方形的datamatrix二维码
- DataPipeline陈诚:2020年,企业将从关注商业智能转向数据应用