Data Lake Analytics + OSS数据文件格式处理大全( 九 )

  • 不支持字段内嵌入的行分割符;

  • 所有字段定义STRING类型;

  • 其他数据类型的处理 , 可以在SQL中使用函数进行转换 。
    例如 ,

  • 自定义分隔符

    需要自定义列分隔符(FIELDS TERMINATED BY) , 转义字符(ESCAPED BY) , 行结束符(LINES TERMINATED BY) 。
    需要在建表语句中指定

    忽略CSV文件中的HEADER

    在csv文件中 , 有时会带有HEADER信息 , 需要在数据读取时忽略掉这些内容 。 这时需要在建表语句中定义skip.header.line.count 。

    例如 , 数据文件oss://my-bucket/datasets/tpch/nation_csv/nation_header.tbl的内容如下:

    相应的建表语句为:

    skip.header.line.count的取值x和数据文件的实际行数n有如下关系:

    推荐阅读