问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA( 二 )


目前 , 英文场景已有一些针对结构化数据做预训练的探索(GAP , Grappa) , 但在中文场景该方向还处于空白状态 。
基于此 , 研究者所在的达摩院 Conversational AI 团队发布了中文首个表格预训练模型 SDCUP , 同时也是业界最大表格预训练模型(72 层 Transformer , 10 亿参数) , 在 WikiSQL、SQuALL 等多个学界 Benchmark 均取得 SOTA 效果 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

项目地址:https://github.com/alibaba/AliceMind
预训练相关工作
和 BERT、GPT 等预训练语言模型不同 , 预训练表格模型旨在同时建模自然语言和结构化表格数据 , 在语言理解的维度希望能够将自然语言的语义 Grounding 至表格的结构内容当中 , 在语言生成的维度希望能够基于结构化数据生成流畅的文本 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

目前谷歌、微软、亚马逊等公司都在加快对相关技术的布局 。 如下图所示 , 按照目标下游任务的不同 , 预训练表格模型可以分为三大类:单轮、多轮和生成 。

  • 单轮模型旨在提升下游的 Text-to-SQL 语义解析任务 , 代表工作有耶鲁的 Grappa 和亚马逊的 GAP;
  • 多轮模型旨在提升基于表格的对话式语义解析任务(CoSQL) , 代表工作有微软的 SCORE 和 Element AI 的 PICARD;
  • 生成模型旨在提升 Table-to-Text 和 TableQA 的 Response Generation 生成的效果 , 代表工作有 Intel 的 TableNLG 和 HIT 的 TableGPT 。
目前 , Conversational AI 团队在单轮、多轮、生成三个方向均有布局 。 本文主要介绍单轮表格预训练的工作 , 同时也是中文社区第一个表格预训练模型 , 多轮和生成的工作敬请关注我们后续的技术文章 。
表格问答相关工作
一个表格问答系统主要由三个模块组成 , 其中:
  • 自然语言理解模块主要执行语义解析算法 , 将自然语言问句转为对应可执行的 SQL 语句;
  • 对话管理模块执行多轮的状态跟踪和策略优化;
  • 自然语言生成模块则根据解析出的 SQL 语句和 SQL 的执行结果生成对应的回复 。
表格问答技术在金融、政务、教育、医疗等场景均有广泛应用前景 , 因此受到了学术界和工业界的高度关注 。 以 Text-to-SQL 解析任务为例 , 自从 2017 年 Salesforce 发布 WikiSQL 数据集以来 , 就一直受到业界的持续关注和投入 , SQL 解析的准确率已经从 2017 年的 35% 提升到 2021 年的 91% 。 另外 , 业界也在持续构建更加复杂、更加符合真实场景的数据集 , 从单表到多表、从单轮到多轮 , 为该方向的发展不断注入活力 。

推荐阅读