拆解XLNet模型设计，回顾语言表征学习的思想演进(21)_机器之心发布作者：追一科技AILab研究

退后一步讲，分布式语义假设的局限性在哪里？根据符号关联假设 (Symbol Interdependency Hypothesis)[5]，虽然语境的统计信息可以构建出符号之间的关系，从而确定其相对语义。但我们仍需要确定语言符号与现实世界的关系 (Language Grounding)，让我们的 AI 系统知道，"红色"对应的是红色，"天空"对应的是天空，"国家"对应的是国家。这种对应信息是通过构建知识库，还是通过和视觉、语音系统的联合建模获得？解决这一问题可能是下一大新闻的来源，也能将我们往 AI 推进一大步。

基于分布式语义假设的预训练同时受制于报道偏差 (Reporting Bias)[6]：不存在语料里的表达可能是真知识，而存在语料里面的表达也可能是假知识，更不用提普遍存在的模型偏见 (Bias) 了。我们不能因为一百个人说了"世上存在独角兽"就认为其为真，也不能因为只有一个人说了"地球绕着太阳转"便把它当做无益的噪声丢弃掉。

为了达到足够大的模型容量，我们真的需要这么大的计算量吗？已经有工作证明训练充分的 Transformer 里面存在很多重复冗余的模块 [6]。除了把网络加深加宽外，我们还有什么办法去增大模型容量的同时，保持一定的计算量？