刘知远:多项NLP算法,架起"机器"和"自然语言"间桥梁 榜单人物( 三 )

知识图谱是一个对知识进行构建的强有力的工具 , 所谓的知识图谱是一个由大量的三元组<头实体、关系、尾实体>所构成的集合 , 描述现实世界中存在的实体以及实体之间的关系 。 在计算机中如何对知识图谱进行表示与存储 , 是知识图谱构建与应用的重要课题 , 其中一项重要的技术就是表示学习 , 表示学习又称表征学习(Representation learning) , 就是利用机器学习技术自动获取每一个实体或者关系的向量化表达 。

近年来 , 知识图谱表示学习中的一些模型像TransE通过把关系作为从头实体到尾实体的翻译来建立实体和关系嵌入 。 刘知远团队注意到这些模型仅仅简单地假设实体和关系处于相同的语义空间 。 事实上 , 一个实体是多种属性的综合体 , 不同关系关注实体不同的属性 , 仅仅在同一空间下对他们进行建模是不够的 。 刘知远团队提出TransR , 分别在实体空间和关系空间构建实体和关系嵌入 。 在学习嵌入阶段 , 首先将实体投影到对应的关系空间中 , 然后建立从头实体到尾实体的翻译关系 。 实验结果表明在链接预测 , 元组分类和关系事实抽取等任务中 , TransR与之前的模型相比性能都有显著提高 。

推荐阅读