钛资本研究院:事理图谱技术及其金融领域创业投资机会探讨(11)

事例图谱怎么构建出来呢?从总体大的流程可以分两大类:一类是手工构建 , 好处是相对比较准确 , 但是坏处也是显而易见的;另一类是用自动化的方式构建 。

上图是流程示意图 。 从各种研究报告、财务报告、公告、新闻资讯中提取出来语料 , 经过一定的数据清洗、预处理后做事件识别 , 再做相关关系的属性抽取 。 还要做融合与对齐 , 就是一个事件不同的人会有不同的表达方式 , 要找出这些不同的表达方式 , 再融合成同一个表达方式 。 结果还要做分层泛化和存储 , 分层主要指的是要把事件逐层的做抽象 , 比如范冰冰阴阳合同事件 , 如果直接存储将导致后续难以使用 , 但是泛化分层可以把相关的主体、客体和相关的主要要素分层 , 可以把范冰冰泛化成明星、再泛化成名人 , 而对于阴阳合同可以逐层泛化成偷税漏税、负面事件等等 , 最后再做成一个比较完整的事理图谱 。

上图是整个过程 , 左上角是起点 , 就是范冰冰阴阳合同事件发生时的一个新闻 , 先识别出主要句子 , 再把主要句子经过一系列技术流程 , 逐步转变成右上角一系列结构化的数据 , 这就是事件抽取的过程 。 当然在事件抽取出来后 , 还会再形成很大的一张网络 。

推荐阅读