钛资本研究院：事理图谱技术及其金融领域创业投资机会探讨(11)_随着阿尔法围棋（AlphaGo）击败人类职

事例图谱怎么构建出来呢？从总体大的流程可以分两大类：一类是手工构建，好处是相对比较准确，但是坏处也是显而易见的；另一类是用自动化的方式构建。

上图是流程示意图。从各种研究报告、财务报告、公告、新闻资讯中提取出来语料，经过一定的数据清洗、预处理后做事件识别，再做相关关系的属性抽取。还要做融合与对齐，就是一个事件不同的人会有不同的表达方式，要找出这些不同的表达方式，再融合成同一个表达方式。结果还要做分层泛化和存储，分层主要指的是要把事件逐层的做抽象，比如范冰冰阴阳合同事件，如果直接存储将导致后续难以使用，但是泛化分层可以把相关的主体、客体和相关的主要要素分层，可以把范冰冰泛化成明星、再泛化成名人，而对于阴阳合同可以逐层泛化成偷税漏税、负面事件等等，最后再做成一个比较完整的事理图谱。

上图是整个过程，左上角是起点，就是范冰冰阴阳合同事件发生时的一个新闻，先识别出主要句子，再把主要句子经过一系列技术流程，逐步转变成右上角一系列结构化的数据，这就是事件抽取的过程。当然在事件抽取出来后，还会再形成很大的一张网络。