品玩知科技丨这个有点酷的搜索引擎叫Magi( 四 )

\n

\n \n 能够 exhaustively 提取重叠交错的知识 , 且不利用 HTML 特征; \n 不预设 predicate / verb , 实现真正意义上的 “Open” Information Extraction; \n 配合自家 web 搜索引擎以评估来源质量 , 信息源和领域不设白名单; \n 大幅提升实时性 , 热点新闻发布后几分钟内 , 就可以搜到结构化知识了; \n 没有前置 NER 和 dependency parsing 等环节 , 减少母文本信息的损失; \n 技术栈完全 language-independent , 可以实现低资源和跨语言 transfer 。 \n 买下了 magi.com 这么骚气的域名 。 接下来我将分三部分展开介绍 , 并在最后补充阐述目前做的还不够好的地方 。 由于我们不能详细介绍全部的技术原理和实现细节 , 为了避免被扣上吹牛逼的帽子 , 我会尽量给出对应的 proof:即如何通过公众版 magi.com 针对性地验证对应的特性 , 同时让不懂技术的朋友也能直观地体验并理解 。 magi.com 搜索示例: \n 利用率和通用性 本节主要介绍以下两点: 1. 能够 exhaustively 提取重叠交错的知识 , 且不利用 HTML 特征;2. 不预设 predicate / verb , 实现真正意义上的 “Open” Information Extraction; 举个例子 , 通过阅读 “美国总统特朗普的女婿库什纳担任白宫高级顾问这一职位” , 人类起码能看出以下关系: 美国-总统=特朗普 , 特朗普-女婿=库什纳 , 库什纳-职位=白宫高级顾问 , 白宫高级顾问∈职位 , 白宫高级顾问?高级顾问 , 白宫高级顾问?顾问 , … 这对人类来说不算什么 , 但让计算机获得上述能力则非常困难 。 我们先回顾一下历史:Hendrickx et al. (2009) 设计了信息关系抽取领域的经典任务 SemEval-2010 Task 8 , 其中规定了两个 nominals 之间 9 种区分顺序的 semantic relations , 可以抽象为 19-class 的分类问题 (2x9关系+1无关) , 比如 “Member-Collection” 这一关系指某实体是某集合的一员 。 事实上 , 几乎所有信息抽取系统都需要明确或隐含地预设此类语义关系 , 具体体现为关键动词表或隐含的期望 predicate 等形式 。 以最常见的金融领域应用为例 , 某特定产品只需要在一篇公告中找出客户所关心的信息 , 如 “A 投资了 B”、“C 本季收入 [\\d\\.

推荐阅读