品玩知科技丨这个有点酷的搜索引擎叫Magi( 四 )_近日

\n \n 能够 exhaustively 提取重叠交错的知识，且不利用 HTML 特征； \n 不预设 predicate / verb ，实现真正意义上的 “Open” Information Extraction； \n 配合自家 web 搜索引擎以评估来源质量，信息源和领域不设白名单； \n 大幅提升实时性，热点新闻发布后几分钟内，就可以搜到结构化知识了； \n 没有前置 NER 和 dependency parsing 等环节，减少母文本信息的损失； \n 技术栈完全 language-independent ，可以实现低资源和跨语言 transfer 。 \n 买下了 magi.com 这么骚气的域名。接下来我将分三部分展开介绍，并在最后补充阐述目前做的还不够好的地方。由于我们不能详细介绍全部的技术原理和实现细节，为了避免被扣上吹牛逼的帽子，我会尽量给出对应的 proof：即如何通过公众版 magi.com 针对性地验证对应的特性，同时让不懂技术的朋友也能直观地体验并理解。 magi.com 搜索示例： \n 利用率和通用性本节主要介绍以下两点： 1. 能够 exhaustively 提取重叠交错的知识，且不利用 HTML 特征；2. 不预设 predicate / verb ，实现真正意义上的 “Open” Information Extraction；举个例子，通过阅读 “美国总统特朗普的女婿库什纳担任白宫高级顾问这一职位” ，人类起码能看出以下关系：美国-总统=特朗普，特朗普-女婿=库什纳，库什纳-职位=白宫高级顾问，白宫高级顾问∈职位，白宫高级顾问?高级顾问，白宫高级顾问?顾问， … 这对人类来说不算什么，但让计算机获得上述能力则非常困难。我们先回顾一下历史：Hendrickx et al. (2009) 设计了信息关系抽取领域的经典任务 SemEval-2010 Task 8 ，其中规定了两个 nominals 之间 9 种区分顺序的 semantic relations ，可以抽象为 19-class 的分类问题 (2x9关系+1无关) ，比如 “Member-Collection” 这一关系指某实体是某集合的一员。事实上，几乎所有信息抽取系统都需要明确或隐含地预设此类语义关系，具体体现为关键动词表或隐含的期望 predicate 等形式。以最常见的金融领域应用为例，某特定产品只需要在一篇公告中找出客户所关心的信息，如 “A 投资了 B”、“C 本季收入 [\\d\\.