品玩知科技丨这个有点酷的搜索引擎叫Magi( 四 )
\n
\n \n 能够 exhaustively 提取重叠交错的知识 , 且不利用 HTML 特征; \n 不预设 predicate / verb , 实现真正意义上的 “Open” Information Extraction; \n 配合自家 web 搜索引擎以评估来源质量 , 信息源和领域不设白名单; \n 大幅提升实时性 , 热点新闻发布后几分钟内 , 就可以搜到结构化知识了; \n 没有前置 NER 和 dependency parsing 等环节 , 减少母文本信息的损失; \n 技术栈完全 language-independent , 可以实现低资源和跨语言 transfer 。 \n 买下了 magi.com 这么骚气的域名 。 接下来我将分三部分展开介绍 , 并在最后补充阐述目前做的还不够好的地方 。 由于我们不能详细介绍全部的技术原理和实现细节 , 为了避免被扣上吹牛逼的帽子 , 我会尽量给出对应的 proof:即如何通过公众版 magi.com 针对性地验证对应的特性 , 同时让不懂技术的朋友也能直观地体验并理解 。 magi.com 搜索示例: \n 利用率和通用性 本节主要介绍以下两点: 1. 能够 exhaustively 提取重叠交错的知识 , 且不利用 HTML 特征;2. 不预设 predicate / verb , 实现真正意义上的 “Open” Information Extraction; 举个例子 , 通过阅读 “美国总统特朗普的女婿库什纳担任白宫高级顾问这一职位” , 人类起码能看出以下关系: 美国-总统=特朗普 , 特朗普-女婿=库什纳 , 库什纳-职位=白宫高级顾问 , 白宫高级顾问∈职位 , 白宫高级顾问?高级顾问 , 白宫高级顾问?顾问 , … 这对人类来说不算什么 , 但让计算机获得上述能力则非常困难 。 我们先回顾一下历史:Hendrickx et al. (2009) 设计了信息关系抽取领域的经典任务 SemEval-2010 Task 8 , 其中规定了两个 nominals 之间 9 种区分顺序的 semantic relations , 可以抽象为 19-class 的分类问题 (2x9关系+1无关) , 比如 “Member-Collection” 这一关系指某实体是某集合的一员 。 事实上 , 几乎所有信息抽取系统都需要明确或隐含地预设此类语义关系 , 具体体现为关键动词表或隐含的期望 predicate 等形式 。 以最常见的金融领域应用为例 , 某特定产品只需要在一篇公告中找出客户所关心的信息 , 如 “A 投资了 B”、“C 本季收入 [\\d\\.
推荐阅读
- 魔兽世界|魔兽世界TBC:猎人宠物挑选指南,引怪是其次,这个误区不能犯
- 三国杀|国杀:这个武将再改后,让“杀我”神将的阵营再次壮大!
- 永劫无间|国产游戏优化都不行?永劫无间更新“黑科技”,玩家:丝滑般体验
- 毒液|《毒液2》将无缘内地市场,但你或许可以看看这个游戏
- lpl|LPL给Jankos发奖状:为了表达谢意,我们制作了这个奖状
- 梦幻西游|梦幻西游:这个赚钱套路,五步甘拜下风!
- 吕蒙|三国志战略版:吕蒙、关银屏黑科技联动,技穷、缴械全都有
- 黄忠|三国志战略版黄忠蜀盾黑科技,蜀盾内战和打弟弟一样!
- 师父|一梦江湖的模范师父原来都是这个样子,玩家:强烈要求换师父!
- jiejie|Jiejie接受四叔这个称呼,那叫赵四吧