
文章图片

文章图片

文章图片
随着注释语料库的出现 , 例如2011年和2013年的药物-药物相互作用提取挑战和基准语料库 , 人们对通过机器学习提取药物-药物相互作用的兴趣有所增加 。 过去 , 该任务的最佳架构称为FBK-irst , 它基于具有多相内核的支持向量机 。 然后 , 科学家提出了方法 , 该方法使用了多个特征 , 例如句法结构和相对位置 。 其他系统已经基于具有更多改进功能的支持向量机 。
然而 , 这些方法也严重依赖繁琐的特征工程和冗余特征选择 。 此外 , 特征集的监督定义将减少发现其他有价值模式的机会 。 深度学习允许模型自动学习数据的表示 。 它的出现为计算机视觉、自然语言处理和语音识别带来了突破 。 鉴于其在大多数领域的表现 , 深度学习已成为生物医学信息学的主要方法 。 与自然语言处理中的关系提取类似 , 一些基于深度学习方法的有前途的方法为药物-药物相互作用提取带来了令人兴奋的新机会 。
一些已发表的文章和评论提供了不同的技术来从其他类型的数据中发现药物-药物相互作用 , 但科学家们专注于文本数据 。 科学家们对深度学习技术在药物-药物相互作用提取领域的最新成就进行了全面的回顾 。 药物-药物相互作用抽取是一种典型的关系抽取任务 , 从自然语言文本中抽取各种实体之间的语义关系 。 应用于关系提取的机器学习技术可以分为监督方法、半监督方法、无监督方法和远距离超级视觉 。
监督方法需要带注释的训练数据 , 其中每个对实体都用预定义的关系类型进行标记 。 有一些公共数据集 , 尽管数据包含高质量的元组 , 但这些数据集通常很小且生产成本很高 。 此外 , 监督分类器特定于某个垂直领域并且难以扩展 , 因为它们需要新的带注释的训练数据来检测新的关系类型 。 半监督学习也是自然语言处理中的一个重要课题 , 它使用一些小数据集来学习如何提取关系并依靠引导技术来利用未标记的数据 。
主要的半监督关系提取方法包括引导方法、主动学习和标签传播方法 。 自举算法使用一些种子实例来学习用于提取关系的模式 。 主动学习的主要思想是允许学习方法要求选择未标记数据的真实标签 。 学习系统和其他方法基于主动学习 , 并实现了与监督方法相当的性能 。 标签传播是一种基于图的方法 , 其主要优点是标签由图中几乎标记的实例和几乎未标记的实例决定科学家们提出了无监督关系提取方法 。 并进一步应用于开放信息提取 。
他们通常使用基于聚类的模型来分配实例的标签 。 尽管无监督方法不需要任何训练数据 , 但结果并不理想 。 此外 , 结果很难解释和映射到现有的关系 。 科学家们提出了远程监督 。 作为关系提取的有效方法 。 远程监督结合了半监督和无监督关系提取方法的优点 , 它们可以从文本中提取新的三元组 。 远程监督利用以半结构化方式存储数据的大规模知识库来自动标记训练数据 。
【人们对通过机器学习,提取药物间相互作用的兴趣有所增加】不幸的是 , 由于两个相关实体可能同时出现在一个不表达它们关系的句子中 , 并且知识库总是不完整的 , 这些标记数据通常包含噪声数据 , 即错误标签和缺失标签深度学习在远程监督关系提取中的第一个应用是分段卷积神经网络 , 它优于基于特征的方法 。 此外 , 其他深度学习模型的性能明显优于非深度学习模型 。 深度学习被认为会影响未来的关系提取 。
推荐阅读
- 他“黑”到的绝密文件,每一个都让你颠覆认知!
- 跨物种恋爱“虎羊恋”,羊胖40斤后分手,老虎:爱过
- 永恒的宇宙也有终结的那天,宇宙存在的意义是什么?
- 美国暴雨过后,天上竟下起了鱼,还有下过青蛙的地方,天降异象!
- 外部生物医学资源有助于许多生物医学研究,例如测量医学相似性等
- 你见过有毒的鸟类吗?黑头林鵙鹟和蓝顶鹛鸫告诉你:鸟也可以有毒
- 地球的自转速度为何越来越慢?过去的半个世纪你多拥有27秒时间!
- 刚被评为院士,就遭到科学家联合抵制,马斯克做了什么?
- 研究显示:精子像钻头一样钻入体内!它“欺骗”了科学家300多年