风险|筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛( 三 )

风险|筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛
文章图片

必杀属性示意图
基于第一部分生成的 train , 构建了一套自动生成「必杀」特征的逻辑 , 如下(1)对所有标签为游戏的数据进行统计 , 生成如下统计结果:

  • 游戏类型 310 次
  • 发行厂商 320 次
  • 中文名 2000 次
以及(2)统计每个特征在其它类型中出现次数;(3)用在本类中出现的次数 / 其它类出现的次数 , 即为该特征的「必杀」特征 。
风险|筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛
文章图片

必杀属性计算样例
利用分值大于 6 的「必杀」特征 , 重新打标数据 。 除了「必杀」属性之外 , 阿里安全基于「模式匹配法」统计相同属性出现的频率 。 一方面 , 可以过滤掉低频属性 , 另一方面 , 基于假设:待验证实体的属性与 M 类属性共现的次数远远大于 N 类属性共现次数 , 可以判断该实体属于 M 类 。 用这种方法纠正了错误实体分类 , 如下图所示:
风险|筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛
文章图片

整体迭代的过程如下:
风险|筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛
文章图片

模式匹配法示意图
应用场景
违规商品检测
各电商平台上每天都会出现各种各样的新产品 , 当面对新型商品时 , 如何判断其是否属于违规的商品类型则成为了一个非常重要的事情 。 当出现以一个新的商品种类的时候 , 实体类型推断模块可以借助商品的描述信息 , 对此品类的商品进行类型推断 , 从而自动发现一些新的禁限售商品 , 从而提升违规商品的防控水位 。
因此 , 实体类型推断在知识图谱中具有非常重要的价值 , 因此该任务也一直是研究的热点 。 而在实际应用场景中 , 新实体往往不会有百科那样多的文本特征使用 , 因此如何利用有限的数据资源 , 训练出更准确的实体类型推断系统则成为了一个非常有挑战的问题 。
随着近期 prompt 方式的飞速发展 , 小样本甚至零样本的分类方法的效果都得到了大幅度的提高 。 但是在目前工业界主流的应用场景 , 还是强依赖于标注数据的高成本运作方式 。 未来 , 希望可以出现一套低成本且快速的范式 , 有效解决目前实体类型推断的难题 。

推荐阅读