风险|筛选风险词、用实体类型推断限售商品,阿里安全夺冠知识图谱大赛( 三 )
文章图片
必杀属性示意图
基于第一部分生成的 train , 构建了一套自动生成「必杀」特征的逻辑 , 如下(1)对所有标签为游戏的数据进行统计 , 生成如下统计结果:
- 游戏类型 310 次
- 发行厂商 320 次
- 中文名 2000 次

文章图片
必杀属性计算样例
利用分值大于 6 的「必杀」特征 , 重新打标数据 。 除了「必杀」属性之外 , 阿里安全基于「模式匹配法」统计相同属性出现的频率 。 一方面 , 可以过滤掉低频属性 , 另一方面 , 基于假设:待验证实体的属性与 M 类属性共现的次数远远大于 N 类属性共现次数 , 可以判断该实体属于 M 类 。 用这种方法纠正了错误实体分类 , 如下图所示:

文章图片
整体迭代的过程如下:

文章图片
模式匹配法示意图
应用场景
违规商品检测
各电商平台上每天都会出现各种各样的新产品 , 当面对新型商品时 , 如何判断其是否属于违规的商品类型则成为了一个非常重要的事情 。 当出现以一个新的商品种类的时候 , 实体类型推断模块可以借助商品的描述信息 , 对此品类的商品进行类型推断 , 从而自动发现一些新的禁限售商品 , 从而提升违规商品的防控水位 。
因此 , 实体类型推断在知识图谱中具有非常重要的价值 , 因此该任务也一直是研究的热点 。 而在实际应用场景中 , 新实体往往不会有百科那样多的文本特征使用 , 因此如何利用有限的数据资源 , 训练出更准确的实体类型推断系统则成为了一个非常有挑战的问题 。
随着近期 prompt 方式的飞速发展 , 小样本甚至零样本的分类方法的效果都得到了大幅度的提高 。 但是在目前工业界主流的应用场景 , 还是强依赖于标注数据的高成本运作方式 。 未来 , 希望可以出现一套低成本且快速的范式 , 有效解决目前实体类型推断的难题 。
推荐阅读
- AI财经社|“元宇宙第一股”来了:赚钱能力存疑,行业风险未知
- IT|加拿大研究显示因感染新冠病毒住院的儿童出现严重并发症的风险较高
- IT|一图速览全国各地出行政策:多地要求低风险地区返乡也需核检
- 媒体播放器|B站发布公告 将集中治理低俗类词语
- 警告!|专家:新兴娱乐方式快速发展 或给青少年带来社交、安全等风险
- 液氮|组织研磨仪词厂家教你含氟特性样品的研磨实验如何高质量研磨处理
- 风险|莫给虚拟货币“矿场”留空间
- 词频|18世纪就有GTA?词频统计器里的另一部“近现代史”
- 社交|瑞士军队放弃WhatsApp并转投Threema以规避境外数据管辖风险
- 奥秘|有望助力识别潜在疾病风险!复旦大学和中科院团队发现指纹基因奥秘