Microsoft|[图]微软开源多项工具和数据集 让语言模型更和谐
今天微软宣布多项工具和数据集开源,这些工具旨在审计 AI 驱动的内容审核系统,以及自动编写突出显示 AI 模型中潜在错误的测试 。微软表示 AdaTest 和 (De)ToxiGen 项目可以产生更可靠的大型语言模型 (LLMs),或者类似于 OpenAI 的 GPT-3 的模型,用于分析和生成具有人类水平复杂性的文本 。
访问:
微软中国官方商城 - 首页
文章图片
目前 LLMs 存在诸多风险 。因为这些模型经过了大量来自于互联网(包括社交媒体)的数据培训,因此它们在训练过程中可能会遇到有毒文本(toxic text) 。由于重新训练模型的成本以及存在的大量错误,发现和修复这些模型中的缺陷仍然是一个挑战 。
为了解决毒性问题,Microsoft Research 团队开发了 ToxiGen,这是一个用于训练可用于标记有害语言的内容审核工具的数据集 。据微软称,ToxiGen 包含 274,000 个“中性”(neutral)和“有毒”(toxic)陈述的示例,使其成为最大的公开仇恨言论数据集之一 。
文章图片
Microsoft Research 合作伙伴研究领域经理、AdaTest 和 (De)ToxiGen 项目负责人 Ece Kamar ToxiGen 表示
我们认识到任何内容审核系统都会存在差距,这些模型需要不断改进 。(De)ToxiGen 的目标是让 AI 系统的开发人员能够更有效地发现任何现有内容审核技术中的风险或问题 。为了生成样本,Microsoft Research 团队提供了一个针对 13 个少数群体的“中性”陈述和仇恨言论的 LLM 示例,这些群体包括黑人、身体和认知障碍者、穆斯林、亚洲人、拉丁裔、LGBTQ+ 和美洲原住民 。这些陈述来自现有的数据集以及新闻文章、观点文章、播客记录和其他类似的公共文本来源 。
我们的实验表明,该工具可用于测试许多现有系统,我们期待从社区中学习将从该工具中受益的新环境 。
![Microsoft|[图]微软开源多项工具和数据集 让语言模型更和谐](http://techimg88.easyfang.com/img.php?https://static.cnbetacdn.com/article/2022/0524/066439a5ebb0877.webp)
文章图片
微软团队解释说,用于创建 ToxiGen 语句的过程被称为 (De)ToxiGen,旨在通过指导 LLM 生成工具可能错误识别的语句来揭示特定审核工具的弱点 。通过对三个人工编写的毒性数据集的研究,该团队发现从一个工具开始并使用 ToxiGen 对其进行微调可以“显着”提高该工具的性能 。
![Microsoft|[图]微软开源多项工具和数据集 让语言模型更和谐](http://techimg88.easyfang.com/img.php?https://static.cnbetacdn.com/article/2022/0524/fdae4a906a7a9df.webp)
文章图片
【Microsoft|[图]微软开源多项工具和数据集 让语言模型更和谐】微软团队认为,用于创建 ToxiGen 的策略可以扩展到其他领域,从而产生更多“微妙”和“丰富”的中立和仇恨言论示例 。但专家警告说,这并不是万能的 。
推荐阅读
- AMD|AMD官宣智能访问存储技术 携微软DirectStorage API改善游戏加载体验
- IT|日本三菱K-Car“eK X EV”官图发布:续航180公里 售价约合人民币9.7万元
- Microsoft|微软悄然邀请用户测试新版OneNote
- Windows|微软正在提前发布Windows 11 22H2的桌面墙纸Spotlight功能
- ASUS|华硕X670主板图曝光:采用双芯片设计
- Microsoft|Surface Duo 3?微软为新的可折叠手机申请专利 配备耐用显示屏
- Windows|微软的Windows 11实体U盘安装介质印的是Windows 10的标志
- Microsoft|Windows 11部分版本的任务管理器CPU使用率数据被认为是不准确的
- 通信技术|美国计算机协会(ACM)数字图书馆档案馆开放50年来的出版记录
- 安全|Pwn2Own 2022黑客大赛继续拿下特斯拉、微软和Ubuntu