pdf|C代码写的比Codex还溜的AI神器开源
整理 | 章雨铭 责编 | 张红月
出品 | CSDN(ID:CSDNnews)
近几年来 , AI 代码生成器十分流行 , 从OpenAI的Codex再到DeepMind的AlphaCode 。 DeepMind甚至表示 , AlphaCode在Codeforces(一个编程竞赛平台)举办的编程竞赛(有5000多名参赛者)中 , 取得了平均排名前54.3%的成绩 , 并且声称它是首批可与人类程序员竞争的代码生成系统之一 。 但无论是Codex还是AlphaCode , 截止目前都还没有对外开源 。
卡内基梅隆大学(Carnegie Mellon University , 以下简称CMU)的研究人员表示 , “大型科技公司没有公开发布他们的模型 , 这确实阻碍了科学研究和这种大型语言模型代码的应用 。 ”为此 , 几个来自CMU的研究人员开发了PolyCoder——一个具有 27B 参数 , 基于 GPT-2 架构且开源的自动代码生成器模型 , 在12种编程语言的249GB代码数据库中进行训练 。
文章图片
12种编程语言代码集
研究人员声称 , PolyCoder在编写C语言方面的表现优于所有的已知模型(包括Codex) 。
和其他开源模型比较 , PolyCoder在C、Java、Rust、Scala和Type方面的表现都比类似模型GPT-Neo 2.7B要好 。
文章图片
但是在C语言之外的其他十一种语言中 , 所有其它开源模型包括PolyCoder可能要略逊Codex 。
作为一个开源的 AI 代码生成器 , PolyCoder算是取得了不错的成绩 。 但研究人员担心 , 像PolyCoder这样的模型可能会提示生成有漏洞的程序 , 即使是带有一些难以检测的安全漏洞程序 。 而且他们还担心未来其对手可以在代码生成模型中“隐藏”恶意行为 , 所以他们建议将Codex大小的模型开源 , 这不仅可以避免上述情况的发生 , 还有另一个额外的好处 , 即开发人员可以通过微调对模型进行个性化操作 , 这比从头训练模型的成本低很多 。
其研究人员还表示 , 希望能够通过开源 , 节约资源以及促进科技研究的发展 。
参考资料:
- https://arxiv.org/pdf/2202.13169.pdf
- https://venturebeat.com/2022/03/04/researchers-open-source-code-generating-ai-they-claim-can-beat-openais-codex/
《新程序员001-004》全面上市 , 对话世界级大师 , 报道中国IT行业创新创造
— 推荐阅读 —
? 红帽、Docker、SUSE 在俄罗斯停服
?操作系统两大创始人反目 , 这个排名第九的 Linux 发行版 OS 何去何从?
【pdf|C代码写的比Codex还溜的AI神器开源】? CSDN联合腾讯云重磅发布“腾讯云数据库TDSQL工程师路线图”
推荐阅读
- 侵权|蚂蚁集团开源迄今为止最大规模视频侵权定位数据集和代码
- 安全|知名安全软件卡巴斯基疑似被黑 黑客宣称要放出源代码
- 代码|[原]C代码写的比Codex还溜的AI神器开源
- Open|蚂蚁集团开源最大规模视频侵权定位数据集和代码
- Samsung|三星“后院失火”:200G源代码泄露、芯片代工良品率仅三成
- 源代码|[原]GitHub还是GitLab?谈谈两者的区别
- 软件和应用|会写代码的AI开源了:掌握12种编程语言 C语言写得比Codex还要好
- and|实例解析如何才能把Essay写的有逻辑性
- Issues|JimuReport积木报表 v1.4.3版本发布,免费的可视化低代码报表
- 黑客|三星证实遭黑客入侵:Galaxy 手机源代码泄露,用户信息不受影响
