7.5亿美元做代码转换?一个Facebook TransCoder AI就够了!

简介: 代码的迁移和语言转换是一件很困难且昂贵的事情,澳大利亚联邦银行就曾花费5年时间,耗费7.5亿美元将其平台从COBOL转换为Java。而Facebook最近宣称,他们开发的一种神经转换编译器(neural transcompiler),可以将一种高级编程语言(如C ++,Java和Python)转换为另一种,效率飞起!

微信图片_20220109012059.png


从 COBOL 到 Java,TransCoder能帮你省下7.5亿美元


不同的编程语言之间也可以自动转换了!


 要知道,将现有的代码库迁移到现代或者更有效的语言,如 Java 或 c + + ,需要精通源语言和目标语言,而且无论是金钱还是时间耗费都十分高昂。


澳洲联邦银行在过去五年中花费了大约7.5亿美元将其平台从 COBOL 转换为 Java。


微信图片_20220109012101.png

但是,Facebook最近开发的神经转换编译器TransCoder让代码转换出现了新的转机。该系统可以将代码从一个高级语言转换成另一个,比如 c + + 、 Java 和 Python。


这个系统是弱监督的,可以在没有标签的数据集中寻找以前未检测到的模式,只需要少量的人工监督。研究人员称,这比基于规则数据集的模型要高效得多。


   微信图片_20220109012103.png


理论上,代码转换编译器能够提供很多的帮助,让开发者无需从头重新写代码。


但实践中,代码转换是一件很困难的事情,因为不同语言依赖于不同的语法准则,不同的平台api、标准库函数和可变类型。 


因此,TransCoder的面世,无疑是企业的福音。因为他们不必像澳洲联邦银行那样,再去耗费大量的时间和金钱去做代码转换的复杂工作,只需要选择Facebook,选择TransCoder,平台迁移即可迎刃而解。 从Java到C++,TransCoder转换准确率超九成!


TransCoder是基于跨语言模型预训练去做的模型初始化,这样的训练不着眼于编程语言的类型,而仅仅将表示相同指令的代码段映射为相同的表示形式。 


之所以TransCoder能进行跨语言模型的训练,是因为系统的标记原理着眼于跨语言之间的共同关键字,如「if」,「for」等,以及数字、数学运算符和出现在源代码中的英语字符串。


这样反向翻译之后通过源-目标模型和并行训练的目标-源模型耦合,从而提高了训练的质量。 


研究人员为了评估TransCoder的性能,从GeeksforGeeks中提取了852个C ++,Java和Python并行函数,利用这些不同语言的转换来测试函数语义是否精准,测试的结果如下:


微信图片_20220109012105.png


GeeksforGeeks是一个在线平台,用于收集编写代码时的问题,并提供多种编程语言的解决方案。 


研究人员称,TransCoder在实验过程中展示了对每种语言特有语法的理解能力,并且能够适应小范围的修改。


尽管这个模型并不完美,但是性能优于已有的利用专家知识手动构建的框架。 从自然语言翻译到代码翻译,seq2seq再立新功


TransCoder使用了经典的序列到序列(seq2seq)模型,该模型由基于Transformer的编码器和解码器组成,seq2seq模型的好处在于,你只需要有对应的输入输出即可,而不需要关心是哪两种编程语言。 


TransCoder仿照Lample等人中确定的无监督机器翻译流程进行训练,包括初始化,语言建模和反向翻译。


实验表明以跨语言方式对整个模型(不仅是单词表示形式)进行预训练显著改善了无监督机器翻译的效果,TransCoder遵循Lample和Conneau 的预训练策略,其中跨语言模型(XLM)在单语言的源代码数据集上,使用遮罩语言建模进行了预训练。


     微信图片_20220109012107.png     

TransCoder的转换原理 


其中,跨语言本质来源于多种语言中的大量通用标记(锚点)。


在英语-法语翻译的上下文中,锚点主要由数字、城市、人名等组成,而在编程语言中,这些定位点来自常见的关键字(for,while,if,try等),以及源代码中出现的数字,运算符和英语字符串等。 


seq2seq模型的编码器和解码器由预训练的XLM模型参数进行初始化。


对于编码器而言,初始化非常简单,因为它与XLM模型具有相同的体系结构。


但是解码器具有与attention机制有关的额外参数,所以这部分采用了随机初始化。 


XLM预训练允许seq2seq模型生成输入序列的高质量表示。


然而,解码器缺乏翻译能力,因为从未训练过解码器基于源表示对序列进行解码。为了解决这个问题,TransCoder利用降噪自编码(DAE)对序列进行编码和解码,再对模型进行训练。 


在测试时,模型可以对Python序列进行编码,并使用C ++起始符号对其进行解码以生成C ++转换。


C ++转换的质量取决于模型的「跨语言」性能:如果Python和C ++转换被编码器映射到相同的表示,则解码器将成功生成对应的C ++代码。 


实际上,仅XLM预训练和降噪自编码就足以生成翻译。


但是,这些翻译的质量往往很低,因为该模型从未对编程语言实现的功能进行训练。TransCoder为了解决这个问题,使用了反向翻译,这是在弱监督的情况下利用单语言数据的最有效方法。 


在无监督的情况下,源到目标模型与后向的目标到源模型是并行训练的。


目标到源模型用于将目标序列翻译成源语言,从而产生与真实目标序列相对应的嘈杂源序列。然后以弱监督的方式训练源到目标模型,从前面生成的嘈杂源序列中重建目标序列,反之亦然,并行训练两个模型直到收敛。


作者简介


 该论文一作Marie-Anne Lachaux,目前是Facebook人工智能研究院NLP方向研究员,巴黎高等电信学院计算机图像学学士,伦敦国王学院计算机图像学硕士,曾在达索系统(Dassault Systèmes)担任研究员。


主要研究方向为计算机视觉和图像识别,计算机神经网络。 在达索担任研究员期间,Marie-Anne Lachaux主要方向为拓扑优化研究。


拓扑优化是设计机械零件的一种新方法,其目的是在保持机械性能的同时大量减少零件的质量。拓扑优化的实现方法是基于Visual Studio,c++和许多经典库,这为Marie-Anne Lachaux在Facebook开展NLP研究奠定了基础。    


 微信图片_20220109012109.png      

此前,已经有很多基于深度学习的代码自动补全,效果也十分惊艳,而基于规则的代码转换也有不少项目,但大多数泛化能力不强,毕竟能写的规则有限。 


TransCoder基于深度学习进行代码转换,无视了这些规则,直接端到端,对相关工作还是有很大的启发,如果TransCoder准确率持续提升,那算法模型工程化的工作量将大幅缩减,程序员的编码效率也将有质的飞跃。


参考链接:

https://arxiv.org/pdf/2006.03511.pdf

https://venturebeat.com/2020/06/08/facebooks-transcoder-ai-converts-code-from-one-programming-language-into-another/

相关文章
|
1月前
|
存储 人工智能 开发工具
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
1426 4
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
|
18天前
|
人工智能 开发者
|
4天前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI:机器学习的魔法与代码
【10月更文挑战第33天】本文将带你走进AI的世界,了解机器学习的原理和应用。我们将通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是AI新手还是有经验的开发者,这篇文章都会给你带来新的启示。让我们一起探索AI的奥秘吧!
|
1月前
|
人工智能 IDE Java
AI 代码工具大揭秘:提高编程效率的必备神器!
【10月更文挑战第1天】近年来,人工智能得到了迅猛的发展,并在各行各业都得到了广泛应用。尤其是近两年来,AI开发工具逐渐成为开发者们的新宠,其中 GitHub Copilot 更是引发了无限可能性的探索。
91 9
AI 代码工具大揭秘:提高编程效率的必备神器!
|
22天前
|
人工智能
|
16天前
|
人工智能 机器人 API
【通义】AI视界|谷歌Q3财报:Gemini API六个月增长14倍,公司超25%的新代码由AI生成
本文内容由通义自动生成,涵盖谷歌Q3财报、马斯克xAI融资、九巨头联盟挑战英伟达、Meta加大AI投入及麻省理工研究LLM与人脑相似性等热点资讯。更多精彩内容,请访问通通知道。
|
19天前
|
Serverless 数据安全/隐私保护 前端开发
大模型代码能力体验报告之贪吃蛇小游戏《一》:Claude.ai篇 - 生成、预览和快速部署的serverless一条龙
本文介绍了通过Claude.ai生成并优化Web版贪吃蛇游戏的过程,展示了其强大的代码生成功能及用户友好的界面设计。从初始版本的快速生成到根据用户反馈调整游戏速度,再到提供多种实用工具如文件管理、版本控制和一键部署,Claude.ai不仅是一个代码助手,更像是一个全面的serverless开发平台。文中还呼吁国内厂商关注此类技术的发展。
|
2月前
|
人工智能 机器人 Serverless
不用一行代码,如何10分钟快速打造AI助手?
推荐免费下载《10分钟打造专属AI助手》电子书,助力快速搭建AI客服系统。 本文介绍了如何在10分钟内构建能主动提问的智能导购系统,提升客户体验。通过阿里云平台,无需编码即可创建具备大模型能力的AI机器人,实现7x24小时商品推荐与客户服务。文中详细描述了从创建函数计算应用、访问示例网站到验证智能导购效果的全过程,并提供了关键代码示例。此外,还介绍了如何将智能导购集成到生产环境的方法,包括修改知识库和源码以适配具体产品。
434 18
|
25天前
|
人工智能 算法 数据挖掘
AI心语:智能代码与人为艺术的融合
在这个数字时代,人工智能似乎无所不能。它下棋能赢过世界冠军,写文章可骗过编辑,甚至画画能展览于画廊。但AI真的懂得创作吗?还是它仅仅是高级的模仿者?本文将深入探讨AI在艺术创作中的角色,以及它对人类创造力的影响。
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】AI 系统与程序代码关系
在人工智能领域,系统与程序代码间的关系错综复杂。AI系统的设计需高效代码支撑,而代码优化与执行又受制于系统设计。本文剖析二者间的互动及其对AI进步的关键作用,涵盖AI训练流程、经典模型LeNet5实现、底层算子与系统问题,并探讨如何通过高效代码与系统优化推动AI技术革新,提升模型性能。欢迎访问昇腾社区获取更多AI学习资源与实践机会。
34 0

热门文章

最新文章