清华CodeGeeX项目原作解读:大规模多语言代码生成模型

简介: 清华CodeGeeX项目原作解读:大规模多语言代码生成模型

近年来,大规模预训练模型在各个领域取得飞速进步,不仅是文本、图像领域,用于代码领域也可以取得惊人的效果。OpenAI 的 Codex 模型首次展示了代码预训练模型的强大能力,并以此为基础开发了 Copilot 插件。然而,闭源、收费等特性使 Copilot 饱受研究者和程序员们的争议。

为了让更多研究者能参与到这一领域的探索、让广大程序员能够免费体验到自动代码生成带来的便利,清华大学知识工程实验室团队主导研发了 CodeGeeX,一个具有 130 亿参数的多编程语言代码生成预训练模型,采用华为 MindSpore 框架实现,在鹏城实验室 “鹏城云脑 II“平台上使用 1536 个昇腾 910 AI 处理器,在 20 多种语言的语料库上历时两个月训练得到。CodeGeeX 支持十多种主流编程语言的生成及翻译,在新的多语言基准 HumanEval-X 取得超过所有开源模型的效果。此外,团队和智谱 AI 合作,基于 CodeGeeX 开发了免费的 VS Code 插件,同时正在开发其他平台插件,帮助广大程序员提高开发效率。CodeGeeX 开源开放,所有代码和模型权重均已开源,并同时支持昇腾和英伟达平台。

机器之心最新一期线上分享邀请到了清华大学知识工程实验室研究助理郑勤锴,介绍 CodeGeeX 的技术原理、实现过程、评估指标,以及插件的使用教程等。


分享主题:CodeGeeX:大规模多语言代码生成模型

分享嘉宾:郑勤锴,清华大学知识工程实验室研究助理,本科及硕士毕业于上海交通大学,并取得巴黎高等电信学校工程师学位,研究领域是基于预训练模型的代码生成。

分享摘要:CodeGeeX 是一个具有 130 亿参数的多语言代码生成预训练模型,由清华大学知识工程实验室团队研发,支持十多种主流编程语言的生成及翻译,并开发了免费的 VS Code 插件,帮助广大程序员提高开发效率。本次报告将介绍 CodeGeeX 的技术原理、实现过程、评估指标,以及插件的使用教程等。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/codegeex

2)GitHub 链接:

https://github.com/THUDM/CodeGeeX

3)技术博客:

https://models.aminer.cn/codegeex/blog/index_zh.html

4)主页(含在线DEMO):

https://models.aminer.cn/codegeex/zh-CN/

5)免费的 VS Code 插件:

https://marketplace.visualstudio.com/items?itemName=aminer.codegeex

相关文章
|
存储 SQL 缓存
Hadoop入门(一篇就够了)
Hadoop入门(一篇就够了)
31892 4
Hadoop入门(一篇就够了)
|
设计模式 开发框架 前端开发
项目开发中,真的有必要定义VO,BO,PO,DO,DTO这些吗?
存在即是合理的,业务复杂,人员协同性要求高的场景下,这些规范性的东西不按着来虽然不会出错,程序照样跑,但是遵守规范会让程序更具扩展性和可读性,都是前辈血淋淋的宝贵经验,为什么不用?
|
安全 网络协议 API
Docker搭建Let's Encrypt并连接阿里云自动签发https证书
Docker搭建Let's Encrypt并连接阿里云自动签发https证书
Docker搭建Let's Encrypt并连接阿里云自动签发https证书
|
16天前
|
人工智能 运维 自然语言处理
有哪些电信行业 Agent 案例?全场景标杆实践与数据解析
凌晨两点流量超支?5G基站突发故障?背后均有电信智能Agent在高效响应。从客服、运维到营销、政企服务,AI智能体正重构电信全业务链,实现降本30%、提效10倍、投诉下降72%。本文全景解析六大核心场景落地案例与技术路径,揭秘如何用实在Agent等产品推动电信智能化跃迁。
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
504 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
12月前
|
人工智能 自然语言处理 Go
[langchaingo] 智谱GLM-4在线模型体验
本文介绍如何使用Go语言版的Langchain框架——langchaingo,结合清华大学KEG实验室开发的GLM-4模型,在本地运行AI项目。GLM-4是一个先进的自然语言处理模型,支持多种任务。通过智谱AI开放平台注册可获1000w token用于测试。文章展示了langchaingo的基本配置、构建聊天内容及生成回复的过程,并简要总结了项目的现状和未来更新计划。
713 14
|
9月前
|
Linux 虚拟化 数据安全/隐私保护
系统崩溃不用慌!VMware这个逆天功能竟能让CentOS一键回档?后悔药真实存在!
备份的重要性在于它能在系统出现异常或错误时,帮助我们快速恢复到正常状态,避免重新安装系统和配置环境。VMware 提供了两种备份方式:快照和克隆。 **快照**是保存虚拟机某一时刻的完整状态(包括内存、CPU、磁盘数据),便于快速回滚,适合临时保存状态。操作简单,可在系统运行时创建。 **克隆**则是复制整个虚拟机系统,侧重长期备份,需在系统关闭时进行。分为完整克隆和链接克隆,前者独立于源系统,占用更多空间,但更安全可靠。
400 17
系统崩溃不用慌!VMware这个逆天功能竟能让CentOS一键回档?后悔药真实存在!
|
搜索推荐 Python
快速排序的 Python 实践:从原理到优化,打造你的排序利器!
本文介绍了 Python 中的快速排序算法,从基本原理、实现代码到优化方法进行了详细探讨。快速排序采用分治策略,通过选择基准元素将数组分为两部分,递归排序。文章还对比了快速排序与冒泡排序的性能,展示了优化前后快速排序的差异。通过这些分析,帮助读者理解快速排序的优势及优化的重要性,从而在实际应用中选择合适的排序算法和优化策略,提升程序性能。
373 1
|
数据挖掘 Python
Python随机效应模型
Python随机效应模型
251 3