CodeFuse团队2024年10篇论文总结

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: CodeFuse 是蚂蚁集团开发的多语言代码大型语言模型(LLM),基于海量高质量代码数据和多任务微调技术,已在内部研发人员的编码、测试、运维等场景中广泛应用。2024年,CodeFuse 在国际顶会如ICSE、ICDE、KDD等发表多篇论文,涵盖CodeLLM、机器学习、AI等领域,并开源多个自研大模型,总下载量近200万。项目持续迭代,欢迎贡献和建议。

CodeFuse 源于蚂蚁自身的开发场景及代码库沉淀,基于海量高质量代码数据和代码领域特色词表,以及多任务微调技术 MFT,在一万多蚂蚁内部研发人员的日常编码、测试、运维等场景中经过反复验证与迭代。当前,CodeFuse 已从单环节智能化(如开发、测试和运维)演进到了企业级端到端的研发智能体的探索。开源了多个自研和微调的代码大模型,模型总下载数近 200 万。2024 年 1 月还在 Big Code Model LeaderBoard 的评测中实现登顶,受到众多开发者的欢迎。

1.png

2024 年,我们的足迹遍布 ICSE、ICDE、ICWS、KDD、ACL 和 EMNLP 等国际顶会,涵盖 CodeLLM、机器学习、AI、Embedding 等核心前沿技术领域。在此,我们诚挚欢迎优秀人才关注和加入!下面介绍 CodeFuse 团队在 2024 年的 10 篇论文总结,介绍在过去的 2024 年,团队录用论文情况。(点击文中🔍处可跳转至技术解析原文

[1] 🔍CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model, ICSE-SEIP 2024.

中文标题:关于 CodeFuse-13B 模型的构建过程和评测;

收录方:ICSE

作者:Peng Di, Jianguo Li, Hang Yu, et.al.

相关开源项目:

所属核心前沿技术领域:CodeLLM

下载链接:https://dl.acm.org/doi/10.1145/3639477.3639719

简介:

《CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model》论文针对蚂蚁集团的现实应用场景,详细介绍了 CodeFuse-13B 预训练模型的数据准备和训练过程,揭秘了 CodeFuse 是如何成为一款能够同时处理英文和中文提示的高效预训练代码大型语言模型(LLM)。论文还对 CodeFuse 在代码生成、翻译、注释和测试用例生成等应用场景中的性能进行了评估。CodeFuse-13B 在蚂蚁集团内广泛应用,并通过不断引入新技术,取得了持续的性能改进。

2.png

[2] 🔍VDTuner:Automated Performance Tuning for Vector Data Management Systems, ICDE 2024.

中文标题:关于推理加速中,向量数据库加速优化的技术;

收录方:ICDE

作者:Tiannuo Yang, Wen Hu, Wangqi Peng, Yusen Li, Jianguo Li, Gang Wang, Xiaoguang Liu

所属核心前沿技术领域:Databases (cs.DB); Machine Learning (cs.LG); Performance (cs.PF)

下载链接:https://arxiv.org/abs/2404.10413

简介:在本文中,我们提出了 VDTuner,这是一种基于学习的性能调优框架,可优化向量数据库索引和系统配置。 VDTuner 积极地在搜索速度和召回率之间取得平衡,并通过轮询结构、专门的代理模型和自动预算分配策略提供更好的性能。广泛的评估证明 VDTuner 是有效的,在调整效率方面显著优于基准,并且可针对不断变化的用户偏好和成本意识目标进行扩展。未来,我们希望将 VDTuner 扩展到在线版本,以主动捕获不同的工作负载。此外,我们还希望对其进行扩展以优化向量数据库的更多级别(例如数据分区),以进一步提高性能和资源利用率。同时,我们将探索 VDTuner 在不同向量数据库引擎以及 CodeFuse 更多相似检索(超长上下文代码生成、代码问答、代码补全等)场景的落地效果。

3.png

[3] 🔍Enabling Efficient Batch Serving for LMaaS via Generation Length Prediction, ICWS 2024.

中文标题:关于模型服务优化的,通过输出长度预测减少服务不均衡;

收录方:ICWS

作者:Ke Cheng, Wen Hu, Zhi Wang, Peng Du, Jianguo Li, Sheng Zhang

所属核心前沿技术领域:Distributed, Parallel, and Cluster Computing (cs.DC)

下载链接:https://arxiv.org/abs/2406.04785

简介:在本文中,我们提出了 Magnus 来实现 LMaaS 场景下的高效 LLM 批处理,它可以根据指令和用户输入的语义特征以及用户输入长度来预测请求生成长度。Magnus 会根据预测的请求生成长度自适应地调整批次大小,以充分利用 GPU 的并行计算能力,从而提高请求吞吐量。此外,Magnus 还通过基于批处理时间估计的 HRRN 调度来缩短请求响应时间。大量的实验证明,Magnus 可以有效降低请求响应时间并提高 LLM 批处理的吞吐量。在本文中,我们基于生成长度预测来优化静态批处理的推理效率,在未来,我们将进一步探索基于生成长度预测的请求调度方案在持续批处理中的应用。

4.png

[4] 🔍MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning, KDD 2024.

中文标题:多任务微调;

收录方:KDD

作者:Bingchang Liu, Chaoyu Chen, Cong Liao, Zi Gong, Huan Wang, Zhichao Lei, Ming Liang, Dajun Chen, Min Shen, Hailian Zhou, Hang Yu, Jianguo Li

相关开源项目:https://github.com/codefuse-ai/MFTCoder

所属核心前沿技术领域:Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

下载链接:https://dl.acm.org/doi/10.1145/3637528.3671609

简介:本文是关于 MFTCoder 技术细节的论文,CodeFuse 在 2023 年 9 月开源了一种多任务微调框架——MFTCoder,它可以实现在多个任务上同时并行地进行微调。通过结合多种损失函数,我们有效地解决了多任务学习中常见的任务间数据量不平衡、难易不一和收敛速度不一致等挑战。大量实验结果显示,相较于单独对单个任务进行微调或者多任务混合为一后进行微调,我们的多任务微调方法表现更优。此外,MFTCoder 具备高效训练特征,包括提供高效的数据 Tokenization 模式,支持 PEFT 微调和全量微调,能有效提升微调训练速度并降低对资源的需求。MFTCoder 是轻量的,简单清晰的,易于二次开发的,持续跟进 Cutting-Edge 技术的开源微调框架。

5.png

[5] 🔍D2LLM: Decomposed and Distilled Large Language Models for Semantic Search, ACL 2024.

中文标题:D2LLM:分解与蒸馏大语言模型用于语义搜索;

收录方:ACL

作者:Zihan Liao, Hang Yu, Jianguo Li, Jun Wang, Wei Zhang

相关开源项目:https://github.com/codefuse-ai/D2LLM

所属核心前沿技术领域:Computation and Language (cs.CL)、Embedding

下载链接:https://aclanthology.org/2024.acl-long.791/

简介:本研究提出了 D2LLM,一种创新的模型蒸馏方法,从大型语言模型(LLM)中提炼知识,构建一个用于语义搜索的高效的学生模型。D2LLM 通过深入地理解其教师模型,并运用专门设计的模块与损失函数,将教师模型的能力以更紧凑的形式封装。实验结果显示,D2LLM 成功地结合了交叉编码器的高准确性和双编码器的操作效率。

6.png

[6] 🔍CoCA: Fusing Position Embedding with Collinear Constrained Attention in Transformers for Long Context Window Extending.

中文标题:CoCA:自注意力的缺陷与改进;

收录方:ACL

作者:Shiyi Zhu, Jing Ye, Wei Jiang, Siqiao Xue, Qi Zhang, Yifan Wu, Jianguo Li

相关开源项目:https://github.com/codefuse-ai/Collinear-Constrained-Attention

所属核心前沿技术领域:Machine Learning (cs.LG); Artificial Intelligence (cs.AI);Computation and Language (cs.CL)

下载链接:https://arxiv.org/abs/2309.08646

简介:文章提出了一种新的自注意力架构,以解决 RoPE 和原始 Self-Attention 之间的异常行为。这是首次对自注意力机制中查询和键的相对位置的深入研究,并由此发现了此前被忽视的位置编码异常。文章进一步导出了 CoCA 的松弛实现,并在大量实验上表明了该方法在长文本扩展上的优越性。同时,CoCA 与其他优化方法的兼容性,也为其未来的实用价值提供了基础。

7.png

[7] 🔍CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models.

中文标题:CoBa:均衡多任务收敛之道;

收录方:EMNLP

作者: Zi Gong, Hang yu, Cong Liao, Bingchang Liu, Chaoyu Chen, JianguoLi

相关开源项目:https://github.com/codefuse-ai/MFTCoder

所属核心前沿技术领域:Computation and Language (cs.CL); Machine Learning (cs.LG)、LLM

下载链接:https://aclanthology.org/2024.emnlp-main.459.pdf

简介:我们提出了一种新颖的多任务学习方法 CoBa,旨在为大语言模型(LLMs)实现同时满足多任务收敛平衡和低计算复杂度的微调训练。我们采用四个真实世界的数据集进行了大量实验,验证了 CoBa 的有效性和高效性。

8.png

[8] LLMDFA: Analyzing Dataflow in Code with Large Language Models.

中文标题:LLMDFA:基于大语言模型的代码数据流分析

收录方:NeurIPS 2024

作者:Chengpeng Wang, Wuqi Zhang, Zian Su,  Xiangzhe Xu, Xiaoheng Xie, Xiangyu Zhang

相关开源项目:https://github.com/chengpeng-wang/LLMDFA

所属核心前沿技术领域:Programming Languages (cs.PL); Machine Learning (cs.LG); Software Engineering (cs.SE)

下载链接:https://arxiv.org/abs/2402.10754

简介:

随着生成式人工智能技术的迅猛发展,编程行为的重点正从代码编写逐渐转向分析和验证代码的正确性。传统程序分析技术,例如基于抽象解释、数据流分析和符号执行等理论框架的经典算法,在实践中通常面临适用性差和定制化难度高的挑战。如图 1 所示,这些方法大多依赖编译器生成的中间表示(如 C/C++ 分析中的 LLVM IR),限制了传统技术在开发阶段尚未编译的代码上的适用性,从而导致分析流程滞后。此外,实际场景中的多样化分析需求,使得程序分析技术的可定制性成为一个关键要求。然而,基于编译过程的分析通常需要深入理解编译器及其中间表示,这大幅提高了定制化分析的门槛。

9.png

[9] The Mutators Reloaded: Fuzzing Compilers with Large Language Model Generated Mutation Operators.

中文标题:大语言模型指导的变异算子生成和编译器模糊测试

收录方:ASPLOS 2024

作者:Xianfei Ou, Cong Li, Yanyan Jiang, Chang Xu

相关开源项目:https://github.com/icsnju/MetaMut

所属核心前沿技术领域:大语言模型和编译器、模糊测试

下载链接:https://connglli.github.io/pdfs/metamut_asplos24.pdf

简介:开发高质量的变异算子是变异模糊测试的核心,也是一个非常具有挑战性的任务。这是因为这一过程不仅需要人类的专业知识和创造力,还需要对编译器内部机制有深入的理解。传统上,变异算子的开发完全依赖于人工,这一过程既耗时又费力,成本高昂。在本文中,我们创新性地提出了一种基于大语言模型的技术,用于生成编译器模糊测试的变异算子,我们称其为 MetaMut。MetaMut 通过将特定的编译器领域知识整合到大语言模型的提示流程中,最大限度地发挥了这些模型的能力。利用 MetaMut,我们成功生成了 118 个语义可感知的变异算子,每个成本仅为 0.5 美元,并且几乎不需要人工干预。在将这些变异算子集成到我们新开发的模糊测试工具 uCFuzz 后,我们在 GCC 和 Clang 编译器中成功发现了 131 个缺陷,其中 129 个已被确认或修复。MetaMut 的成功表明,将人工智能,尤其是大语言模型,应用到传统上需要专家手动干预的软件和系统工程任务中,是一个极具前景的研究方向。

10.png

[10] Understanding Code Changes Practically with Small-Scale Language Models.

中文标题:探索基于小语言模型的代码变更理解

收录方:ASE 2024

作者:Cong Li, Zhaogui Xu, Peng Di, Dongxia Wang, Zheng Li, and Qian Zheng

相关开源项目:https://github.com/codefuse-ai/codefuse-hqcm

所属核心前沿技术领域:大语言模型、代码变更理解

下载链接:https://connglli.github.io/pdfs/hqcm_ase24.pdf

简介:最近的研究显示,传统的代码变更理解技术在效果上不如直接提示语言模型(LMs)。然而,当前依赖于语言模型的方法大多需要如 GPT-4 和 Llama-13b 等昂贵的大语言模型(LLMs)。由于这些模型被商业化或因为部署成本过高而难以广泛应用,其实际可用性受到限制。本文探索了在代码变更理解中应用小语言模型(SLMs)的可行性,力图在性能上与 LLMs 持平甚至超越。为此,我们开发了一个名为 HQCM 的小型高质量数据集。该数据集经过五位专家的严格审查、修订和验证。我们利用 HQCM 对目前最先进的 7b 和 220m 小语言模型进行了微调,并将其与传统技术及参数量大于等于 70b 的大语言模型进行了性能比较。评估结果验证了 HQCM 数据集的优势,表明经过 HQCM 微调的小语言模型在变更总结、变更分类和代码优化这三个任务中表现更佳。本研究表明,在受限的安全、计算及财务环境中(如工业场景和边缘设备),使用小语言模型不仅可行,还能提供一种经济高效的解决方案。这使得我们的工作与其他研究有所不同。


2025 年我们还将持续推进开源,我们欢迎您的任何建议、意见(包括批评)和贡献,可以通过 GitHub 的 Issues 提出。

参与 Codefuse 项目并为其作出贡献的方法有很多:代码实现、测试编写、文档完善等等。任何贡献我们都会非常欢迎,详见 Contribution Guide(https://codefuse.ai/contribution/contribution

如果你喜欢我们的项目,欢迎在 GitHub 上为我们点亮!


如果您想更快地获取到最新信息

欢迎加入我们的微信群

11.png

企业用户如有需求,加入群聊时还可私聊“CodeFuse 服务助手”联系解决方案专家~

目录
相关文章
|
17天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171341 14
|
20天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150297 32
|
28天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201972 15
对话 | ECS如何构筑企业上云的第一道安全防线
|
6天前
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
|
10天前
|
存储 人工智能 安全
对话|无影如何助力企业构建办公安全防护体系
阿里云无影助力企业构建办公安全防护体系
1256 11
|
12天前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
|
10天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1412 25
|
10天前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
805 38
1月更文特别场——寻找用云高手,分享云&AI实践
|
1天前
|
存储 人工智能 分布式计算
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
本文整理自阿里云产品经理李昊哲在Flink Forward Asia 2024流批一体专场的分享,涵盖实时湖仓发展趋势、基于Flink搭建流批一体实时湖仓及Materialized Table优化三方面。首先探讨了实时湖仓的发展趋势和背景,特别是阿里云在该领域的领导地位。接着介绍了Uniflow解决方案,通过Flink CDC、Paimon存储等技术实现低成本、高性能的流批一体处理。最后,重点讲解了Materialized Table如何简化用户操作,提升数据查询和补数体验,助力企业高效应对不同业务需求。
315 17
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
|
16天前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。

热门文章

最新文章