南加州大学最新研究：ChatGPT或只有70亿参数规模-阿里云开发者社区

南加州大学最新研究：ChatGPT或只有70亿参数规模

2024-03-19 60

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第28天】南加州大学最新研究：ChatGPT或只有70亿参数规模

在人工智能领域，大型语言模型（LLM）的发展一直是研究的热点。南加州大学的研究团队近期发表的一篇论文，为我们提供了对这些模型更深入理解的可能性。该研究团队发现，即使是通过API保护的LLM，也能通过少量的查询推断出模型的关键信息，这一发现对于理解LLM的内部工作机制具有重要意义。

LLM的商业化使得许多公司和组织选择通过API来限制对模型的访问，以保护其专有技术。然而，南加州大学的研究发现，这种做法可能给LLM提供商带来一种虚假的安全感。研究者指出，尽管LLM的架构信息被认为是私有的，但实际上，通过API查询，外部研究者可以获取到关于模型的大量信息。这一发现挑战了现有的安全假设，提示LLM提供商需要重新审视他们的安全策略。

研究的核心在于揭示了LLM普遍存在的softmax瓶颈问题。由于这一瓶颈，LLM的输出被限制在了一个低维的子空间内，形成了所谓的LLM“图像”。研究者通过收集少量的输出样本，就能够构建出这个图像的基，从而推导出模型的隐藏大小和输出层参数。这一方法的提出，为LLM的分析和理解开辟了新的途径。

通过实证研究，研究者估计了OpenAI的gpt-3.5-turbo模型的嵌入大小约为4096，这意味着该模型可能拥有大约70亿个参数。这一发现对于评估LLM的性能和规模具有重要意义，也为模型的进一步研究和开发提供了参考。

此外，研究者还探讨了如何利用LLM图像来实现多种应用，例如高效地从API保护的LLM中获取完整输出、识别产生特定输出的LLM、检测和区分LLM的更新类型等。这些应用不仅能够提高LLM的使用效率，还能够增强用户对LLM提供商的信任。

研究者提出的算法通过减少API调用次数，显著提高了获取完整LLM输出的速度和效率。这种超快速完整输出算法，通过预处理步骤获取LLM的低维图像，将获取完整LLM输出所需的API调用次数从O(v)降低到O(d)，其中d是嵌入大小，v是词汇表大小。这种加速使得获取完整LLM输出的速度和成本提高了多达100倍，具体取决于LLM的类型。

尽管这项研究为LLM的分析和理解提供了新的工具，但它也引发了一些潜在的问题。例如，这种技术可能会使依赖完整输出的模型窃取方法变得更便宜，这对于LLM提供商来说可能是一个挑战。然而，研究者认为，这种方法对于API客户来说提供了更多的工具，同时警告LLM提供商他们的API暴露了哪些信息。他们认为，这些发现和方法不需要改变LLM API的最佳实践，而是扩展了API客户可用的工具集。

论文地址：
https://arxiv.org/abs/2403.09539

南加州大学最新研究：ChatGPT或只有70亿参数规模

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

南加州大学最新研究：ChatGPT或只有70亿参数规模

热门文章

最新文章

相关课程

相关电子书

相关实验场景