免费的模型API平台盘点

简介: 本文盘点了当前可免费使用的大模型 API 平台,涵盖主流模型、调用限制与适用场景,助你低成本体验和集成各类 AI 能力。

我的个人博客:https://tianhw.top/、

什么是 API

在开始之前,让我们先搞懂一个概念:什么是模型 API?

简单来说,模型 API 就是别人把大模型(比如 Claude、Gemini、Qwen、DeepSeek、Grok 等)部署在云端服务器上,然后给你一个 HTTPS 地址。你只需要像调用普通网页接口一样,发一个 JSON 过去,带上你的消息内容,它就给你返回模型的回复。

例如在 Cherry Studio 里,你只需要在设置里填上 base URL 和 API Key,选择好模型,就能让你不必忍受本地部署的小模型的弱智,瞬间调用千亿参数的模型。

所以简单来说,就是把跑模型的重活扔给云端,把知识库一类的轻活留给本地。

下面我把目前我使用的免费平台列出,省的大家重复造轮子了。

这里不是指那些注册送几千万 tokens 或者赠费的平台,因为这些本质上只是一种试用,下面列出的都是真正持久免费的。


免费平台盘点

魔搭社区

通过API接口进行标准化,能让开源模型以更加轻量和迅速的方式被开发者使用起来,并集成到不同的AI应用中。魔搭通过API-Inference,支持广大开发者无需本地的GPU和环境设置,就能轻松的依托不同开源模型的能力,展开富有创造力的尝试,与工具结合调用,来构建多种多样的AI应用原型。

支持的模型

覆盖大语言模型、多模态模型、文生图等多个领域。例如:

  • GLM-4.5
  • GLM-4.6
  • DeepSeek-R1-0528
  • DeepSeek-V3.1
  • DeepSeek-V3.2-Exp
  • MiniMax-M1-80k
  • QwQ-32B
  • QVQ-72B-Preview
  • Qwen3-235B-A22B-Thinking-2507
  • Qwen3-235B-A22B-Instruct-2507
  • Qwen3-VL-235B-A22B-Instruct
  • Qwen3-Coder-480B-A35B-Instruct
  • Qwen3-Embedding-8B
  • ...

使用限制

  • 每日免费额度为 2000 次 API-Inference 调用,每个单模型额度上限为 500 次。
  • 平台未明确限制请求速率,原则上保障开发者单并发正常使用。

部分热门或大规格模型可能会有更严格的单独限制。例如 deepseek-ai/DeepSeek-V3.2-Exp 目前每天仅限 100 次调用,且该限制会动态调整。

由于免费推理 API 由阿里云提供算力,所以你的 ModelScope 账号必须首先绑定阿里云账号。对应云账号还需要先通过实名认证后才能使用 API-Inference。

官网

ModelScope 魔搭社区


智谱 AI

智谱大模型开放平台 bigmodel.cn,提供功能丰富、灵活易用、高性价比的大模型 API 服务,支持智能体开发与模型精调、推理、评测等,致力于构建高效通用的“一站式模型即服务” AI 开发新范式。

智谱旨在让 AI 技术惠及更广泛的用户群体,提供了一些免费的 flash 模型。

支持的模型

智谱 AI 开放平台支持的模型有:

  • GLM-4.5-Flash
  • GLM-4.1V-Thinking-Flash
  • GLM-4-Flash-250414
  • GLM-4V-Flash
  • Cogview-3-Flash
  • CogVideoX-Flash

使用限制

模型名称 并发数限制
GLM-4.1V-Thinking-Flash 5
GLM-4V-Flash 10
GLM-4.5-Flash 2
GLM-4-Flash-250414 20
CogView-3-Flash 5
CogVideoX-Flash 3

[!NOTE]
GLM-4-Flash 当请求的上下文超过 8K 时,系统将限制并发为标准速率的 1%。

官网

智谱 AI 开放平台

GitHub Models

GitHub Models 是一个降低企业级 AI 采用门槛的工作区。 它通过将 AI 开发直接嵌入到熟悉的 GitHub 工作流,帮助你突破独立试验。 GitHub Models 提供了工具来测试大型语言模型 (LLM)、优化提示、评估输出并根据结构化指标做出明智的决策。

支持的模型

  • OpenAI o3
  • OpenAI o3-mini
  • OpenAI o4-mini
  • OpenAI o1-preview
  • OpenAI gpt-5
  • OpenAI gpt-5-mini
  • Llama-3.1-405B-Instruct
  • Llama 4 Scout 17B 16E Instruct
  • DeepSeek R1 0528
  • Grok 3
  • Grok 3 Mini
  • Phi-4-reasoning
  • Phi-4-multimodal-instruct
  • Codestral 25.01
  • ...

    使用限制

    模型速率限制分为两档:低或高。你可以在GitHub Marketplace 中的模型信息页面查看。但还有部分模型有更加严格的速率限制,如果你拥有Copilot Pro等可以获得更高的配额,具体参考下方表格。
速率限制层 速率限制 Copilot 免费版 Copilot Pro Copilot Business Copilot Enterprise
每分钟请求数 15 15 15 20
每天请求数 150 150 300 450
每个请求的令牌数 8000 输入,4000 输出 8000 输入,4000 输出 8000 输入,4000 输出 8000 输入,8000 输出
并发请求 5 5 5 8
每分钟请求数 10 10 10 15
每天请求数 50 50 100 150
每个请求的令牌数 8000 输入,4000 输出 8000 输入,4000 输出 8000 输入,4000 输出 16000 输入,8000 输出
并发请求 2 2 2 4
嵌入 每分钟请求数 15 15 15 20
每天请求数 150 150 300 450
每个请求的令牌数 64000 64000 64000 64000
并发请求 5 5 5 8
Azure OpenAI o1-preview 每分钟请求数 不适用 1 2 2
每天请求数 不适用 8 10 12
每个请求的令牌数 不适用 4000 输入,4000 输出 4000 输入,4000 输出 4000 输入,8000 输出
并发请求 不适用 1 1 1
Azure OpenAI o1、o3 和 gpt-5 每分钟请求数 不适用 1 2 2
每天请求数 不适用 8 10 12
每个请求的令牌数 不适用 4000 输入,4000 输出 4000 输入,4000 输出 4000 输入,8000 输出
并发请求 不适用 1 1 1
Azure OpenAI o1-mini、o3-mini、o4-mini、gpt-5-mini、gpt-5-nano 和 gpt-5-chat 每分钟请求数 不适用 2 3 3
每天请求数 不适用 12 15 20
每个请求的令牌数 不适用 4000 输入,4000 输出 4000 输入,4000 输出 4000 输入,4000 输出
并发请求 不适用 1 1 1
DeepSeek-R1、DeepSeek-R1-0528 和 MAI-DS-R1 每分钟请求数 1 1 2 2
每天请求数 8 8 10 12
每个请求的令牌数 4000 输入,4000 输出 4000 输入,4000 输出 4000 输入,4000 输出 4000 输入,4000 输出
并发请求 1 1 1 1
xAI Grok-3 每分钟请求数 1 1 2 2
每天请求数 15 15 20 30
每个请求的令牌数 4000 输入,4000 输出 4000 输入,4000 输出 4000 输入,8000 输出 4000 输入,16000 输出
并发请求 1 1 1 1
xAI Grok-3-Mini 每分钟请求数 2 2 3 3
每天请求数 30 30 40 50
每个请求的令牌数 4000 输入,8000 输出 4000 输入,8000 输出 4000 输入,12000 输出 4000 输入,12000 输出
并发请求 1 1 1 1

官网

GitHub Models

心流开放平台

iFlow CLI 是一款终端AI助手,可以分析代码、执行编程任务、处理文件操作。本指南帮您快速上手核心功能。

心流 API 提供与 OpenAI 100% 兼容的接口服务,让您可以无缝切换到我们的 AI 服务,享受更高性能和更具成本效益的解决方案。

支持的模型

  • tstars2.0
  • qwen3-coder-plus
  • qwen3-max
  • qwen3-vl-plus
  • qwen3-max-preview
  • kimi-k2-0905
  • glm-4.6
  • kimi-k2
  • deepseek-v3.2
  • deepseek-r1
  • deepseek-v3
  • qwen3-32b
  • qwen3-235b-a22b-thinking-2507
  • qwen3-235b-a22b-instruct
  • qwen3-235b

使用限制

所有模型完全免费使用,并发请求数为1

官网

心流开放平台API

硅基流动

[!NOTE]
硅基流动的免费模型参数量都较小,对话也就当个快速模型用还行,不过免费的嵌入与重排序模型做知识库不错

作为集合顶尖大模型的一站式云服务平台,SiliconFlow 致力于为开发者提供更快、更全面、体验更丝滑的模型 API,助力开发者和企业聚焦产品创新,无须担心产品大规模推广所带来的高昂算力成本。

支持的模型

  • THUDM/GLM-4.1V-9B-Thinking
  • deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
  • THUDM/GLM-Z1-9B-0414
  • THUDM/GLM-4-9B-0414
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • BAAI/bge-m3
  • netease-youdao/bce-embedding-base_v1
  • ...

    使用限制

    大多数是
用量级别 RPM TPM
L0 1,000 50,000

官网

硅基流动 SiliconFlow

相关文章
|
12天前
|
数据采集 人工智能 安全
|
7天前
|
编解码 人工智能 自然语言处理
⚽阿里云百炼通义万相 2.6 视频生成玩法手册
通义万相Wan 2.6是全球首个支持角色扮演的AI视频生成模型,可基于参考视频形象与音色生成多角色合拍、多镜头叙事的15秒长视频,实现声画同步、智能分镜,适用于影视创作、营销展示等场景。
591 4
|
8天前
|
机器学习/深度学习 人工智能 前端开发
构建AI智能体:七十、小树成林,聚沙成塔:随机森林与大模型的协同进化
随机森林是一种基于决策树的集成学习算法,通过构建多棵决策树并结合它们的预测结果来提高准确性和稳定性。其核心思想包括两个随机性:Bootstrap采样(每棵树使用不同的训练子集)和特征随机选择(每棵树分裂时只考虑部分特征)。这种方法能有效处理大规模高维数据,避免过拟合,并评估特征重要性。随机森林的超参数如树的数量、最大深度等可通过网格搜索优化。该算法兼具强大预测能力和工程化优势,是机器学习中的常用基础模型。
345 164
|
6天前
|
机器学习/深度学习 自然语言处理 机器人
阿里云百炼大模型赋能|打造企业级电话智能体与智能呼叫中心完整方案
畅信达基于阿里云百炼大模型推出MVB2000V5智能呼叫中心方案,融合LLM与MRCP+WebSocket技术,实现语音识别率超95%、低延迟交互。通过电话智能体与座席助手协同,自动化处理80%咨询,降本增效显著,适配金融、电商、医疗等多行业场景。
348 155