如何使用 LiteLLM 网关代理统一管理你的大模型

简介: 大模型使用混乱?费用失控、切换成本高、权限难管?LiteLLM 是轻量实用的大模型网关,统一 OpenAI 兼容接口,纳管 OpenAI、Qwen、本地 vLLM/Ollama 等多源模型。支持 Docker Compose 一键部署、虚拟 Key 权限控制、预算限额与全链路可观测性,业务代码零改造即可接入。

大模型用得越多,越容易陷入一种混乱状态

  • 这个项目用 OpenAI
  • 那个服务接 Dashscope(Qwen)
  • 测试环境还跑着本地 vLLM 或 Ollama
  • 电脑里配置着一堆 API Key

刚开始问题不大,大家还能靠“记得住”来维持。
但只要项目一多、人数一多,麻烦立刻显现出来:

费用开始失控、模型切换成本极高、权限越来越乱、出了问题也很难排查。

于是,越来越多团队开始引入一个概念:
大模型网关(LLM Gateway)

在目前的开源方案里,LiteLLM 是非常实用、也非常容易真正落地的一种。

我们按下面这条路线,一步步把它跑起来:

为什么要用 → Docker Compose 部署 → 模型与 Key 管理 → 权限与预算 → 实际调用 → 真实使用场景


一、LiteLLM 是什么?它解决的不是“能不能用”,而是“怎么管”

先说清楚一件事:
LiteLLM 本身不是模型。

它更像是一个统一的大模型代理层,或者你也可以理解为:

所有大模型的 统一入口 + 管理中枢

对外,它暴露的是 OpenAI 兼容 API
对内,它可以接入各种不同来源的大模型,包括:

  • OpenAI / Azure OpenAI
  • Anthropic / Gemini / Dashscope
  • HuggingFace
  • 本地 vLLM、Ollama
  • 甚至多家模型同时存在

最终的效果是:

应用侧只需要认一个地址、一个 Virtual Key。
至于后面到底用的是哪家模型、怎么调度、怎么限额,全部交给 LiteLLM 处理。


二、Docker Compose 部署(生产环境强烈推荐)

如果只是本地玩一玩,直接起一个 Docker 容器也可以。
但只要你是长期使用或多人使用Docker Compose 是最稳妥的方式

它有几个明显好处:

  • 部署结构清晰
  • 配置可复现
  • 后期升级、迁移成本低

1️⃣ 准备目录结构

litellm/
├── docker-compose.yml
└── .env

保持简洁,后面所有东西都围绕这两个文件来。


2️⃣ 编写 docker-compose.yml

services:
  litellm:
    build:
      context: .
      args:
        target: runtime
    image: docker.litellm.ai/berriai/litellm:main-stable
    #########################################
    # Uncomment these lines to start proxy with a config.yaml file #
    # volumes:
    #  - ./config.yaml:/app/config.yaml
    # command:
    #  - "--config=/app/config.yaml"
    ##############################################
    ports:
      - "4000:4000"
    environment:
      DATABASE_URL: "postgresql://llmproxy:dbpassword9090@db:5432/litellm"
      STORE_MODEL_IN_DB: "True"
    env_file:
      - .env
    depends_on:
      - db
    healthcheck:
      test:
        - CMD-SHELL
        - python3 -c "import urllib.request; urllib.request.urlopen('http://localhost:4000/health/liveliness')"
      interval: 30s
      timeout: 10s
      retries: 3
      start_period: 40s

  db:
    image: postgres:16
    restart: always
    container_name: litellm_db
    environment:
      POSTGRES_DB: litellm
      POSTGRES_USER: llmproxy
      POSTGRES_PASSWORD: dbpassword9090
    ports:
      - "5432:5432"
    volumes:
      - /home/data/litellm/postgres/data:/var/lib/postgresql/data
    healthcheck:
      test: ["CMD-SHELL", "pg_isready -d litellm -U llmproxy"]
      interval: 1s
      timeout: 5s
      retries: 10

提醒一句:
记得把 db 的 volumes 路径改成您自己机器上的真实路径。


3️⃣ 环境变量 .env

LITELLM_MASTER_KEY=sk-1234
STORE_MODEL_IN_DB=True

这里的 LITELLM_MASTER_KEY,就是后面登录后台用的密码


4️⃣ 启动服务

docker compose -p litellm up -d

5️⃣ 访问管理界面

浏览器打开:

http://localhost:4000

PixPin_2026-02-27_18-10-17.png

  • 用户名:admin
  • 密码:.env 里配置的 LITELLM_MASTER_KEY

三、如何管理模型?从 Virtual Key 开始

LiteLLM 的核心设计之一,就是用 Virtual Key 来统一管理、隔离使用者和模型资源


1️⃣ 添加模型(以 Ollama 为例)

Models + Endpoints 页面中,选择 Add Model

PixPin_2026-02-27_18-16-48.png


2️⃣ 创建 Virtual Key

  • Key 的拥有者可以是你自己、某个服务账号,或者具体成员
  • 可以绑定一个或多个模型
  • 可以设置预算、速率限制

注意:生成的 Key 只显示一次,一定要保存好。

PixPin_2026-02-27_18-23-29.png


3️⃣ 在线验证是否可用

  • 粘贴刚创建的 Virtual Key
  • 选择允许使用的模型
  • 直接测试请求

PixPin_2026-02-27_18-31-30.png


四、权限管理(多人协作非常重要)

当开始多人使用时,这一部分非常关键。


创建团队(Team)

用于统一管理成员和资源。

PixPin_2026-02-27_18-41-57.png


邀请内部用户(Internal User)

PixPin_2026-02-27_18-43-43.png


访问组(Access Groups)

通过访问组来控制:
谁能用哪些模型、哪些 Key。

PixPin_2026-02-27_18-45-49.png


预算管理(Budgets)

如果你接的是收费模型,这一步非常有用。

PixPin_2026-02-27_18-47-02.png


五、可观测性:终于知道钱花哪了

请求消耗统计

PixPin_2026-02-27_18-49-26.png

请求日志

PixPin_2026-02-27_18-49-58.png


六、应用如何调用?几乎不用改代码

Python 示例

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    name="ollama",
    model="qwen3:8b",
    base_url="http://192.168.31.242:4000",
    api_key="sk-Rj-rnKC9lgaohyI7bxKVkg"
)

response = llm.invoke("你是谁?")
print(response)

核心只有三点:

  • 地址指向 LiteLLM
  • Key 使用你创建的 Virtual Key
  • 模型名来自你在后台定义的模型

PixPin_2026-02-27_18-55-57.png


七、真实使用场景

场景一:公司级 AI 中台

  • 前端、后端、脚本工具
  • 全部只接一个 Gateway
  • 模型升级对业务透明

场景二:多项目成本可控

  • 每个项目一个 Key
  • 超额直接拒绝
  • 成本一眼就能看清

场景三:模型策略随时调整

今天 GPT-4
明天 Gemini
后天本地模型

只改配置,不动业务代码。


写在最后

很多人刚接触大模型时,最关心的是效果
真正用久了才发现,最难的是管理、成本和稳定性

LiteLLM 并不会让模型变聪明,
但它能让你:

  • 用得更稳
  • 管得更清楚
  • 换得更从容

如果你已经不满足“能跑就行”,
那这个网关,确实值得你认真搭一套。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
11月前
|
人工智能 监控 API
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
1826 2
|
2月前
|
人工智能 JavaScript Linux
OpenClaw 原版和汉化版windows 和Linux 下的部署实践
OpenClaw(原Clawdbot/Moltbot)是由彼得·斯坦伯格开发的开源个人AI代理,以“龙虾”为标识,口号“The AI that actually does things”。支持软件操作与长期记忆,2026年获Karpathy公开提及。提供中英文版本,基于TypeScript,可本地部署。
7086 132
|
2月前
|
人工智能 运维 架构师
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了
加我进AI讨论学习群,公众号右下角“联系方式” 文末有老金的 **开源知识库地址·全免费** --- 术语说明:"Swarm/蜂群"是多Agent协作的通用说法(OpenAI有官方项目叫Swarm),但 Claude Code的官方概念是Agent Teams。本文使用官方术语Agent Teams,保留"蜂群"作为通俗说明。 先说老金我昨儿开源了[老金开源10万字Claude Code中文
3729 10
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了
|
16天前
|
人工智能 Linux API
一行命令打造多龙虾Agent军团!阿里云/本地部署OpenClaw+多Agent+百炼api配置实战指南
2026年,AI代理框架OpenClaw凭借ACP协议与多Agent架构彻底颠覆AI协作模式,从早期单兵作战的草莽工具,进化为支持多智能体隔离、通道独立绑定、专业分工协同的正规军平台。中文社区亲切称其为**龙虾**,如今通过一行`openclaw agents add`命令,即可快速创建专属AI助手军团,实现写作、开发、作图、选题等任务的专业化分工,彻底告别上下文混乱、记忆污染、权限交叉等痛点。本文从多Agent核心逻辑讲起,提供完整命令、可直接复制的配置文件,同时覆盖2026年阿里云云端部署、MacOS/Linux/Windows11本地部署,以及阿里云百炼Coding Plan免费API配
665 1
|
3月前
|
人工智能 运维 API
n1n:从替代 LiteLLM API Proxy 自建网关到企业级 AI 大模型 LLM API 统一架构的进阶之路
在 2026 年的大模型应用开发中,如何统一管理 GPT-5、Claude 4.5、Gemini 3 pro 等异构 AI 大模型 LLM API 成为企业的核心痛点。本文将深度解析开源网关 LiteLLM 的技术原理与实施路径,剖析自建网关在生产环境中的“隐形深坑”,并探讨如何通过 n1n.ai 等企业级聚合架构实现从“可用”到“高可用”的跨越。
1049 9
|
6月前
解决Minikube运行拉取镜像慢的问题
使用国内镜像源加速Minikube启动:先拉取阿里云托管的kicbase基础镜像,删除原有集群,再通过指定镜像和中国区镜像源启动Minikube,提升部署效率。
941 0
|
3月前
|
人工智能 运维 负载均衡
探秘 AgentRun丨为什么应该把 LangChain 等框架部署到函数计算 AgentRun
阿里云函数计算AgentRun全新发布,打造一站式Agentic AI基础设施。支持LangChain等主流框架无缝迁移,提供Serverless运行时、企业级Sandbox、模型高可用与全链路可观测能力,助力AI Agent高效、安全、低成本落地生产,平均TCO降低60%。
探秘 AgentRun丨为什么应该把 LangChain 等框架部署到函数计算 AgentRun
|
2月前
|
人工智能 自然语言处理 前端开发
AI生成网站的完整方案:从需求文档到上线运营
AI生成网站正革新传统开发流程:从模糊想法→结构化需求→全栈代码→一键部署→数据迭代,五步闭环。它不替代开发者,而是降低试错成本,让团队聚焦产品逻辑与用户体验,实现“生成系统再优化”的新范式。

热门文章

最新文章