10 个 AI 工程师必须掌握的 LangChain & LangGraph 概念

简介: 本文详解2026年构建生产级AI Agent的10大核心架构原则:状态管理、函数化节点、图编排替代线性链、智能路由、多层检索、结构化输出、操作型记忆、检查点恢复、人机协同等。强调可靠AI系统的关键不在模型调优,而在健壮的工作流设计。

大多数 AI 应用都从一个简单的演示开始:用户提问、LLM 给出回答,所有人都觉得很厉害。

但是应用需要检索文档、调用工具、处理故障、路由请求、记住历史操作,还要在关键决策节点引入人工审核。这时这个聊天机器人已经变成了一套工作流。

很多 AI 项目就卡在这个转变上,演示和生产系统之间的差距,通常不在于模型本身而在于背后的架构。

LangChain 和 LangGraph 是目前构建现代 AI 应用最广泛使用的两个框架。两者结合提供了构建可靠、可扩展、易维护 AI 系统所需的核心构件。

如果你在 2026 年构建 AI Agent,在写下一个工作流之前,先把这些概念搞清楚。

1、状态(State)是每个 Agent 的基础

为什么生产级 Agent 需要共享状态,而不是孤立的 Prompt。初学者脑海中的 AI Agent 通常长这样:

 用户输入
     ↓
 LLM
     ↓
 响应

生产级 Agent 完全不同——它们在整个工作流中持续维护状态。

以一个客户支持 Agent 为例:

 from typing import TypedDict

class SupportState(TypedDict):
    ticket_id: str
    customer_message: str
    customer_tier: str
    retrieved_articles: list
    sentiment_score: float
    draft_response: str
    escalation_required: bool
     final_response: str

工作流推进过程中,不同节点会不断更新这个共享状态:

 {
    "ticket_id": "TKT-9012",
    "customer_message": "My payment failed twice",
    "customer_tier": "Enterprise",
    "retrieved_articles": [
        "Payment Retry Policy",
        "Credit Card Validation"
    ],
    "sentiment_score": 0.91,
    "draft_response":
        "Please retry the payment...",
    "escalation_required": False
 }

没有状态,Agent 就没有上下文,调试无从下手,多步骤工作流也极易崩溃。有了状态,每一步都能感知之前发生了什么,整个系统才有可预测性。

把状态理解为整个工作流的共享记忆。

2、节点(Node)只是函数

很多人以为 AI Agent 是某种神奇框架驱动的,实际上大多数节点就是普通函数。

一个检索节点:

 def retrieve_documents(state):
     docs = vector_store.similarity_search(
         state["user_query"],
         k=5
     )
     return {
         "retrieved_docs": docs
     }

一个重排序节点:

 def rerank_documents(state):
     reranked = reranker.rank(
         query=state["user_query"],
         docs=state["retrieved_docs"]
     )
     return {
         "retrieved_docs": reranked[:3]
     }

一个生成节点:

 def generate_answer(state):
     response = llm.invoke(
         state["retrieved_docs"]
     )
     return {
         "draft_answer": response
     }

把它们串起来:

 检索
     ↓
 重排序
     ↓
 生成
     ↓
 验证

每个节点只做一件事。力量来自编排,而不是单个节点的复杂度。

3、 链(Chain)与图(Graph)

很多 LangChain 应用从链开始构建:

 Prompt
    ↓
 LLM
    ↓
 解析器
    ↓
 响应

对于简单直接的流程,链完全够用。但当工作流中出现多个 Agent、条件分支、人工审批、重试逻辑或长时间运行的任务时,线性结构就开始力不从心了。

图能自然地处理这些场景:

 路由器
              │
     ┌────────┴────────┐
     ▼                 ▼
研究 Agent        支持 Agent
     │                 │
     └────────┬────────┘
              ▼
          最终响应

一个 ERP 迁移助手的工作流可能需要:分析需求、生成测试用例、验证覆盖率、将问题路由给对应专家,最后请求人工审批。这个流程天然是图状的,强行套进线性链只会越写越难维护。

系统越复杂,图就越不可或缺。

4、路由(Routing)优于超长 Prompt

最常见的一个失误是把一个助手塑造成什么都懂的全才:

 你是一个账单专家、
 技术支持工程师、
 销售代表、
 产品专家
 和合规顾问……

这种写法很难扩展。更好的方案是路由:

 def classify_request(state):
    query = state["user_query"]
        if "billing" in query:
            return "billing_agent"
        if "error" in query:
            return "technical_agent"
        if "pricing" in query:
            return "sales_agent"
         return "general_agent"

工作流:

 用户请求
       │
       ▼
     路由
       │
  ┌────┼────┐
  ▼    ▼    ▼
 技术 账单  销售

更短的 Prompt 意味着更高的准确率、更低的 Token 成本,以及更容易维护和预测的输出。最好的 AI 系统通常是一支专家团队,而不是一个试图解决所有问题的万能角色。

5、检索不只是向量搜索

很多人对 RAG 的认知停留在:

 向量搜索
       ↓
 LLM
       ↓
 答案

这在演示中够用,生产系统则需要额外的层:

 检索
     ↓
 重排序
     ↓
 过滤
     ↓
 生成

具体来说:

 docs=vector_store.search(
    query,
    k=20
)
reranked_docs=reranker.rank(
    query,
    docs
)
 top_docs=reranked_docs[:5]

向量数据库可能返回 20 篇相关文档,但其中真正包含所需信息的可能只有 5 篇。重排序正是为了解决这个问题,它对答案质量的影响远比多数人预估的要大。

一个拥有 1000 万文档的企业知识库,在数据交给 LLM 之前,往往已经经过了混合搜索、元数据过滤、重排序和上下文压缩等多道处理。好的 RAG 系统,首先是一个检索系统,其次才是 AI 系统。

6、结构化输出(Structured Outputs)避免代价高昂的故障

每个 AI 工程师都碰到过类似的情况:

Prompt 里写着"返回有效的 JSON",模型回来的却是:

 {
   "priority": "high"
   "category": "billing"
 }

少了一个逗号,解析器崩溃,整个工作流失败。

换成结构化输出:

 from pydantic import BaseModel

 class TicketClassification(BaseModel):
     category: str
     severity: str
     assigned_team: str
     confidence_score: float

生成经过验证的输出:

 result = llm.with_structured_output(
     TicketClassification
 ).invoke(ticket_text)

结果:

 {
   "category": "Payment",
   "severity": "High",
   "assigned_team": "Billing",
   "confidence_score": 0.94
 }

只要有其他系统消费 AI 的输出,Schema 就应该是强制要求,而不是可选项。

7、流式输出(Streaming)改变用户对速度的感知

用户不喜欢等待。等 15 秒屏幕上什么都没有;或者响应立刻开始出现,逐字流入。两者的总耗时可能完全相同,但用户几乎总是偏向后者。

流式输出就是为了实现这种体验:

 for chunk in model.stream(prompt):
     print(chunk)

对于更复杂的工作流,可以在各阶段主动推送进度:

 yield "正在分析需求……"
 yield "正在检索文档……"
 yield "正在生成响应……"
 yield "正在验证结果……"
 yield final_response

比如说批量生成数百个迁移测试用例的场景——实时显示进度,用户的满意度会有明显差异。感知性能往往比实际性能更重要。

8、记忆(Memory)不只是对话历史

大多数开发者把记忆等同于聊天记录:

 messages= [...]

真正的 Agent 需要操作层面的记忆(operational memory)。以一个编程 Agent 为例:

 {
    "repository": "payments-api",
    "modified_files": [
        "payment.service.ts",
        "retry.handler.ts"
    ],
    "failed_tests": [
        "payment_retry.spec.ts"
    ],
    "last_fix_attempt": "...",
    "pull_request_url": "..."
 }

Agent 记住了之前的决策、工具的输出、失败的执行、检索到的文档,以及当前仓库的状态。有了这些,它才能在多个步骤中保持连贯的判断,而不是每次都从零开始。记忆把孤立的交互变成了真正意义上的智能工作流。

9、检查点(Checkpointing)支撑长时间运行的工作流

真实系统会出故障:模型超时、API 不可用、人工审核需要几个小时甚至几天。

没有检查点,发生故障只能重头来过;有了检查点,可以从中断处继续:

 from langgraph.checkpoint.memory import MemorySaver

 checkpointer = MemorySaver()
 graph = workflow.compile(
     checkpointer=checkpointer
 )

稍后恢复时:

 graph.invoke(
     input_data,
     config={
         "thread_id": "loan-123"
     }
 )

以贷款审批流程为例:

 文件收集
        ↓
检查点
        ↓
风险评估
        ↓
检查点
        ↓
人工审批
        ↓
 最终决策

这个流程可能横跨数小时乃至数天。检查点的存在,保证了中途的任何故障都不会让已有进度付之一炬。

10、人机协作(Human-in-the-Loop)才是 AI 的真正未来

关于 AI Agent 最常见的误解之一,是认为它们应该完全自主运行。大多数企业系统实际上需要人工监督。

 defapproval_node(state):
   ifstate["risk_score"] >0.8:
           return"human_review"
      return"auto_approve"

工作流:

 AI 分析
       ↓
 风险评估
       ↓
 人工审核
       ↓
 继续工作流

贷款审批、法律合同分析、ERP 迁移验证、医疗建议、财务审计——这些场景里,人工介入都是常态,而不是例外。最成功的 AI 系统不是取代人类,而是帮助人类更快地做出更好的决策。

总结

构建 AI 系统过程中,一个反复得到印证的结论是:可靠的 AI 应用很少是靠模型决定的,决定因素是工作流设计。

  • 状态(State)
  • 节点(Node)
  • 图(Graph)
  • 路由(Routing)
  • 检索(Retrieval)
  • 结构化输出(Structured Outputs)
  • 记忆(Memory)
  • 检查点(Checkpointing)
  • 人工审核

对 AI 系统的提升,掌握这些概念远比没完没了地调 Prompt 更有效。模型会持续演进,好的架构会持续重要。如果你在 2026 年构建 AI Agent,从这里开始。

https://avoid.overfit.cn/post/05b261a216cd45f58a1885199085f8d2

作者:Sachin Kasana

目录
相关文章
|
NoSQL Java 关系型数据库
【AgentScope Java新手村系列】(5)记忆与会话管理
记忆与会话管理 — AgentState 管理上下文窗口,AgentStateStore 持久化,RuntimeContext.sessionId 隔离多用户会话。
136 0
|
1天前
|
人工智能 自然语言处理 API
【Azure AI Search】 stopword 是什么,为什么它会影响搜索结果?
本文解析 Azure AI Search 中搜索 "in brief" 返回结果过多的问题,指出根源在于 analyzer 对停用词(如 "in")的处理差异:默认 `standard.lucene` 保留停用词导致泛匹配,而 `en.microsoft` 会过滤停用词,使结果更精准。关键在于根据业务语义选择合适 analyzer。
162 121
|
6天前
|
人工智能 缓存 JavaScript
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
本文系统梳理2026年构建AI Agent的7层开源工具栈,围绕四大核心约束——延迟预算、审计追踪、模型可移植性与语言栈(Python/TS),对比LangGraph、CrewAI、Mem0、Zep、OpenHands、Langfuse、vLLM等主流方案的适用场景、替换成本及开源性质,助力团队按需选型,避免“一刀切”组合陷阱。
115 1
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
|
1天前
|
人工智能 自然语言处理 安全
2026企业级智能客服系统建设方案:选型、部署、数据安全三步走
2026年,企业级智能客服已成体验升级与增长引擎。本文系统解析“选型—部署—数据安全”三步建设框架,并以瓴羊Quick Service为例,展现其依托阿里生态、双大模型驱动、93%高准确率、全渠道覆盖及等保三级安全能力,助力中大型企业高效落地安全可控的智能客服系统。(239字)
2026企业级智能客服系统建设方案:选型、部署、数据安全三步走
|
3天前
|
存储 人工智能 机器人
AI Agent的三重记忆机制:打造高可用的多维记忆系统
本文深度解析AI Agent三大核心记忆架构:RAG(聚焦“来源说了什么”,保障答案可溯源)、Agent Memory(解决“该记住什么”,实现跨会话连续性)与知识图谱(厘清“事物如何关联”,支撑多跳推理)。三者定位迥异,需依问题本质精准选型,避免技术错配。
71 4
AI Agent的三重记忆机制:打造高可用的多维记忆系统
|
1天前
|
人工智能 缓存 自然语言处理
阿里云百炼Token Plan团队版:多模型兼容、团队管理与Credits计费全攻略
阿里云Token Plan(团队版)是阿里云百炼平台面向企业、团队及一人公司推出的AI大模型订阅服务,以Credits为统一计量单位,整合文本生成、图像生成等多模态模型能力,兼容主流AI编程与智能体工具,提供团队管理、预算管控、数据安全等企业级能力,解决团队规模化使用大模型时的成本失控、模型单一、协作不便等痛点。2026年,该服务已完成多轮迭代,模型覆盖更全面、工具兼容性更强、团队管理功能更精细化,成为企业落地AI生产力的核心订阅方案之一。
42 0
阿里云百炼Token Plan团队版:多模型兼容、团队管理与Credits计费全攻略
|
1天前
|
人工智能 弹性计算 运维
免费试用HappyHorse 打造一站式影视创作平台
本方案基于阿里云函数计算与百炼模型,打造免运维、弹性伸缩的无限画布视觉生成平台。支持AI自动化工作流、赛博朋克图像生成及HappyHorse视频创作,按量付费降本增效,2分钟快速部署。
|
1天前
|
人工智能 自然语言处理 数据可视化
CodeGraph与Understand-Anything深度对比:面向Agent的代码地图与全项目可追问图谱完整解析
当前AI编程生态中,CodeGraph与Understand-Anything均基于代码静态分析构建知识图谱,解决大型代码仓库阅读、检索、依赖分析难题,但二者底层设计目标、服务对象、运行逻辑存在本质区分。 一句话概括核心差异:CodeGraph是专为AI编程Agent打造的轻量化本地代码查询引擎,作用是提前生成结构化代码地图,供智能体快速调取调用关系、文件依赖,减少Agent反复扫描文件产生的算力与Token消耗;Understand-Anything则面向开发者与Agent双端,依托多智能体流水线将完整项目转化为带语义注释、可视化界面、支持自由追问的交互式知识图谱,兼顾人工阅读学习与AI理解
40 0
|
1天前
|
域名解析 监控 网络协议
阿里云云解析DNS完全使用指南:从基础配置到智能调度与安全防护
本文提供了一份完整的阿里云云解析DNS使用指南。云解析DNS是阿里云全自研的域名解析服务,提供公网权威解析、全局流量管理、内网域名解析等能力。文章首先介绍了DNS基本原理与云解析产品概述,随后详细讲解了在控制台添加域名、配置A记录/CNAME记录等基础操作。针对进阶需求,深入剖析了分线路智能解析、权重负载均衡、DNSSEC安全防护等高级功能。同时提供了Python和Java两种SDK调用示例,帮助开发者实现域名管理自动化。最后梳理了各版本功能差异、监控告警配置方法以及常见问题解答,旨在帮助用户从零开始快速掌握阿里云云解析DNS的使用。
|
1天前
|
存储 缓存 人工智能
FlashMemory深度解析:DeepSeek-V4如何将1M上下文KV Cache压到10%
长上下文推理是大模型落地的核心痛点,传统Transformer的KV Cache随序列长度线性增长,1M token上下文在常规模型中需占用超80GB显存,直接导致长文本服务成本高企、部署门槛极高。2026年,DeepSeek-V4系列模型推出的FlashMemory技术,通过多层级压缩与混合存储架构,将1M上下文的KV Cache footprint从传统方案的83.9GB降至9.6GB,压缩比达**约1/10**,同时保持推理精度与速度优势,让1M上下文成为默认配置成为可能。本文从KV Cache瓶颈本质、FlashMemory核心架构、关键技术模块、代码实现到性能验证,全面解析这一长上下
56 0

热门文章

最新文章