TraceML:用三行代码为训练循环加入 step 级诊断

简介: TraceML 是专为 PyTorch 训练设计的轻量级诊断工具,无需侵入式改造代码,仅需标记训练 step,即可实时可视化各阶段(数据加载、前向/反向、优化)耗时与内存分布,自动生成结构化 `final_summary.json`,快速定位性能瓶颈——是开启深度 profiling 前的「零号判断工具」。

一直以来,你都能盯着 loss 曲线看;TraceML 让你看见训练循环内部的效率。

在每个训练步骤内部,时间究竟是如何在数据加载、前向、反向和优化器之间分配的,你其实并不清楚。在查看训练运行时,工程师常用的工具链大致是这样:

  • nvidia-smi 和集群仪表盘,用于查看 GPU 利用率
  • W&B、MLflow 或 TensorBoard,用于查看 loss 曲线和运行历史
  • PyTorch Profiler 或 Nsight Systems,用于需要深入检查的场景

这些工具都有用,但在"任务正在运行"和"打开一个重量级 profiler"之间还缺了一层:正常训练期间、step 粒度的轻量级可见性,并且只需要极少的配置。

系统监控看到的是机器;实验追踪器看到的是结果;深度 profiler 看到的是 kernel 和 timeline,前提是你已经怀疑了某个具体问题,并且愿意承担相应的开销。

但如果只是想知道,在任意一次运行中,时间是如何在训练 step 内部分配的,又该怎么办?

这正是 TraceML 提供的能力。

TraceML 集成只需少量代码改动。把训练 step 标记一次:

 import traceml

traceml.init(mode="auto")

for batch in dataloader:
    with traceml.trace_step(model):
        optimizer.zero_grad(set_to_none=True)

        outputs = model(batch["x"])
        loss = criterion(outputs, batch["y"])

        loss.backward()
         optimizer.step()

然后运行:

 traceml run train.py

把训练 step 标记一次,TraceML 把这个边界变成结构化的诊断信息:TraceML 利用 step 边界,把时序、内存、rank、进程和系统信号组织起来,整合成一份关于"运行把时间浪费在了哪里"的诊断。

任务运行时,TraceML 会在日志旁边打开一个实时终端视图。

在一次 PyTorch 训练运行上的实时仪表盘。这次运行被判定为 compute-bound(计算受限),反向传播占据了 step 时间的主要部分,内存面板则提示在观察窗口内 reserved memory 持续增长。

一眼就能回答这些问题:

  • dataloader fetch 是否占用了过多的 step 时间?
  • 计算是不是主导部分?
  • 在支持的分布式运行中,各个 rank 的表现是否存在差异?
  • 内存是稳定的,还是出现了压力?
  • 这次运行是否足够均衡,到不需要再做更深入 profiling 的程度?

运行结束时,TraceML 会写出

final_summary.json

——结构化的 JSON,而不是一份庞大的 trace 文件。它足够小,便于存储,容易记录到日志,也方便在不同运行之间做对比。下面是一个简化后的 summary 示例:

 {
  "step_time": {
    "diagnosis": "INPUT_BOUND",
    "dataloader_pct": 47.0,
    "forward_pct": 31.0,
    "backward_pct": 18.0,
    "optimizer_pct": 4.0
  },
  "step_memory": {
    "diagnosis": "BALANCED"
  }
 }

每一项诊断都直接对应到下一步该看哪里:

很多工程时间都花在了去调查那些其实并不需要调查的运行上。知道一次运行是均衡的,就意味着可以放心去做别的事情。

TraceML 没有打算取代 PyTorch Profiler 或 Nsight Systems。需要 kernel 级别的 trace、CUDA timeline 或 NCCL 行为信息时那些才是合适的工具。

他的定位是轻量化的profiler,先跑 TraceML给这次运行做分类,再决定更深入的 profiling 是否值得做、应该指向哪里。

TraceML 是 PyTorch 训练诊断中的 tool zero(零号工具)。

TraceML 最有用的部分不只是实时视图,而是

final_summary.json

这个文件很小、结构化、容易在每个任务上收集。它可以被记录到 W&B 或 MLflow,作为 CI 工件存储,也可以与之前的运行做差异对比。TraceML 还提供了一个 compare 工作流:

 traceml compare run_a.json run_b.json

当一次训练性能回退出现时,问题不应该只是吞吐量是否下降了?,而应该是时间转移到哪里去了?。这正是

final_summary.json

设计要在不同运行之间收集的那种信号。

 pip install traceml-ai
 traceml run train.py

仓库地址:https://github.com/traceopt-ai/traceml

TraceML 是开源的目前支持单 GPU 以及单节点 DDP/FSDP;多节点支持很快会推出。

如果你从事 PyTorch 训练、分布式任务或 ML 基础设施相关的工作,可以事实这个包,他能让你在打开 profiler 之前,先弄清楚自己面对的是哪一种"慢"。

https://avoid.overfit.cn/post/a05ff94b3d7c4dab83f0197d801b3917

作者:TraceOpt

目录
相关文章
|
2天前
|
人工智能 缓存 运维
AI智能体协同实战:Hermes Agent+Claude Code接入阿里云百炼Token Plan完整教程
2026年,AI智能体已经从单一代码助手,进化为能够协同工作的虚拟开发团队。Hermes Agent与Claude Code的组合,成为当前最成熟、最高效的AI开发搭档:Hermes Agent负责任务规划、需求拆解、记忆沉淀与流程调度,扮演技术主管角色;Claude Code专注代码生成、文件修改、命令执行与工程落地,承担核心开发工作。二者配合,可实现从需求分析到代码落地的全流程自动化,大幅提升研发效率。
102 0
|
1月前
|
存储 人工智能 自然语言处理
Claude Opus 4.7 系统 Prompt 泄露:其中的10 个核心设计决策解读
刚发布的Claude 4.7 Prompt遭泄露,揭示其核心设计哲学:不只追求“更聪明”,更强调“自我约束”。它将心理重构、过度礼貌、工具犹豫等常见AI倾向视为风险信号,通过情感化规则、动态安全升级、隐式上下文记忆等10项机制,系统性抑制自身失败模式——真正目标是让模型清醒认知并管控自身的不可靠性。
200 2
Claude Opus 4.7 系统 Prompt 泄露:其中的10 个核心设计决策解读
|
15天前
|
存储 缓存 人工智能
当 Agent 从模型调用,走向系统工程:OpenAI 和 LangChain 的两种实践
OpenAI与LangChain最新实践揭示:AI Agent 正从“模型调用”迈向“系统工程”。前者以 WebSocket 优化API链路,提速40%;后者强调Feedback驱动Trace闭环,实现持续演进。效率与进化,缺一不可。
232 8
|
23天前
|
JSON API PHP
韩国股票实时数据 KOSPI(主板)和 KOSDAQ(创业板)的实时行情、K 线及指数数据
StockTV API全面支持韩国股市,覆盖KOSPI主板(exchangeId=60)与KOSDAQ创业板(110),提供实时行情、K线、指数等数据。需配置countryId=11及API密钥,支持HTTP/WS双协议,含PHP对接示例与关键注意事项。
|
23天前
|
人工智能 IDE 中间件
原创|AI 长期记忆分层检索架构(可落地的轻量中间件方案)
这是一套原创AI外挂式长期记忆中间件架构,含四层模块、三层索引、四级分层与本地化治理,零LLM检索开销、全本地隐私可控,支持IDE/AI助手无缝集成,单次对话记忆Token仅130~330,助力知识资产化沉淀。(239字)
|
20天前
|
人工智能 运维 架构师
我在 AIP 智能体平台踩过的坑,都在这篇企业 AI 落地经验里了
软件架构师罗小东分享企业AI落地实战经验:聚焦AIP智能体平台建设中的真实坑点与解法——涵盖智能体全生命周期管理、多源知识库语义检索、MCP工具集成及多模型中立架构设计,强调“解决问题”而非堆砌功能。(239字)
|
29天前
|
测试技术 API 内存技术
LangChain 还是 LangGraph?一个是编排一个是工具包
本文对比LangChain与LangGraph在真实代码审查流水线中的实践:二者API、Agent逻辑与Gemini 2.5 Flash调用完全一致。LangChain适合线性流程,简洁高效;LangGraph则以状态机支持条件分支、循环重试与人工干预,是复杂编排的唯一解。二者非替代关系,而是抽象层级互补——LangChain v1.0的Agent已构建于LangGraph之上。
631 3
LangChain 还是 LangGraph?一个是编排一个是工具包

热门文章

最新文章