迈向AI4S 2.0,上海AI实验室开源书生1T Moe 科学大模型Intern-S1-Pro!

简介: 2月4日,上海AI实验室开源万亿参数科学多模态大模型Intern-S1-Pro,全球开源社区中规模最大的AI4S模型。基于SAGE“通专融合”架构与MoE设计,融合傅里叶位置编码与创新路由机制,科学推理达奥赛金牌水平,综合能力稳居国际第一梯队,赋能AGI for Science范式革命。(239字)

2月4日,上海人工智能实验室开源基于“通专融合”技术架构SAGE打造的万亿参数科学多模态大模型 Intern-S1-Pro,为AI4S从“工具革命”的1.0阶段迈向以“革命的工具”驱动科学发现的2.0时代,提供创新的系统性开源基座。


作为当前全球开源社区中参数规模最大的科学多模态模型,Intern-S1-Pro的核心科学能力实现了质的跃升,高难度综合学科评测稳居AI4S领域国际领先水平,复杂数理逻辑推理能力达奥赛金牌水平,面向真实科研流程的智能体能力位居开源模型第一梯队。


此次发布的Intern-S1-Pro是通过SAGE实现 “可深度专业化通用模型” 的关键实践。该模型基于混合专家架构(MoE),共拥有512个专家,总参数达1T,每次调用仅激活8个专家、22B参数。其通用能力和科学能力协同演进,并在底层架构实现了两大核心突破:在SAGE的基础模型层,通过引入傅里叶位置编码并重构时序编码器,赋予模型统一理解从微观生命信号到宏观宇宙波动的“物理直觉”;通过高效路由机制,系统攻克了训练万亿参数MoE模型在稳定性与算力效率上的瓶颈,为超大规模模型的训练提供了关键的工程基础。


与此同时,Intern-S1-Pro验证了从原创模型架构到国产算力基座自主技术的完整链路,为构建开放共享的AGI4S基础设施奠定了坚实底座。通过开源开放,Intern-S1-Pro旨在降低全球科研门槛,与学术界和产业界共同推动以通用人工智能驱动科学发现的范式革命。


创空间体验链接:

https://www.modelscope.cn/studios/AI-ModelScope/InternLM-Demo


GitHub:

https://github.com/InternLM/Intern-S1


Model:

https://www.modelscope.cn/models/Shanghai_AI_Laboratory/Intern-S1-Pro

Intern-S1-Pro在评测基准中的表现:通用能力表现出色,科学能力达国际领先水平

创新底层架构

研究团队提出,可深度专业化通用模型(Specializable Generalist)是实现AGI的可行路径,其关键挑战在于:专家化模型在训练过程中需要低成本、能规模化的密集反馈;能够持续不断地学习与主动探索,并具备为同一个问题提供多视角、多种解决方案的能力;并能引入对物理世界规律的考量,兼顾多项差异化能力的学习效率与性能。


Intern-S1-Pro通过多项SAGE基础模型层的技术创新,拓宽了模型应用边界、提升了超大规模训练可行性,推进了可深度专业化通用模型的探索。


为构建能更深层次理解物理世界规律的科学大模型,研究团队引入了傅里叶位置编码(FoPE) 并重构时序编码器。FoPE为AI赋予双重视角:既能像看“粒子”一样捕捉文字之间的相对距离,又能像分析“波”一样把握科学信号的整体规律与频率。科学数据与语言的差异还体现在多尺度上,基于能自动适应数据密度的时序编码器,模型首次能统一处理从寥寥数个到百万级采样的各类信号,支持的分析对象从天文、地理直接拓展至生理信号、生物声学等领域,从而实现感知能力的重大跃迁。


为了高效训练承载这些能力的万亿参数超大规模模型,研究团队革新了其内部的“路由机制”。传统方法存在训练低效和算力浪费两大痛点。新技术通过 “路由稠密估计” ,让模型在高效运行的同时能进行更充分的学习,提升了稳定性;进而通过 “分组路由” 策略,像智能交通系统一样使海量计算芯片实现负载均衡,避免了资源闲置。通过算法与系统的协同创新,同时攻克了超大规模模型训练在“学习效率”和“资源调度”上的核心瓶颈,为高效、稳健地训练下一代万亿参数模型提供了关键基础。


通过上述底层架构的创新,Intern-S1-Pro不仅在规模上刷新了科学多模态模型的参数规模上限,也为SAGE架构所提出的“通用能力与专业能力协同演进”提供了可落地的实现路径。

科学能力再进化,通用能力协同演进

得益于创新的底层架构设计与万亿参数超大规模训练策略,Intern-S1-Pro的科学能力进一步升级。


在国际数学奥林匹克IMO-Answer-Bench和国际物理奥林匹克IPhO2025两大权威基准测试中,Intern-S1-Pro均展现出竞赛级别的解题能力。


在AI4S关键垂类领域,Intern-S1-Pro成功构建了一个跨越化学、材料、生命、地球、物理五大核心学科的全谱系能力矩阵,涵盖100多个专业子任务,不仅在Mol-Instruction、Biology-Instruction等单学科垂类评测中表现优异,更在SciReasoner等高难度的综合学科评测基准中,取得了与闭源商业大模型及垂类SOTA模型相当,甚至更优的成绩,稳居AI4S领域的第一梯队。


在基础理解维度,Intern-S1-Pro基于高精度多模态感知能力,能够精准解析复杂的分子结构图及各类实验图表,深入到逻辑推理层面 ,Intern-S1-Pro能够处理高阶科学问答,如反应条件推断、理化性质预测,精准捕捉数据背后的因果规律等。随着理解与推理能力的持续增强,Intern-S1-Pro的能力边界不断向真实科研场景延伸,其应用范围从微观层面的化学逆合成、蛋白质序列生成,拓展至宏观尺度的遥感图像分析等复杂任务。通过XLRS-Bench等真实科研场景评测,模型展现出从“解题”迈向“解决问题”的科研生产力价值,为前沿科学探索提供了坚实支撑。


同时,借助通专融合技术路线,Intern-S1-Pro在通用能力与专业科学能力上实现协同进阶:在图文跨模态理解、科学图表逻辑推理、多场景视觉感知,以及高质量自然语言生成和复杂指令精准遵循等核心维度,Intern-S1-Pro均稳居开源模型阵营第一梯队,展现出扎实而全面的综合实力。


通过通专融合的训练策略,Intern-S1-Pro不仅补齐了传统前沿模型在专业推理上的短板,还实现了多模态与文本通用能力的均衡发展,真正将通用能力与专业科学能力的协同演进落到实处,为科研场景下复杂问题的理解、推理与应用提供了可靠支撑。

在智能体能力方面,Intern-S1-Pro实现了从“静态任务规划”到“动态环境交互”的跨越式进阶。在以动态环境与复杂交互为核心的Tau-2评测中达到了国际一流水平,为赋能复杂科学智能体打下了坚实基础。

模型部署实践

硬件准备与配置建议

由于模型规模超过1T,基础硬件要求如下:

  • 最低配置:至少 2 块 8-GPU H200 节点。
  • 存储格式:FP8。
  • 并行策略
  1. TP (Tensor Parallelism) 张量并行。
  2. DP + EP (Data + Expert Parallelism) 数据并行 + 专家并行。


模型下载

modelscope download --model Shanghai_AI_Laboratory/Intern-S1-Pro --local_dir ./Intern-S1-Pro

LMDeploy 部署方案

要求版本lmdeploy >= 0.12.0

方案 A:张量并行 (TP)

在 Node 0 和 Node 1 上启动 Ray 后,于 Node 0 执行:

# start ray on node 0 and node 1
# node 0
lmdeploy serve api_server  ./Intern-S1-Pro --backend pytorch --tp 16

方案 B:混合并行 (DP + EP)

# node 0, proxy server
lmdeploy serve proxy --server-name ${proxy_server_ip} --server-port ${proxy_server_port} --routing-strategy 'min_expected_latency' --serving-strategy Hybrid
# node 0
export LMDEPLOY_DP_MASTER_ADDR=${node0_ip}
export LMDEPLOY_DP_MASTER_PORT=29555
lmdeploy serve api_server \
    ./Intern-S1-Pro \
    --backend pytorch \
    --tp 1 \
    --dp 16 \
    --ep 16 \
    --proxy-url http://${proxy_server_ip}:${proxy_server_port} \
    --nnodes 2 \
    --node-rank 0 \
    --reasoning-parser intern-s1 \
    --tool-call-parser qwen3
# node 1
export LMDEPLOY_DP_MASTER_ADDR=${node0_ip}
export LMDEPLOY_DP_MASTER_PORT=29555
lmdeploy serve api_server \
    ./Intern-S1-Pro \
    --backend pytorch \
    --tp 1 \
    --dp 16 \
    --ep 16 \
    --proxy-url http://${proxy_server_ip}:${proxy_server_port} \
    --nnodes 2 \
    --node-rank 1 \
    --reasoning-parser intern-s1 \
    --tool-call-parser qwen3

vLLM 部署方案

vLLM 在处理长文本和视频推理时具有出色表现,但需注意内存管理。

# Node 0 执行
export VLLM_USE_MODELSCOPE=true
export VLLM_ENGINE_READY_TIMEOUT_S=10000
# node 0
export VLLM_ENGINE_READY_TIMEOUT_S=10000
vllm serve internlm/Intern-S1-Pro \
    --tensor-parallel-size 16 \
    --enable-expert-parallel \
    --distributed-executor-backend ray \
    --max-model-len 65536 \
    --trust-remote-code \
    --reasoning-parser deepseek_r1 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes

SGLang 部署方案

SGLang 方案推荐开启 FlashAttention 3 (fa3) 后端以获得极致性能。

配置环境

export SGLANG_USE_MODELSCOPE=true
export DIST_ADDR=${master_node_ip}:${master_node_port}
# node 0
python3 -m sglang.launch_server \
  --model-path internlm/Intern-S1-Pro \
  --tp 16 \
  --ep 16 \
  --mem-fraction-static 0.85 \
  --trust-remote-code \
  --dist-init-addr ${DIST_ADDR} \
  --nnodes 2 \
  --attention-backend fa3 \
  --mm-attention-backend fa3 \
  --keep-mm-feature-on-device \
  --node-rank 0 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen
# node 1
python3 -m sglang.launch_server \
  --model-path internlm/Intern-S1-Pro \
  --tp 16 \
  --ep 16 \
  --mem-fraction-static 0.85 \
  --trust-remote-code \
  --dist-init-addr ${DIST_ADDR} \
  --nnodes 2 \
  --attention-backend fa3 \
  --mm-attention-backend fa3 \
  --keep-mm-feature-on-device \
  --node-rank 1 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwe

模型API Inference体验

可以通过魔搭社区的推理 API-Inference体验Intern-S1-Pro模型

示例代码:

from openai import OpenAI
client = OpenAI(
    base_url='https://api-inference.modelscope.cn/v1',
    api_key='<MODELSCOPE_TOKEN>', # ModelScope Token
)
response = client.chat.completions.create(
    model='Shanghai_AI_Laboratory/Intern-S1-Pro', # ModelScope Model-Id, required
    messages=[
        {
            'role': 'user',
            'content': '你好'
        }
    ],
    stream=True
)
done_reasoning = False
for chunk in response:
    if chunk.choices:
        reasoning_chunk = chunk.choices[0].delta.reasoning_content
        answer_chunk = chunk.choices[0].delta.content
        if reasoning_chunk != '':
            print(reasoning_chunk, end='', flush=True)
        elif answer_chunk != '':
            if not done_reasoning:
                print('\n\n === Final Answer ===\n')
                done_reasoning = True
            print(answer_chunk, end='', flush=True)

高质量开源赋能创新生态

自2023年书生大模型首次发布以来,上海AI实验室已逐步构建起丰富的书生大模型家族,包括科学多模态模型Intern-S1、大语言模型书生·浦语InternLM、多模态模型书生·万象InternVL、强推理模型书生·思客InternThinker等。同时首创并开源了面向大模型研发与应用的全链路开源工具体系,覆盖数据处理、预训练、微调、部署、评测与应用等关键环节,包含训练框架XTuner、部署推理框架LMDeploy、评测框架OpenCompass、高效文档解析工具MinerU,以及思索式AI搜索应用MindSearch等在内的核心工具已全面开源,形成覆盖数十万开发者参与的活跃开源社区。


自发布以来,Intern-S1累计下载超41万次,并获得近200家科研机构和企业的合作申请。其卓越的跨模态科学理解能力不仅为科研提供了高效工具,也通过开源降低了全球科研团队迈入AGI for Science的门槛。未来,在研究范式创新及模型能力提升的基础上,上海AI实验室将推进Intern-S1及其全链条工具体系持续开源,支持免费商用,同时提供线上开放服务,与全球合作伙伴共建更加开放、高效的科学AI生态。


点击即可跳转模型链接:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/Intern-S1-Pro


目录
相关文章
|
8天前
|
存储 人工智能 弹性计算
阿里云服务器学生免费领取指南:2026年最新0元获得一台学生机教程
阿里云学生可免费领300元无门槛代金券,认证后用于购云服务器即0元入手!教程涵盖申请、认证及使用全流程。非学生亦享权益中心特惠机型,低至38元/年。详情见阿里云高校用云计划。
231 18
|
5天前
|
缓存 自然语言处理 API
美团开源 LongCat-Flash-Lite:实现轻量化 MoE 高效推理
美团LongCat团队开源68.5B MoE大模型LongCat-Flash-Lite,创新采用N-gram Embedding架构,推理仅激活2.9B–4.5B参数,却在Agent工具调用、代码生成等任务上大幅领先;支持256K长上下文,API生成速度达500–700 token/s,MIT协议开源。
178 6
|
19天前
|
人工智能 自然语言处理 物联网
Qwen-Image 从推理到 LoRA 训练实战教程(AMD GPU × DiffSynth-Studio)
本课程由魔搭社区出品,详解如何在AMD GPU上基于DiffSynth-Studio框架高效部署、微调与训练Qwen-Image系列大模型(860亿参数)。涵盖文生图推理、LoRA画质增强、多语言提示理解、高一致性人像外延及多图融合编辑,并支持从零训练专属LoRA(如定制狗狗生成)。
530 40
|
16天前
|
机器学习/深度学习 人工智能 物联网
Z Image标准版来了!专为微调而生的全能基座,兼顾真实与艺术!
Z-Image标准版正式开源!作为非蒸馏完整模型,它在生成质量、艺术风格多样性(支持动漫/插画等)、微调友好性(LoRA/ControlNet)、CFG精确控制及生成独特性方面全面升级,是开发者定制化图像生成的理想基座。
557 5
|
22天前
|
JSON 人工智能 自然语言处理
基于Qwen-3B-Raw的本地化SD Prompt生成器研究
本项目用NLP技术把人类的模糊美学意图,蒸馏成可重复、可微调、可部署的图像生成指令引擎。
140 13
|
5天前
|
边缘计算 人工智能 物联网
Ultralytics YOLO26来啦!5种尺寸全家桶,速度与精度兼顾
Ultralytics发布YOLO26,系列迄今最先进、易部署的模型,支持分类、检测、分割、姿态估计等多任务。五种尺寸灵活适配边缘设备,CPU推理提速43%,首创无NMS端到端推理,移除DFL提升兼容性,已上架魔搭社区。(239字)
117 13
|
9天前
|
机器学习/深度学习 自然语言处理 API
Qwen3-Coder-Next开源!推动小型混合模型在智能体编程上的边界
Qwen团队开源Qwen3-Coder-Next:基于Qwen3-Next-80B的轻量级编程智能体模型,采用混合注意力+MoE架构,通过可执行任务合成与强化学习训练,在SWE-Bench Verified达70%+,以仅3B激活参数媲美10–20倍大模型,兼顾高性能与低成本部署。(239字)
460 3
|
5天前
|
存储 API 数据库
投稿 | Zvec: 开箱即用、高性能的嵌入式向量数据库
Zvec 是一款开源(Apache 2.0)轻量级嵌入式向量数据库,专为终端侧设计,具备开箱即用、资源可控、极致性能与完整向量能力四大优势,支持标量-向量混合查询、CRUD、崩溃恢复等生产级特性,让端侧RAG如SQLite般简单可靠。(239字)
76 7
|
22天前
|
人工智能 Kubernetes 数据可视化
别再写"面条式文档"了!用AI给你的思维装个"图形渲染引擎"
别让线性文字限制了你的高维思考。本文揭示了大脑作为"图形处理器"的本质,提供了一套专业的AI指令,将复杂的逻辑思维"序列化"为清晰的拓扑结构,像渲染DOM树一样可视化你的知识体系,极大提升沟通与学习效率。
175 12
|
30天前
|
人工智能 安全 调度
AI工程vs传统工程 —「道法术」中的变与不变
本文从“道、法、术”三个层面对比AI工程与传统软件工程的异同,指出AI工程并非推倒重来,而是在传统工程坚实基础上,为应对大模型带来的不确定性(如概率性输出、幻觉、高延迟等)所进行的架构升级:在“道”上,从追求绝对正确转向管理概率预期;在“法”上,延续分层解耦、高可用等原则,但建模重心转向上下文工程与不确定性边界控制;在“术”上,融合传统工程基本功与AI新工具(如Context Engineering、轨迹可视化、多维评估体系),最终以确定性架构驾驭不确定性智能,实现可靠价值交付。
359 41
AI工程vs传统工程 —「道法术」中的变与不变

热门文章

最新文章