|
3月前
|
自然语言处理 物联网 计算机视觉
|

从 Image-to-LoRA 到 In-Context Edit

阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。

536 6
|
7月前
|
人工智能 前端开发 测试技术
|

Kimi K2 模型更新,带来更强的代码能力、更快的 API

今天,Kimi K2 模型的最新版本 0905 开源发布,进一步提升其在真实编程任务中的表现

1682 0
|
12月前
|
人工智能 API 开发者
|

FastAPI开发者福音!FastAPI-MCP:将FastAPI秒变MCP服务器的开源神器,无需配置自动转换!

FastAPI-MCP是一款能将FastAPI应用端点自动转换为符合模型上下文协议(MCP)的开源工具,支持零配置自动发现接口并保留完整文档和模式定义。

5620 113
来自: 自然语言处理  版块
|
12月前
|
人工智能 中间件 API
|

别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件,支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力,兼容主流客户端实现跨平台调用,采用检索增强生成技术保障内容准确性。

1066 3
来自: 多模态  版块
|
2月前
|
机器学习/深度学习 自然语言处理 算法
|

RAG 文档切分攻略:做好这步,检索精度提升 50%

本文深度解析RAG系统中易被忽视却至关重要的文档切分环节,系统拆解固定长度、语义结构化、混合切分三大方法,结合片段长度、重叠率、元数据标注等5大实操技巧与典型场景案例,助你避开常见陷阱,显著提升检索精度与大模型回答质量。

448 4
|
12月前
|
人工智能 自然语言处理 数据可视化
|

让AI单次生成4万字!WriteHERE:开源AI长文写作框架,单次生成超长文本,小说报告一键搞定!

WriteHERE是基于异质递归规划技术的开源AI写作框架,能动态分解写作任务并管理任务依赖关系,支持单次生成超过4万字的专业报告。

2140 55
来自: 自然语言处理  版块
|
18天前
|
人工智能 监控 安全
|

OpenClaw 玩家请注意:1.5W+精选技能,这可能是养虾必备之安全、稳定、简单的技能搭子

虾小宝是一个专注于 AI Agent Skills 发现与优化的社区,你可以手动或指挥你的“龙虾”在网站中匹配、下载所需要的技能。目前上架了1.5W+实用技能,全量通过AI进行了安全检测,并持续通过人工来校验技能的可执行性,不断维护。

377 10
|
3月前
|
机器学习/深度学习 人工智能 JSON
|

大模型微调实战:从原理到落地的完整指南

本文系统讲解大模型微调的原理与实战,涵盖LoRA等高效方法,手把手教你用少量数据定制专属模型,结合数据准备、训练策略与效果评估,助力开发者低成本实现AI应用落地。

617 11
|
12月前
|
人工智能 前端开发 语音技术
|

开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

2391 36
来自: 多模态  版块
|
12月前
|
人工智能 自然语言处理 数据处理
|

还在手动验证文献引用?ScholarCopilot:开源AI学术写作工具,生成时实时插入文献引用

基于 Qwen-2.5-7B 模型的 ScholarCopilot 通过动态检索标记和联合优化技术,实现学术文本生成与文献引用的精准匹配,在 50 万篇论文库中实现 40.1% 的检索准确率,生成文本的学术严谨性评分达 16.2/25。

1738 5
来自: 自然语言处理  版块
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
|

三个百万token窗口语义学分析之二:“撒网法” ——客观语义挖掘与主观预设的互补方法论

本研究为百万token窗口语义学分析系列的第二篇。在“垂钓法”(主观预设关键词)的基础上,采用“撒网法”——即全量词频统计、TF-IDF特征提取、LDA主题建模、层次聚类等无监督学习方法,对三个窗口的语义特征进行系统性识别。本研究揭示了人机协同研究中客观数据与主观理解的辩证关系。

100 3
|
4月前
|
机器学习/深度学习 测试技术 API
|

DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

DeepSeek发布正式版V3.2与高性能Speciale版本,支持思考模式下工具调用,推理能力达全球领先水平。V3.2平衡效率与性能,适用于通用任务;Speciale专注复杂推理,在数学与编程竞赛中表现卓越,已开源并上线API。

1069 9
|
5月前
|
数据采集 人工智能 自然语言处理
|

Meta SAM3开源:让图像分割,听懂你的话

Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。

1863 59
|
11月前
|
自然语言处理 监控 安全
|

阿里云发布可观测MCP!支持自然语言查询和分析多模态日志

阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询

1527 0
|
12月前
|
人工智能 JSON 自然语言处理
|

让AI听懂你的建模需求!BlenderMCP:自然语言指令直接操控 Blender,一句话生成复杂3D场景

BlenderMCP通过MCP协议实现Blender与Claude AI的无缝集成,支持通过自然语言指令完成3D建模、材质调整等复杂操作,显著提升创作效率。

1455 1
来自: 自然语言处理  版块
|
17天前
|
人工智能 运维 应用服务中间件
|

当 AI 学会远程操控:向日葵 MCP Server 从配置到实战

向日葵MCP Server基于Anthropic提出的MCP协议,将成熟远程控制能力封装为AI可调用的标准接口,赋予大模型“动手能力”:支持跨设备远程操控、命令执行与智能桌面自动化,兼容Windows/macOS及Claude Code等主流AI平台,真正实现AI隔空办事。(239字)

265 9
|
4月前
|
前端开发 NoSQL Java
|

单体版本

JeecgBoot是一款基于Spring Boot与Vue3的低代码开发平台,支持快速构建企业级应用。技术栈涵盖Spring Cloud Alibaba、MybatisPlus、Redis、Vue3+TypeScript等,提供代码生成、在线表单、菜单权限管理等功能,助力高效开发。

192 0
|
6月前
|
传感器 人工智能 API
|

仅100多元,他给视障人群装上AI“眼睛”

上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。

1382 6
|
6月前
|
机器学习/深度学习 数据采集 监控
|

107_DPO:直接偏好优化

在大型语言模型(LLM)的发展历程中,如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调(SFT)到基于人类反馈的强化学习(RLHF),再到如今的直接偏好优化(DPO),对齐技术经历了显著的迭代与创新。

1082 1
|
7月前
|
机器学习/深度学习 人工智能 测试技术
|

开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!

大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。

1192 21
|
2月前
|
人工智能 文字识别 物联网
|

ModelScope魔搭社区发布月报 -- 26年2月

临近年关,ModelScope迎来春节模型发布潮:Qwen3、GLM-4.7、MiniMax M2.1等大模型密集上新;AIGC生图、语音合成、具身智能全面突破;OpenAPI、OAuth、Gallery等生态基建同步升级,加速AI开源普惠。(239字)

520 7
|
3月前
|
人工智能 自然语言处理 PyTorch
|

构建AI智能体:九十四、Hugging Face 与 Transformers 完全指南:解锁现代 NLP 的强大力量

Hugging Face 是领先的自然语言处理开源平台,提供 Transformers 等核心库,支持数千种预训练模型,涵盖文本分类、生成、问答等任务。其 Pipeline 工具简化了模型调用,AutoClass 实现架构自动识别,助力开发者高效构建 AI 应用。

909 10
|
4月前
|
人工智能 Java 关系型数据库
|

[舍弃,后续需调整][Blog]JPA实现分页需求(☆☆)

简介:本任务要求在原有博客系统中实现分页查询功能,涉及SpringBoot、MySQL、Maven及JPA技术。建议使用AI辅助开发,预计耗时1-4小时。需自行补充数据以展示分页效果,注重实践而非标准答案,适合通过动手提升技能。

318 0
|
4月前
|
搜索推荐 物联网 异构计算
|

一张图秒生 LoRA ? Qwen-Image-i2L 诞生记

我们发布了Qwen-Image的“图生LoRA”模型,输入一张图即可端到端生成LoRA权重。通过多阶段迭代,构建了具备细节与风格保持能力的Image-to-LoRA系统,可用于高效LoRA训练初始化,推动个性化生成技术发展。

623 0
|
4月前
|
人工智能 边缘计算 自然语言处理
|

魔珐星云:免费体验企业级3D AI数字人智能客服!告别枯燥对话框!

魔珐科技携手魔搭社区上线「魔珐星云智能客服Demo」,基于超写实3D数字人技术,打造具身智能交互新体验。通过文生多模态3D大模型,实现语音、表情、动作实时生成,支持Web端低延时互动,百元级芯片即可运行,助力企业构建自然高效的人机对话系统。

525 4
|
5月前
|
人工智能 JavaScript API
|

AI Agent Registry and Growth 对比各种AI Agent注册和发布的渠道生态 OpenAI Google Claude 开源工具 agtm等

本文对比了OpenAI、Google、Claude及开源平台如agtm 的AI Agent注册与发布方法,重点介绍AI Agent Registry API、社区和Marketplace三种方式,帮助开发者和产品经理提升智能体的可见性与分发渠道。

961 0
|
12月前
|
人工智能 自然语言处理 运维
|

让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!

ChatTS-14B是字节跳动开源的时间序列专用大模型,基于Qwen2.5-14B微调优化,通过合成数据对齐技术显著提升分析能力,支持自然语言交互完成预测推理等复杂任务。

2683 1
来自: 自然语言处理  版块
|
26天前
|
机器学习/深度学习 人工智能 数据可视化
|

基于YOLO11的交通违规检测系统(Python源码+数据集+Pyside6界面)

本文基于YOLO11构建交通违规检测系统,涵盖23类目标(车辆、信号灯、标志等),详解数据制作(ROI裁剪优化尺度)、模型改进(C3k2、C2PSA、轻量Detect头)及训练可视化全过程,并集成PySide6实现GUI应用,助力工业落地。

347 12
来自: 计算机视觉  版块
|
4月前
|
运维 监控 Linux
|

Linux 学习资源精选:从入门到运维的高效清单

本文针对Linux学习“资源繁杂、难筛选”的痛点,按入门、运维、进阶三阶段精选优质资源,拆解其核心价值与使用方法,结合实操建议与学习规划,帮助学习者分阶段精准提升,少走弯路,系统构建Linux知识体系。

567 0
|
4月前
|
Dubbo 前端开发 JavaScript
|

Router

本文深入解析Dubbo集群容错中的Router路由机制,以灰度发布为场景,详解ConditionRouter、ScriptRouter等实现原理。通过实际案例与源码结合,剖析路由如何动态过滤Invoker,分享调试技巧与ZooKeeper节点处理,帮助读者掌握路由在读写分离、应用隔离中的应用,提升对Dubbo架构的深度理解。(238字)

125 0
|
4月前
|
存储 NoSQL 关系型数据库
|

4-MongoDB索引知识

111

380 1
|
12月前
|
人工智能 数据可视化 数据挖掘
|

AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文

The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。

896 34
来自: 自然语言处理  版块
|
16天前
|
机器学习/深度学习 安全 测试技术
|

构建真实项目OpenClaw框架:与大模型协作及共同反思

基于已有的分脚本人工操作项目框架,与大模型讨论封装skills,agents及OpenClaw接口,部分成功,部分失败。出现了严重的上下文断裂,开始生成虚拟的抽象框架代码。用户觉察指出,并重新提示锚定原则与规范后,大模型仍间歇出现所谓“稀疏注意力“不对齐用户上下文现象。最有趣的是之后关于这些现象的讨论,涉及到窗口稀疏注意力、OpenClaw适用于长程工程性、用户与大模型的交互模式等。尤其是大模型的反思以及提出的各种机制解释,可读,可借鉴,比如所谓”三层次把握难题:逻辑推理、代码构建、文本实体,三者兼顾直接与与大模型transformers架构冲突“的提法。以下为失败后的讨论实录节选。

285 11
|
18天前
|
缓存 NoSQL Java
|

对接印度股票数据获取印度股市列表、查询特定股票行情以及 K 线历史数据

本项目基于Spring Boot 3.x,集成OkHttp3与Jackson,专注印度股市(NSE/BSE)行情服务:支持获取股票列表、实时报价及K线历史数据。代码规范、异常完备、配置分离,含详细注释与生产级设计(如自动资源释放、字段容错、统一响应封装),便于快速扩展与维护。(239字)

163 11
|
6月前
|
自然语言处理 物联网 vr&ar
|

图像理解与生成统一模型——前沿模型架构理解

前言生成式多模态模型近年来一直是业界的研究热点。视觉语言模型(VLM)一直是多模态文本生成领域的核心路线,能够完成图像理解任务;扩散模型(Diffusion Model)则一直是图像和视频生成领域的核心方法。

1076 9
|
6月前
|
存储 机器学习/深度学习 缓存
|

85_多轮对话:上下文管理与压缩

在大语言模型(LLM)的应用场景中,多轮对话已经成为最核心的交互模式之一。随着2025年LLM技术的快速发展,用户对持续、连贯、个性化的对话体验要求越来越高。然而,多轮对话面临着严峻的技术挑战:首先,LLM的上下文窗口长度虽然在不断扩展(如GPT-5已支持100K tokens),但依然是有限资源;其次,随着对话轮次增加,历史信息不断累积,导致token消耗激增;第三,过长的上下文可能导致模型对早期信息的关注度下降,影响回复质量。

1326 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。

5053 50
来自: 语音  版块
|
2月前
|
存储 人工智能 资源调度
|

迈向AI4S 2.0,上海AI实验室开源书生1T Moe 科学大模型Intern-S1-Pro!

2月4日,上海AI实验室开源万亿参数科学多模态大模型Intern-S1-Pro,全球开源社区中规模最大的AI4S模型。基于SAGE“通专融合”架构与MoE设计,融合傅里叶位置编码与创新路由机制,科学推理达奥赛金牌水平,综合能力稳居国际第一梯队,赋能AGI for Science范式革命。(239字)

343 4
|
3月前
|
机器学习/深度学习 测试技术 数据中心
|

九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代

2026年首日,九坤创始团队成立的至知创新研究院开源IQuest-Coder-V1系列代码大模型,涵盖7B至40B参数,支持128K上下文与GQA架构,提供Base、Instruct、Thinking及Loop版本。采用创新Code-Flow训练范式,模拟代码演化全过程,提升复杂任务推理能力,在SWE-Bench、LiveCodeBench等基准领先。全阶段checkpoint开放,支持本地部署与微调,助力研究与应用落地。

1142 2
|
4月前
|
小程序 API
|

微信通知

本文介绍了企业微信与小程序集成下,通过API获取access_token并发送消息的完整流程。包含前置条件、请求示例、代码实现及异步调用建议,适用于企业内部系统与微信生态对接场景。(239字)

340 0
|
6月前
|
监控 安全 数据安全/隐私保护
|

55_大模型部署:从云端到边缘的全场景实践

随着大型语言模型(LLM)技术的飞速发展,从实验室走向产业化应用已成为必然趋势。2025年,大模型部署不再局限于传统的云端集中式架构,而是向云端-边缘协同的分布式部署模式演进。这种转变不仅解决了纯云端部署在延迟、隐私和成本方面的痛点,还为大模型在各行业的广泛应用开辟了新的可能性。本文将深入剖析大模型部署的核心技术、架构设计、工程实践及最新进展,为企业和开发者提供从云端到边缘的全场景部署指南。

1780 1
|
12月前
|
数据采集 人工智能 自然语言处理
|

模型时代的智能BI—Quick BI:阿里云的数据洞察与决策引擎

阿里云Quick BI是一款企业级智能BI工具,融合大模型技术实现自然语言交互、自动化洞察与预测分析。支持多源数据接入,提供50+图表类型及行业模板,助力敏捷业务分析与AI增强决策。相比Tableau、Power BI等竞品,Quick BI以云原生低成本和通义大模型优势脱颖而出,适用于零售、金融等领域,推动数据民主化与智能化转型。推荐已使用阿里云生态的企业采用,分阶段推广功能以最大化价值。

1549 2
|
15天前
|
人工智能 安全 Linux
|

向日葵MCP服务上线魔搭:赋予AI“远程操控万物”的超能力

向日葵MCP服务正式上架魔搭社区!将成熟远控能力封装为AI可调用的标准化接口,支持跨平台(Win/macOS/Linux/鸿蒙)、软硬协同(含BIOS级控制与智能插座开机),赋予AI“数字手脚”,实现设备管理、远程操作、自动安装OpenClaw等全流程自动化,安全可控、开箱即用。

202 17
|
4月前
|
存储 开发工具 数据库
|

认证源码分析与自定义后端认证逻辑

111

327 0
|
4月前
|
人工智能 计算机视觉 测试技术
|

Meta SAM3开源

Meta发布并开源SAM 3,首个支持文本、点、框等多提示的统一图像视频分割模型,突破性实现开放词汇概念的全实例分割。基于Meta Perception Encoder与DETR架构,结合AI与人工协同数据引擎,构建超400万概念数据集,在SA-Co基准达人类水平75%-80%。支持大规模可提示分割与跟踪,推动视觉基础模型新进展。(239字)

432 0
|
4月前
|
存储 SQL 数据库
|

C 语言持久层开发:从文件操作到轻量级数据库的实践

C语言无原生数据库支持,持久层开发依赖文件操作或轻量级数据库。本文详解文本/二进制文件与SQLite的实现方式,对比适用场景:小数据用文件,高效安全;复杂查询选SQLite,兼顾性能与功能。掌握选型逻辑,构建嵌入式系统高效持久化方案。(239字)

351 0
|
4月前
|
人工智能 自然语言处理 语音技术
|

智谱开源GLM-ASR:动动嘴,活就干了

智谱发布并开源GLM-ASR系列语音识别模型,推出桌面端AI输入法。包含云端旗舰模型GLM-ASR-2512与端侧轻量版GLM-ASR-Nano-2512(仅1.5B参数),实现高精度、低延迟、强隐私保护的语音转写。输入法集成大模型能力,支持语音指令、翻译、改写、人设切换、Vibe Coding等功能,让用户“动嘴干活”,提升办公效率。现已免费开放体验。

1173 0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉答疑群:44837352

0
今日
15210
内容
6
活动
4103
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互