|
8月前
|
存储 人工智能 数据可视化
|

企业级 AI 模型无代码落地指南:基于阿里云工具链,从 0 到 1 实现业务价值

某汽车零部件厂商通过阿里云PAI、OSS等工具,实现无代码AI质检落地:仅用控制台操作完成数据治理到部署,质检效率提升3倍,模型周期从2月缩至2周。本文详解全栈可视化方案,助力企业零代码落地AI。

957 1
|
8月前
|
数据采集 存储 缓存
|

LLM + 抓取:让学术文献检索更聪明

结合爬虫与大模型,打造懂语义的学术检索助手:自动抓取最新NLP+爬虫论文,经清洗、向量化与RAG增强,由LLM提炼贡献,告别关键词匹配,实现精准智能问答。

935 0
|
8月前
|
存储 分布式计算 资源调度
|

【赵渝强老师】阿里云大数据MaxCompute的体系架构

阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。

733 1
来自: 大数据计算 MaxCompute  版块
|
9月前
|
人工智能 监控 算法
|

构建时序感知的智能RAG系统:让AI自动处理动态数据并实时更新知识库

本文系统构建了一个基于时序管理的智能体架构,旨在应对动态知识库(如财务报告、技术文档)在问答任务中的演进与不确定性。通过六层设计(语义分块、原子事实提取、实体解析、时序失效处理、知识图构建、优化知识库),实现了从原始文档到结构化、时间感知知识库的转化。该架构支持RAG和多智能体系统,提升了推理逻辑性与准确性,并通过LangGraph实现自动化工作流,强化了对持续更新信息的处理能力。

1252 5
|
10月前
|
数据采集 运维 DataWorks
|

DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案,支持千万级任务调度、多源数据集成及全链路数据开发,助力智能驾驶模型数据处理与模型训练高效落地。

869 0
|
10月前
|
SQL
|

使用sql转换身份证15位-18位

使用sql转换身份证15位-18位

509 1
|
12月前
|
人工智能 JSON 安全
|

VIN码查询_标准版API:帮助解锁车辆的“身份证”详细信息的实战指南

VIN码(车辆识别号码)是由17位字母和数字组成的全球唯一编码,相当于汽车的“身份证”。通过解析VIN码,可获取品牌、车系、生产年份等关键信息。探数API平台的VIN码查询API(标准版),只需输入VIN码即可返回完整车辆配置信息。 该API适用于多种场景:电商平台可自动填充商品详情,提升准确性;维修行业能精准匹配零件与诊断需求;二手车市场则增强交易透明度与安全性。其调用流程简单,包括准备VIN码、构造请求、处理响应及异常处理。 VIN码不仅是查询工具,更是连接制造、销售、维修、保险等环节的纽带。

1087 6
|
13天前
|
数据采集 Java API
|

拒绝 403 Forbidden!实战解析全球流媒体元数据的高并发爬虫架构(附完整核心源码)

这篇文档介绍了使用Python和代理构建流媒体平台元数据采集方案。包括动态代理池配置、伪装浏览器指纹、实战Demo、高并发避坑指南。旨在帮助构建稳定有效的采集方案。

101 2
|
1月前
|
SQL 人工智能 Java
|

基于 NoETL 语义编织技术构建 AI-Ready 数据底座

AI时代,数据平台选型的核心是选择能构建“统一语义层”的下一代架构。

200 1
|
1月前
|
并行计算 算法框架/工具 iOS开发
|

TorchRec在macos ARM芯片(Apple Silicon)上无法安装

JaggedTensor等在macOS ARM芯片上无法运行,主因是ARM64与x86_64架构不兼容,且TorchRec深度依赖CUDA——而Apple Silicon仅支持Metal。fbgemm-gpu缺失、Rosetta 2不支持CUDA指令,导致关键操作失败。建议改用MLX框架或标准PyTorch张量替代。

281 4
来自: 智能搜索推荐  版块
|
1月前
|
算法 调度 数据库
|

演化计算与抽样方法构造新算法流程:从 AlphaEvolve 看 LLM × EA 融合范式

本文系统解析AlphaEvolve——Google DeepMind提出的LLM×EA融合新范式:以语义引导的抽样机制、双模型协同进化(Gemini Flash+Pro)、自动评估闭环,实现算法的自主发现与优化,已突破矩阵乘法纪录并提升训练效率。(239字)

262 15
|
1月前
|
SQL 人工智能 分布式计算
|

EMR Serverless Spark 携手 PAI/百炼,开启“SQL 即 AI”的新篇章

EMR Serverless Spark 深度集成 AI Function 能力,并无缝对接 阿里云百炼与 阿里云人工智能平台 PAI 模型在线服务 PAI-EAS,定义了“SQL 即 AI”的新解决思路,数据分析师只需一行 SQL,即可直接调用世界顶尖的大模型。

244 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI浪潮下的程序员:如何在变革中寻找新航向

本文探讨AI浪潮下程序员的转型之路:AI是助手而非替代者。面对挑战,应主动学习AI工具、深耕行业领域、提升软技能与问题解决能力,从“码农”蜕变为“AI时代的创造者”。未来属于积极适应者。(239字)

278 8
|
2月前
|
数据采集 Web App开发 监控
|

极速上手:Puppeteer + 原生代理IP (金融与突发新闻抓取 Cheat Sheet)

本文介绍金融与新闻高频爬虫的实战方案:用 `puppeteer-extra` + `stealth` 插件隐藏自动化指纹,结合高匿代理IP轮换,实现秒级资讯采集。含完整配置、优化代码及生产避坑指南。

210 4
|
2月前
|
机器学习/深度学习 SQL 人工智能
|

自然语言查数技术路线对比:本体神经网络如何实现企业级精准问数

本文剖析NL2SQL、RAG、预制指标与本体神经网络四大技术路线,指出后者(Palantir、UINO采用)以ABC范式实现高准确率(95%+)、线性维护成本、跨库多模态精准问数,真正支撑企业级智能分析。

313 1
|
2月前
|
机器学习/深度学习 BI
|

数据智能体目前能做到多少准确率?

本文客观分析字节、帆软、京东、Palantir、UINO等主流数据智能体的准确率表现,揭示NL2SQL、宽表、本体+智能体等技术路线的真实水平(单表最高98%+,多表本体路线达95%+),指出语义深度、知识积累、测试集差异等核心影响因素,并提供可落地的POC评估框架。(239字)

266 0
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
|

写 PyTorch 总像在写脚本?试试 PyTorch Lightning,把模型训练变成“工程化项目”

写 PyTorch 总像在写脚本?试试 PyTorch Lightning,把模型训练变成“工程化项目”

438 14
|
3月前
|
数据采集 供应链 物联网
|

别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型

别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型

487 4
|
3月前
|
存储 运维 分布式计算
|

诗悦游戏基于DLF与EMR StarRocks降本38%

诗悦网络(2014年成立)是千人规模的研运一体手游公司,代表作有《长安幻想》《永夜降临》等。为支撑PB级开放世界新游《望月》,其原半托管StarRocks数据平台面临高成本、难运维、稳定性差等痛点。阿里云以Serverless StarRocks+DLF Paimon数据湖方案实现存算分离、多租户隔离与全托管运维,总成本降38%,查询性能提升40%+,RPO=0,全面赋能实时/近实时/离线场景。

325 3
|
3月前
|
存储 安全
|

基于DLF构建实时数据湖

DLF

264 2
|
3月前
|
数据采集 人工智能 自然语言处理
|

从“通才”到“专才”:揭秘AI大模型预训练与微调的核心魔法

本文通俗解析AI“预训练+微调”范式:预训练如AI的“基础教育”,让模型从海量数据中自学语言与视觉规律;微调则是定向“专业培训”,用少量业务数据将通用大模型转化为解决具体问题的“专属专家”。全程兼顾原理、步骤与实践,助力零基础用户轻松上手。(239字)

425 7
|
3月前
|
安全 物联网 测试技术
|

为什么 loss 看起来很好,模型却更危险了

本文揭示大模型微调中一个关键陷阱:loss持续下降≠模型更安全。相反,当loss“好看”时,模型可能因过度拟合训练数据中的偏差、模板或错误表达而变得更危险——回答更笃定、拒答率下降、边界问题越界更隐蔽。根本原因在于:loss衡量的是“复现训练文本”的能力,而非“行为是否可靠/合规”。工程上应转向以事实正确率、拒答率、自信度、越界率等为核心的行为评估体系,将loss仅作为训练健康度的辅助信号。

334 1
|
4月前
|
机器学习/深度学习 算法 安全
|

大模型微调参数设置:你调的不是效果,是不确定性

本文揭示大模型微调中参数的本质:它们并非提升性能的“旋钮”,而是分配不确定性的“阀门”。learning rate 决定行为漂移半径,batch size 影响共识强度,epoch 加速偏差固化,正则项约束激进程度。参数间存在风险耦合,调参实为风险管理——目标不是最优指标,而是可控的系统行为。

347 10
|
4月前
|
人工智能 监控 API
|

Opus 4.5、GPT-5.2 与 Gemini 3 Pro:企业级场景下的大模型工程表现对比

本文从工程与生产视角,对比Opus 4.5、GPT-5.2、Gemini 3 Pro三款大模型在输出一致性、可控性、长上下文、接口确定性等维度的表现,强调企业级AI选型应重稳定性与系统友好度,而非单纯比拼能力。

381 4
来自: 人工智能平台PAI  版块
|
4月前
|
数据采集 运维 搜索推荐
|

京东商品详情API接口:电商数据驱动的核心入口解析

京东商品详情API(如jd.union.open.goods.detail.query)是官方合规、稳定、实时的商品数据接口,支持获取全维度商品信息(价格、库存、促销、评价等),广泛应用于比价导购、竞品分析、智能推荐与自动化运营,助力企业高效、合法地释放电商数据价值。(239字)

263 2
|
4月前
|
消息中间件 Prometheus 监控
|

别等系统“凉了”才响铃:聊聊延迟敏感系统的监控与报警设计

别等系统“凉了”才响铃:聊聊延迟敏感系统的监控与报警设计

445 4
|
4月前
|
人工智能 定位技术 API
|

参加2025高德空间智能开发者大赛全国总决赛感悟-坚定空间智能之路

文章带你全面的回顾2025年高德空间智能开发者大赛的全部过程,从初赛到决赛,精彩纷呈,不仅有对参赛项目的介绍,也对本次活动中的硬核技术和产品功能进行了深度介绍。同时也分享了博主的参赛历程,所思所感,请您指正。

475 3
来自: 人工智能平台PAI  版块
|
5月前
|
存储 监控 算法
|

ElasticSearch集群

Elasticsearch集群通过分片与副本机制解决海量数据存储和单点故障问题。将索引拆分为多个分片分布于不同节点,提升存储与性能;通过副本实现高可用。利用docker-compose可快速搭建三节点集群,结合cerebro监控状态。分片路由基于hash算法,确保数据均衡。集群支持故障转移与脑裂防护,保障稳定可靠。

460 0
|
5月前
|
存储 SQL 网络协议
|

别把数据迁移当复制粘贴:一线人踩坑总结的云上 / 跨云迁移实战指南

别把数据迁移当复制粘贴:一线人踩坑总结的云上 / 跨云迁移实战指南

262 0
|
5月前
|
JSON NoSQL 关系型数据库
|

MongoDB简介

MongoDB是一款开源、高性能、无模式的文档型数据库,采用类似JSON的BSON格式存储数据,结构灵活,支持复杂数据类型。文档以键值对形式组织,兼具灵活性与扩展性,是最接近关系型数据库的NoSQL产品,适用于快速开发与大规模扩展场景。

299 0
|
5月前
|
机器学习/深度学习 数据采集 人工智能
|

大模型训练方法与技术术语解释

预训练、微调、RLHF、思维链等技术共同构建大模型核心能力。预训练夯实语言基础,微调适配特定任务,RLHF对齐人类偏好,思维链提升推理,少/零样本实现快速迁移,指令微调增强指令理解,自监督利用海量文本,温度控制生成风格,蒸馏压缩模型规模,缩放定律指引性能增长路径。

499 0
|
5月前
|
消息中间件 Java Kafka
|

在 OpenAI 打造流处理平台:超大规模实时计算的实践与思考

本文介绍OpenAI构建流处理平台的实践与挑战。面对Kafka高可用、Python生态兼容、云环境限制等问题,团队基于PyFlink打造跨区域流处理架构,集成Kafka HA组、自研代理与控制平面,支撑实时Embedding生成、特征计算等场景,并推动开源协作与平台自动化演进。

385 1
来自: 实时计算 Flink  版块
|
5月前
|
SQL 存储 JSON
|

四、Hive DDL表定义、数据类型、SerDe 与分隔符核心

Hive 中的表是数据仓库的核心容器,定义了数据的结构和存储方式。本文系统讲解了 Hive 中创建表的语法与关键参数,包括字段类型、分隔符设置、SerDe 使用等内容,特别通过结构化与复杂数据类型(如 ARRAY、MAP、STRUCT)的案例讲解,让读者理解如何让 Hive 正确“读懂”你的数据。配合常见示例与练习题,帮你打好 Hive 表设计的基础,轻松驾驭文本、JSON 等多格式数据。数据如何入库、如何被解析,一文看懂!

345 12
|
5月前
|
机器学习/深度学习 人工智能 算法
|

构建AI智能体:六十八、集成学习:从三个臭皮匠到AI集体智慧的深度解析

集成学习不是简单的"模型堆砌",而是有深刻理论支撑的系统性方法。理解其核心思想:集体智慧,多个不完美的个体可以组成一个强大的集体,误差分解,通过降低方差或偏差来提升性能,多样性驱动,模型间的差异是集成效果的关键,分层学习,从数据学习到学习如何学习。集成学习代表了机器学习中的一个重要哲学:通过协作和组合,我们可以创造出超越任何单个组件能力的系统。这正是"三个臭皮匠,顶个诸葛亮"在人工智能时代的具体实践。

517 108
|
5月前
|
人工智能 数据处理 Apache
|

Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可

Ververica,由Apache Flink创始团队创立、阿里云旗下企业,首次入选Forrester 2025流式数据平台领导者象限,凭借在实时AI与流处理领域的技术创新及全场景部署能力获高度认可,成为全球企业构建实时数据基础设施的核心选择。

458 10
来自: 实时计算 Flink  版块
|
5月前
|
存储 Linux 数据处理
|

实用程序:基于Python+Tkinter开发表格比对&整理工具

一款基于Python+Tkinter开发的免费开源Excel处理工具,支持表格差异比对与错乱行整理,完整保留图片,兼容.xlsx和.csv格式。操作简单,支持自定义比对列、多线程处理,解决日常办公中数据比对、行合并及图片丢失等痛点,适用于各类Excel数据清理场景。(239字)

483 12
|
6月前
|
供应链 算法 大数据
|

数据不是水晶球,却能让我们少踩 90% 的坑:未来经济预测的真实力量

数据不是水晶球,却能让我们少踩 90% 的坑:未来经济预测的真实力量

390 1
|
6月前
|
SQL 人工智能 自然语言处理
|

企业级 AI 数据分析“专家”——Data Agent 推动数据分析民主化

Data Agent(数据智能体)正从辅助工具向企业核心数据分析中枢演进,推动“人人都是分析师”的愿景落地。

946 0
|
6月前
|
JSON 供应链 数据挖掘
|

1688买家/卖家店铺订单API说明

1688订单API是阿里巴巴B2B平台的核心接口,支持订单全生命周期管理。采用RESTful架构,返回JSON数据,可查询订单状态、商品及物流等50+字段,适用于电商整合与数据分析。支持分页、多条件筛选与状态更新,助力自动化运营。

726 1
|
7月前
|
存储 分布式计算 运维
|

云栖实录|驰骋在数据洪流上:Flink+Hologres驱动零跑科技实时计算的应用与实践

零跑科技基于Flink构建一体化实时计算平台,应对智能网联汽车海量数据挑战。从车机信号实时分析到故障诊断,实现分钟级向秒级跃迁,提升性能3-5倍,降低存储成本。通过Flink+Hologres+MaxCompute技术栈,打造高效、稳定、可扩展的实时数仓,支撑100万台量产车背后的数据驱动决策,并迈向流批一体与AI融合的未来架构。

567 3
来自: 实时计算 Flink  版块
|
7月前
|
机器学习/深度学习 数据采集 人工智能
|

从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘

从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘

1041 9
|
7月前
|
数据采集 存储 供应链
|

第三方电商数据 API 数据来源深度解析:合规与稳定背后的核心逻辑

本文揭秘第三方电商数据API的底层逻辑:通过官方授权、生态共享与合规采集三重来源,结合严格清洗校验,确保数据稳定、合规、高质。企业选型应关注来源合法性与场景匹配度,避开数据陷阱,实现真正数据驱动增长

678 4
|
7月前
|
Java 项目管理 Maven
|

Maven项目管理与构建自动化完全指南

Maven彻底改变了Java项目管理方式,通过POM模型、依赖管理和标准化构建流程,大幅提升开发效率。本文深入解析其核心概念、多模块管理、私服搭建及与Spring Boot、Docker等现代技术栈的集成实践,助力开发者实现高效、规范的项目构建与团队协作。

1181 156
|
7月前
|
监控 算法 NoSQL
|

Go 微服务限流与熔断最佳实践:滑动窗口、令牌桶与自适应阈值

🌟蒋星熠Jaxonic:Go微服务限流熔断实践者。分享基于滑动窗口、令牌桶与自适应阈值的智能防护体系,助力高并发系统稳定运行。

1082 1
|
8月前
|
人工智能 Ubuntu 前端开发
|

Dify部署全栈指南:AI从Ubuntu配置到HTTPS自动化的10倍秘籍

本文档介绍如何部署Dify后端服务及前端界面,涵盖系统环境要求、依赖安装、代码拉取、环境变量配置、服务启动、数据库管理及常见问题解决方案,适用于开发与生产环境部署。

1718 1
|
8月前
|
存储 人工智能 NoSQL
|

用Context Offloading解决AI Agent上下文污染,提升推理准确性

上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。

1066 2
|
8月前
|
存储 机器学习/深度学习 关系型数据库
|

基于python的个人财务记账系统

本研究探讨了基于Python的个人财务记账系统的设计与实现。随着经济快速发展,个人财务管理日益重要,传统手工记账方式效率低且易出错,而现有商业软件功能复杂、缺乏个性化。Python凭借其简洁语法和强大库支持,适用于开发高效、易用的记账系统。系统结合Pyecharts实现数据可视化,利用MySQL进行数据存储,具备自动分类、统计分析、财务报表生成等功能,帮助用户清晰掌握财务状况,合理规划收支,提升财务管理效率。研究具有重要的现实意义和应用前景。

780 10
|
10月前
|
JSON 搜索推荐 API
|

小红书笔记详情API响应数据解析

小红书开放平台提供笔记详情API,支持获取笔记内容、互动数据及用户信息,适用于品牌营销与市场分析。接口支持HTTP GET/POST请求,返回JSON格式数据。需申请权限并替换参数如note_id与access_token。附Python请求示例,建议添加异常处理。

456 0
|
10月前
|
存储 人工智能 API
|

AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南

在AI代理系统开发中,上下文工程成为提升系统性能的关键技术。本文探讨了从提示工程到上下文工程的转变,强调其通过为AI系统提供背景信息和工具支持,显著提升智能化程度和实用价值。文章系统分析了上下文工程的理论基础、核心策略(如写入、选择、压缩和隔离),并结合LangChain和LangGraph工具,展示了如何实现上下文工程技术以优化AI代理性能。通过Scratchpad机制、内存管理、RAG系统集成、多代理架构及沙盒环境等技术手段,开发者可以更高效地构建高性能、可扩展的AI系统。

1441 0
|
10月前
|
人工智能 运维 自然语言处理
|

如何在 Elasticsearch 中构建你的智能 AI 助手?

本文将带你探索一种全新的思路:如何基于 Elasticsearch 快速构建一个具备自然语言理解能力、异常检测和安全威胁识别能力的智能运维 AI 助手 。文章会围绕实际部署流程、关键技术点和典型应用场景展开,帮助你把 Elasticsearch 从“日志仓库”升级为“智能决策中枢”。

531 30

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439956
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务