|
10月前
|
机器学习/深度学习 数据采集 分布式计算
|

阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型

本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。

1492 0
|
10月前
|
数据采集 存储 API
|

Python爬虫结合API接口批量获取PDF文件

Python爬虫结合API接口批量获取PDF文件

712 0
|
10月前
|
数据采集 运维 BI
|

Python 文件操作进阶|使用 shutil 实现高效文件复制

在开发和运维中,处理大量文件是常见需求,如备份配置、归档日志或构建部署包。手动复制粘贴已无法满足高效需求!Python 的 `shutil` 模块提供了强大的文件操作功能,支持单文件复制、目录树迁移及自动化任务构建。本文详解 `shutil.copy()` 基础用法与进阶技巧,如批量复制、自动路径检测、时间戳命名备份等,助你实现高效自动化。结合实战案例(如自动备份系统),让你的代码更专业!学习后,欢迎交流心得,一起精进 Python 技能。关注我,获取更多编程技巧与源码分享!

565 0
|
10月前
|
人工智能 分布式计算 大数据
|

大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)

本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。

484 0
|
10月前
|
前端开发 Java 微服务
|

2025 版 Java 学习路线图之技术方案与实操指南详解

这是一份详尽的Java学习路线图,涵盖从入门到精通的全流程。基础阶段包括环境搭建、语法基础与面向对象编程;进阶阶段深入数据结构、算法、多线程及JVM原理;框架阶段学习Spring、MyBatis等工具;数据库阶段掌握SQL与NoSQL技术;前端阶段了解HTML、CSS及JavaScript框架;分布式与微服务阶段探讨容器化、服务注册与发现;最后通过项目实战提升性能优化与代码规范能力。资源地址:[https://pan.quark.cn/s/14fcf913bae6](https://pan.quark.cn/s/14fcf913bae6)。

753 7
|
11月前
|
存储 人工智能 自然语言处理
|

构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现

本文探讨了多智能体系统中记忆机制的设计与实现,提出构建精细化记忆体系以模拟人类认知过程。文章分析了上下文窗口限制的技术挑战,并介绍了四种记忆类型:即时工作记忆、情节记忆、程序性记忆和语义知识系统。通过基于文件的工作上下文记忆、模型上下文协议的数据库集成以及RAG系统等技术方案,满足不同记忆需求。此外,高级技术如动态示例选择、记忆蒸馏和冲突解决机制进一步提升系统智能化水平。总结指出,这些技术推动智能体向更接近人类认知的复杂记忆处理机制发展,为人工智能开辟新路径。

1141 5
|
11月前
|
人工智能 自然语言处理 文字识别
|

阿里云 AI 搜索开放平台新增:服务开发能力

阿里云 AI 搜索开放平台新发布:服务开发能,可通过集成 dsw 能力并新增 notebook 功能,进一步提升用户编排效率。

454 0
来自: 智能搜索推荐  版块
|
12月前
|
存储 运维 Serverless
|

千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

1082 69
|
12月前
|
数据采集 JSON API
|

Python 实战!利用 API 接口获取小红书笔记详情的完整攻略

小红书笔记详情API接口帮助商家和数据分析人员获取笔记的详细信息,如标题、内容、作者信息、点赞数等,支持市场趋势与用户反馈分析。接口通过HTTP GET/POST方式请求,需提供`note_id`和`access_token`参数,返回JSON格式数据。以下是Python示例代码,展示如何调用该接口获取数据。使用时请遵守平台规范与法律法规。

1215 0
|
12月前
|
自然语言处理 运维 DataWorks
|

智能体Agent解析:用自然语言重构数据开发工作方式

大数据开发治理平台DataWorks基于MCP协议,正式发布了DataWorks Agent,内置DataWorks MCP Server V1.0。该功能支持在DataWorks Data Studio中通过自然语言交互完成数据开发任务,实现了需求即代码的开发体验。本文将详细介绍如何通过配置使用DataWorks MCP Server进行任务的开发和运维管理。

892 3
|
12月前
|
数据采集 存储 NoSQL
|

如何避免Python爬虫重复抓取相同页面?

如何避免Python爬虫重复抓取相同页面?

485 1
|
17天前
|
SQL 机器学习/深度学习 自然语言处理
|

为什么企业做智能问数,不能只靠宽表、预制指标和 SQL

本文剖析企业智能问数落地难的根源:非性能或模型之限,而在业务语义缺失——对象定义不清、关系模糊、口径不一。指出SQL、宽表、预制指标各有所长却难解复杂动态问题;提出“本体论+ABC方法”(Acquire对象→Build指标→Compute计算),以显式建模业务语义,提升可理解性、可维护性与长期演进能力。

134 3
|
21天前
|
SQL 人工智能 BI
|

Gartner:40% 的 AI Agent 项目注定被砍

造 Agent 越来越容易,但壁垒不在模型,在数据语义层。养虾热闹,虾能不能活取决于水质。

114 1
|
22天前
|
SQL 分布式计算 大数据
|

三朵云的大数据江湖:AWS、GCP、Azure 托管服务到底谁更香?

三朵云的大数据江湖:AWS、GCP、Azure 托管服务到底谁更香?

146 2
|
26天前
|
SQL 数据采集 人工智能
|

别把数据中台做成“数据坟场”:聊聊企业数据中台架构的真实落地之路

别把数据中台做成“数据坟场”:聊聊企业数据中台架构的真实落地之路

155 4
|
1月前
|
缓存 人工智能 监控
|

当大模型开始“碎碎念”:聊聊大模型日志分析与调优系统是怎么设计的

当大模型开始“碎碎念”:聊聊大模型日志分析与调优系统是怎么设计的

227 3
|
1月前
|
数据采集 缓存 自然语言处理
|

LitBuy模式反向海淘系统(欧美淘宝/1688代购)搭建指南

LitBuy是面向海外用户的中国商品代购集运平台,支持粘贴淘宝/1688链接一键下单,提供多语言、多支付、智能合箱与全程物流追踪。核心盈利来自物流差价、代购服务费及增值服务,技术架构基于Next.js+Java/Node.js微服务,部署于AWS/阿里云国际节点。(239字)

198 0
|
1月前
|
消息中间件 监控 算法
|

别只盯着离线指标了:用大数据把模型“在线状态”盯死

别只盯着离线指标了:用大数据把模型“在线状态”盯死

146 2
|
2月前
|
人工智能 自然语言处理 数据挖掘
|

Hologres向量检索和全文检索在淘天客户运营的实践

淘天集团客户运营团队基于Hologres构建向量+全文一体化检索方案,融合语义理解与关键词匹配,毫秒级召回海量非结构化文本,已支撑智能客服、规则比对、舆情分析等核心场景,显著提升准确率与响应速度。

142 6
来自: 实时数仓 Hologres  版块
|
2月前
|
人工智能 API Python
|

我用 Python 写诗,居然还挺像那么回事:生成式 AI 在内容创作中的实战玩法

我用 Python 写诗,居然还挺像那么回事:生成式 AI 在内容创作中的实战玩法

195 16
|
2月前
|
数据采集 人工智能 安全
|

别再用ChatGPT群发祝福了!30分钟微调一个懂你关系的“人情味”拜年AI

春节祝福太难写?本文手把手教你用LoRA微调大模型,让AI学会“看人下菜”:识别关系、风格、细节,30分钟训练出懂人情世故的拜年助手。无需代码,量化+批处理保障秒级响应,让每条祝福都像你亲手写的。(239字)

381 35
|
2月前
|
数据采集 XML 前端开发
|

BeautifulSoup:Python网页解析的优雅利器

BeautifulSoup是Python最易用的HTML/XML解析库,以超强容错性与人性化API著称。它能将混乱网页转为结构化树,支持CSS选择器、多种解析器(推荐lxml),无需正则即可快速提取数据,是中小型爬虫、教学及原型开发首选工具。(239字)

180 1
|
2月前
|
人工智能 自然语言处理 人机交互
|

智能体来了:2026AI元年,如何抓住时代机遇?

2026年,AI正跨越临界点:智能体从实验走向系统化应用,呈现三大演进——由工具升级为协作伙伴、领域专业化深化、多智能体分布式协同。人机关系、工作流程与交互范式随之重构。机遇不在技术速胜,而在理解复杂性、保持判断力、构建可持续共处能力。

191 1
|
2月前
|
人工智能 定位技术 SEO
|

GEO ROI衡量的完整逻辑链:从心智到商业价值的系统化方法

本文提出GEO(生成式引擎优化)ROI衡量新范式:摒弃传统SEO的排名点击逻辑,转向“被AI引用与信任”的心智份额评估。构建“定义有效→设定基准→全链路指标→ROI计算→决策迭代”五步逻辑链,强调答案引用率、权威信源占比、高质量转化率等核心指标,实现影响力到商业价值的科学转化。

156 2
|
2月前
|
C++
|

为什么显存总是不够:不是模型的问题

本文揭示显存紧张的真相:它 rarely 源于模型过大,而是系统设计失配的早期信号——用实验思维跑工程负载、并行堆能力替代分阶段判断、以显存兜底策略缺失。显存告警,实为提醒:该优化架构,而非压榨资源。

152 10
|
2月前
|
人工智能 物联网 Shell
|

告别“人工智障”:零代码驯服大语言模型,打造你的专属AI助手

本文详解大模型微调(Fine-tuning)如何破解通用AI“懂但不专”的痛点:用专属数据为大模型做“岗前培训”。全程零代码、纯在线,基于ModelScope与QLoRA技术,30分钟即可完成Yi-6B模型微调,重塑其身份认知。兼顾原理通俗解读与手把手实战,助你真正掌握“塑造AI”的主动权。(239字)

257 3
|
2月前
|
人工智能 自然语言处理 搜索推荐
|

RAG不只是问答!看完这些应用案例,才发现它的潜力这么大

RAG(检索增强生成)技术正赋能企业知识管理、智能客服、辅助决策、内容创作与教育培训等多元场景,通过语义检索+精准生成,提升信息获取效率与AI实用性,助力零代码构建专属智能系统。

287 5
|
3月前
|
自然语言处理
|

混合检索不是折中,而是工程理性

本文深入剖析混合检索的工程本质:它不是技术折中,而是对现实复杂性的理性回应。纯向量缺乏确定性与可解释性,纯关键词难应语义多样性;真正成熟的混合检索,是按问题类型分层分工——用关键词保障稳与准,用向量应对模糊与探索,职责清晰、风险可控、长期可维护。

109 1
|
3月前
|
人工智能 前端开发 API
|

智能体来了:从0到1:真正的第一步,不是调用API

本文厘清智能体本质:它不是大模型本身,而是以LLM为中枢、具备感知、规划、记忆与工具调用的闭环系统。强调“真正第一步”是构建可失败、可反馈的任务工作流,而非堆砌提示词;主张从垂直场景出发,以业务逻辑为核心,借力平台化工具落地。

134 0
|
3月前
|
人工智能 供应链
|

智能体来了:2026,AI 元年开启的新赛道

2026年,AI从“能说会写”的模型跃升为“能想会做”的智能体:目标驱动、自主规划、调用工具、持续修正。它不再仅是工具,更成为现实世界的参与者。人类由此面临根本命题——重定义“参与者”,重构角色、责任与文明边界。(239字)

240 4
|
3月前
|
数据采集 机器学习/深度学习 人工智能
|

让你的AI更“懂你”:零代码实践指令微调

指令微调是让大模型“听懂人话、精准执行”的关键技术——它不追求模型更聪明,而致力于更贴心、更可靠。本文用生活化类比讲清Flan-T5、InstructGPT、Self-Instruct三大流派原理,手把手带零代码新手完成数据准备、模型选择、训练测试全流程,并提供避坑指南与效果评估方法。(239字)

206 9
|
3月前
|
机器学习/深度学习 搜索推荐 算法
|

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

195 0
|
3月前
|
机器学习/深度学习 存储 自然语言处理
|

量子模拟:我们正在用“不确定性”,重新理解这个确定的世界

量子模拟:我们正在用“不确定性”,重新理解这个确定的世界

106 0
|
3月前
|
算法 搜索推荐 Serverless
|

为什么 ES 的搜索结果只到 10,000?强制“数清楚”的代价有多大

Elasticsearch 7.x后默认返回10,000总数,实为Block-Max WAND算法的性能优化——跳过低分文档块以提升查询速度。强行开启`track_total_hits:true`将禁用该优化,导致CPU飙升、延迟激增。本文深入Lucene底层,解析其原理、陷阱与治理方案。

479 1
|
3月前
|
存储
|

RAG 为什么总是“看起来能用,实际不好用”?

RAG效果不佳?问题往往不在模型,而在于文档切分。错误的切分会导致语义断裂、关键信息丢失,使召回内容“看似相关却无用”。本文深入剖析切分误区:固定长度切割、过度依赖overlap、忽视文档结构等,并提出核心原则——保障语义完整性。不同文档需定制切分策略,FAQ按问答切,技术文档依章节分,流程类保完整上下文。切分是RAG的地基,而非细节,唯有夯实,才能让检索与生成真正生效。

197 3
|
3月前
|
存储 缓存 人工智能
|

向量数据库技术内核:从存储到检索,拆解其高效运作的秘密

本文深入剖析向量数据库从存储到检索的工程实现,揭秘其高效运作的核心机制。不同于传统数据库,它通过近似最近邻(ANN)、向量压缩与分层索引(如HNSW)等技术,在高维空间中以“算得少”实现“查得快”。文章结合真实场景,揭示其本质:不是追求绝对精确,而是工程权衡下的极致优化,是AI时代数据检索的实用化落地。

260 3
|
3月前
|
JSON 算法 API
|

淘宝商品列表 API 使用指南

淘宝商品列表API(taobao.items.search)支持按关键词、价格、销量等条件检索商品,返回商品ID、标题、价格等结构化数据,适用于比价、市场分析。需注册开放平台、获取AppKey/AppSecret并实名认证。接口限100次/秒,建议先测沙箱。请求含基础参数与筛选条件,签名通过MD5加密生成。

219 3
|
3月前
|
人工智能 缓存 算法
|

【AI大模型面试宝典九】- 推理部署篇

【AI大模型面试宝典】聚焦推理加速核心技术:KV-Cache优化、连续批处理、投机解码、模型并行等,结合vLLM实战与面试高频题解析,帮你系统掌握得分要点,高效斩获offer!点赞关注,持续更新中~

329 0
来自: 人工智能平台PAI  版块
|
3月前
|
存储 人工智能 Serverless
|

AI时代最大的宝藏,也藏得最深:80%的企业知识沉睡在非结构化数据中

2026年AI进入应用爆发期,但非结构化数据成为瓶颈。Hologres推出AI原生新架构HSAP 2.0,融合语义搜索、多维分析与Serverless弹性,打造统一数据平面,让企业海量数据高效赋能AI,破解“数据熵”难题,支撑智能客服、销售助手等复杂场景,实现从“为人服务”到“为AI服务”的跨越。

254 1
来自: 实时数仓 Hologres  版块
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|

【AI大模型面试宝典二】— 基础架构篇

【AI大模型面试宝典】聚焦分词器核心考点!详解BPE、WordPiece、SentencePiece原理与实战,覆盖中文分词最佳实践、词汇表构建、特殊标记处理,助你轻松应对高频面试题,精准提升offer竞争力!

235 0
来自: 人工智能平台PAI  版块
|
3月前
|
数据采集 人工智能 算法
|

AI数字人技术厂商市场格局观察

AI数字人技术正从娱乐迈向多元实用场景,2024年市场规模达41.2亿元,增速超85%。世优科技深耕全栈技术,拥60余项专利,服务千余家品牌,助力政企智能化升级,推动行业向标准化、生态化发展。

242 1
来自: 人工智能平台PAI  版块
|
3月前
|
存储 索引 Python
|

图解python | 字典

字典是Python中基于键值对的可变容器,通过键快速查找值。本文以图解+实战形式详解其结构、增删改查操作及特性,并结合字符统计案例,帮助掌握字典的核心用法与应用场景。

233 8
|
4月前
|
SQL 自然语言处理 安全
|

从“被动防御”到“主动可控”,Data Agent 如何实现精细化权限管控?

让企业敢于将数据分析能力开放给更多角色,在保障安全合规的前提下,充分释放数据价值,驱动业务创新。

194 0
|
4月前
|
负载均衡 Java Nacos
|

Gateway服务网关

网关是微服务的统一入口,实现请求路由、权限控制、限流与负载均衡。基于SpringCloud Gateway可构建高性能响应式网关,支持断言与过滤器工厂,灵活实现路由匹配及请求处理,并可通过全局过滤器扩展功能,解决跨域等问题。

270 0
|
4月前
|
负载均衡 应用服务中间件 Nacos
|

Nacos配置中心

本文详细介绍Nacos作为配置中心的实现原理与实战步骤,涵盖配置管理、热更新、共享配置及优先级规则,并演示Nacos集群搭建与高可用部署,帮助开发者掌握微服务环境下配置的动态管理与服务解耦方案。

151 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

大模型专业名词解释手册

本手册由油炸小波设计提示词、Manus创作,系统梳理大语言模型核心概念,涵盖基础原理、训练技术、优化压缩、推理应用、评估调试及伦理安全六大模块,深入浅出解析LLM关键技术术语。

426 0
|
4月前
|
运维 监控 Cloud Native
|

不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相

不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相

314 7
|
4月前
|
存储 SQL BI
|

数据也要“打标签”:为什么数据版本控制这么重要?

数据也要“打标签”:为什么数据版本控制这么重要?

272 7
|
4月前
|
运维 安全 API
|

当安全事件不再“靠人吼”:一文带你搞懂 SOAR 自动化响应实战

当安全事件不再“靠人吼”:一文带你搞懂 SOAR 自动化响应实战

363 10

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69327
内容
128
活动
439807
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务