|
16天前
|
数据采集 消息中间件 缓存
|

别再一把梭TF-IDF了:从文本清洗到向量化,一条真正“能用”的NLP数据管道

别再一把梭TF-IDF了:从文本清洗到向量化,一条真正“能用”的NLP数据管道

208 2
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
|

手撕 Transformer:从原理到代码,一步步造一个“小型大模型”

手撕 Transformer:从原理到代码,一步步造一个“小型大模型”

306 6
|
26天前
|
SQL 人工智能 运维
|

Snowflake SVA vs Aloudata CAN:两种语义层哲学的深度对比

在 AI Agent 时代,语义层不是一个品类选择题,而是一个基础设施必答题。

168 2
|
2月前
|
人工智能 自然语言处理 架构师
|

AI Agent 职业路线全指南:从智能体普及浪潮到分层能力构建

2026年,“AI+”进入产业级落地期,智能体成为数字化转型核心基础设施。全球市场规模达2.3万亿,我国2027年普及率将超70%。人才缺口巨大,教育部已设“智能体技术应用”新专业。本文系统梳理四类职业路径(管理者、架构师、多智能体专家、垂直领域专家)及企业治理框架,助力职场人锚定定位、实战进阶。(239字)

461 1
|
3月前
|
存储 机器学习/深度学习 人工智能
|

别让大模型“失忆”:手把手教你用向量数据库打造它的专属知识库

本文深入浅出地讲解向量数据库原理与实践:用“语义身份证”比喻Embedding,以图书管理员类比关键词与语义搜索差异;手把手用Python+Faiss+BGE搭建中文语义检索系统,并详解RAG流程、效果评估与调优要点,助你为大模型装配真正懂业务的“外挂大脑”。

363 4
|
3月前
|
存储 人工智能 分布式计算
|

阿里云 OpenLake:AI 时代的全模态、多引擎、一体化解决方案深度解析

阿里云徐晟详解OpenLake:构建全模态、多引擎、一体化智能数据体系,融合大数据与AI,支持湖仓一体、Agentic Data及AI搜索,助力企业降本增效、加速AI落地。(239字)

552 1
|
3月前
|
数据采集 机器学习/深度学习 人工智能
|

大模型“驯化”指南:从人类偏好到专属AI,PPO与DPO谁是你的菜?

本文深入解析让AI“懂你”的关键技术——偏好对齐,对比PPO与DPO两种核心方法。PPO通过奖励模型间接优化,适合复杂场景;DPO则以对比学习直接训练,高效稳定,更适合大多数NLP任务。文章涵盖原理、实战步骤、评估方法及选型建议,并推荐从DPO入手、结合低代码平台快速验证。强调数据质量与迭代实践,助力开发者高效驯化大模型,实现个性化输出。

596 8
|
3月前
|
存储 人工智能 运维
|

向量数据库实战指南:从部署到RAG落地

本文以轻量开源向量数据库Chroma为例,手把手带你完成环境部署、数据导入、相似性检索到RAG集成的全流程实战,避开新手常见坑,适配码农与大数据爱好者快速落地AI应用,助力掌握向量数据库核心技能。

478 1
|
3月前
|
人工智能 监控 数据可视化
|

给大模型“开小灶”:零代码实战专属领域微调,手把手教你打造AI专家

本文介绍如何通过“模型微调”将通用大模型打造成特定领域的专家助手,聚焦Web安全场景,借助LLaMA Factory实现零代码、可视化微调。涵盖微调原理(如LoRA、量化)、全流程操作及效果评估,帮助用户低成本构建专属高性能AI模型。

307 0
|
3月前
|
机器学习/深度学习 传感器 算法
|

Python | K折交叉验证的参数优化的支持向量机回归(SVR)预测及可视化算法

本教程系统讲解基于Python的SVR回归预测,涵盖数据处理、模型训练、K折交叉验证及贝叶斯、随机、网格搜索等参数优化方法,适用于多领域回归任务,附完整代码与可视化实现。

334 5
|
4月前
|
敏捷开发 Java 测试技术
|

为什么要单元测试

本文探讨单元测试如何让软件开发“提速”而非“踩刹车”。通过解析测试体系演进、测试金字塔理念,揭示单元测试在提升调试效率、代码质量与研发效能方面的核心价值,助你构建更稳健、可维护的系统。

302 0
|
4月前
|
敏捷开发 Dubbo Java
|

需求开发人日评估

本文介绍敏捷开发中工时评估的关键——人日估算方法,涵盖开发、自测、联调、测试及发布各阶段周期参考,并提供常见需求如增删改查、导入导出、跨服务调用等的典型人日参考,助力团队科学规划迭代。

232 0
|
4月前
|
消息中间件 人工智能 Linux
|

基于 RocketMQ 构建 高可靠 A2A 通信通道

A2A协议由Google于2025年发起,旨在实现跨厂商AI智能体的标准化通信。基于RocketMQ构建的异步通信方案,支持任务分发、流式交互与状态同步,助力高效、可靠的多智能体协同系统落地,现已开源。

171 0
|
4月前
|
Prometheus 运维 监控
|

别再裸奔搞监控了!一篇带你上手 Prometheus+Grafana 的实战指南

别再裸奔搞监控了!一篇带你上手 Prometheus+Grafana 的实战指南

845 2
|
4月前
|
数据挖掘 BI API
|

微店店铺所有商品API接口指南

微店商品API支持通过店铺ID获取全部商品信息,提供分页、状态筛选与多维度排序功能,适用于商品管理、数据统计及跨平台同步。返回商品ID、标题、价格、库存、主图等详细信息,助力高效运营。

208 2
|
6月前
|
人工智能 自然语言处理 安全
|

氛围编程陷阱:为什么AI生成代码正在制造大量"伪开发者"

AI兴起催生“氛围编程”——用自然语言生成代码,看似高效实则陷阱。它让人跳过编程基本功,沦为只会提示、不懂原理的“中间商”。真实案例显示,此类项目易崩溃、难维护,安全漏洞频出。AI是技能倍增器,非替代品;真正强大的开发者,永远是那些基础扎实、能独立解决问题的人。

620 11
|
6月前
|
Kubernetes Cloud Native Go
|

Kubeflow-KServe-架构学习指南

KServe是基于Kubernetes的生产级AI推理平台,支持多框架模型部署与管理。本指南从架构解析、代码结构到实战部署,系统讲解其核心组件如InferenceService、控制器模式及与Knative、Istio集成原理,并提供学习路径与贡献指南,助你快速掌握云原生AI服务技术。

916 139
|
7月前
|
Linux 调度 iOS开发
|

Motrix高速下载工具软件,一款高效、稳定可替代迅雷的下载工具实用教程讲解!

Motrix是一款开源免费、无广告的全能下载工具,支持Windows、macOS、Linux三端。界面简洁,支持HTTP、FTP、BT、磁力等全协议下载,智能识别链接,最高64线程加速,支持断点续传、批量下载、剪贴板监听、任务分类及浏览器扩展联动,功能强大且易于管理,最大化提升下载效率。

1374 0
|
7月前
|
数据采集 存储 缓存
|

LLM + 抓取:让学术文献检索更聪明

结合爬虫与大模型,打造懂语义的学术检索助手:自动抓取最新NLP+爬虫论文,经清洗、向量化与RAG增强,由LLM提炼贡献,告别关键词匹配,实现精准智能问答。

796 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Step-Audio2 声音克隆 详细介绍

Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。

972 1
|
8月前
|
机器学习/深度学习 搜索推荐 算法
|

医生+量子计算机=医疗“超脑”?聊聊量子计算在医疗模拟里的硬核玩法

医生+量子计算机=医疗“超脑”?聊聊量子计算在医疗模拟里的硬核玩法

448 0
|
8月前
|
机器学习/深度学习 JSON API
|

2025最新版天猫图片搜索API全解析:从图像识别到商品匹配实战

天猫图片搜索API(拍立淘)基于深度学习与CNN技术,实现以图搜商品,支持图片URL或二进制上传,适用于比价、推荐等场景。2025版新增多模态搜索优化与相似度动态调整。接口支持POST/GET请求,返回商品详情及排序结果,示例代码提供Python请求方式。

739 0
|
8月前
|
定位技术 数据处理 API
|

手把手教你怎么做人口密度热力图

本文介绍了使用Python和ArcGIS绘制人口密度地图的方法。Python部分包括地图数据获取、格式转换、数据整合及可视化;ArcGIS部分涵盖地图投影、数据连接、人口密度计算与图例设置。同时提供了C++代码用于数据分割,并介绍了如何利用高德API获取地址经纬度,实现地图标注。

1180 0
|
9月前
|
数据采集 人工智能 大数据
|

10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案

阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。

1228 0
|
12月前
|
存储 人工智能 监控
|

通过Milvus和Langchain快速构建基于百炼大模型的LLM问答系统

阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。

1249 4
|
12月前
|
并行计算 PyTorch 算法框架/工具
|

Triton入门教程:安装与编写和运行简单Triton内核

Triton是一款开源GPU编程语言与编译器,专为AI和深度学习领域设计,提供高性能GPU代码开发的高效途径。它支持通过Python编写自定义GPU内核,性能接近专家级CUDA代码,但无需掌握底层CUDA知识。本文全面介绍了Triton的核心功能、安装方法、基础应用、高级优化策略,以及与CUDA和PyTorch的技术对比。此外,还探讨了其在实际项目中的应用场景,如加速Transformer模型训练和实现高效的量化计算内核。Triton简化了GPU编程流程,降低了开发门槛,同时保持高性能表现,成为连接高级框架与底层硬件的重要工具。

1437 3
|
人工智能 运维 Kubernetes
|

2025 超详细!Lens Kubernetes IDE 多平台下载安装与集群管理教程

Lens 是一款企业级 Kubernetes 可视化操作平台,2025版实现了三大技术革新:AI智能运维(异常检测准确率98.7%)、多云联邦管理(支持50+集群)和实时3D拓扑展示。本文介绍其安装环境、配置流程、核心功能及高阶技巧,帮助用户快速上手并解决常见问题。适用于 Windows、macOS 和 Ubuntu 系统,需满足最低配置要求并前置依赖组件如 kubectl 和 Helm。通过 Global Cluster Hub 实现多集群管理,AI辅助故障诊断提升运维效率,自定义监控看板和插件生态扩展提供更多功能。

2368 2
|
机器学习/深度学习 数据库 索引
|

Transformer 学习笔记 | Encoder

本文记录了学习Transformer模型过程中对Encoder部分的理解,包括多头自注意力机制(Multi-Head Self-Attention)和前馈网络(Feed-Forward Network)的工作原理。每个Encoder Layer包含残差连接(Residual Connection)和层归一化(Layer Normalization),以缓解梯度消失问题并稳定训练过程。文中详细解释了Q、K、V的含义及缩放点积注意力机制(Scaled Dot-Product Attention),并通过图解展示了各组件的工作流程。欢迎指正。

1164 3
|
数据采集 JavaScript 前端开发
|

京东商品详情 API 接口指南(Python 篇)

本简介介绍如何使用Python抓取京东商品详情数据。首先,需搭建开发环境并安装必要的库(如requests、BeautifulSoup和lxml),了解京东反爬虫机制,确定商品ID获取方式。通过发送HTTP请求并解析HTML,可提取价格、优惠券、视频链接等信息。此方法适用于电商数据分析、竞品分析、购物助手及内容创作等场景,帮助用户做出更明智的购买决策,优化营销策略。

1320 0
|
Web App开发 数据采集 JavaScript
|

CDP与Selenium相结合——玩转网页端自动化数据采集/爬取程序

本文介绍了Selenium、Chrome DevTools及Chrome DevTools Protocol (CDP) 的基本功能与应用。Selenium是一款开源自动化测试工具,适用于网页端应用程序测试和数据采集,具备跨平台特性。Chrome DevTools内置浏览器中,提供调试、分析Web应用程序的功能,包括元素、控制台、源代码和网络选项卡等。CDP是一套用于与Chromium内核浏览器通信的API,支持自动化测试和性能分析。文中还展示了Selenium与CDP结合使用的示例,如捕获网络请求数据和打印网页内容,并推荐了相关书籍和资源以供深入学习。

1904 39
|
UED
|

如何申请国际网络专线?

【10月更文挑战第9天】如何申请国际网络专线?

1171 2
|
机器学习/深度学习 自然语言处理 PyTorch
|

PyTorch 中的动态图与静态图:理解它们的区别及其应用场景

【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。

3853 0
|
机器学习/深度学习 并行计算 PyTorch
|

ONNX 优化技巧:加速模型推理

【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式,用于表示机器学习模型,使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎,旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。

7603 4
|
数据采集 缓存 安全
|

http proxy 协议的工作原理与常见用途

在这篇博客文章中,我们将深入探讨HTTP代理协议的工作原理,揭示它如何在客户端和服务器之间传递HTTP请求和响应,并讨论它在各种应用场景中的常见用途。

1891 0
|
监控 安全 算法
|

云上智能风控:构建金融安全的智能防线

云上智能风控系统具有良好的灵活性和可扩展性。随着金融市场的不断变化和技术的不断发展,系统能够灵活调整风控策略和算法模型以适应新的风险类型和场景。同时,系统还能够根据业务需求进行功能扩展和升级以满足不同金融机构的个性化需求。

1217 7
|
人工智能 运维 DataWorks
|

语雀+通义千问+DataWorks,让AI定期推送每周总结

DataWorks 数据开发提供强大的工作流及调度能力,且近期上线了数据推送节点,这篇文章简单利用 Shell + AI + 数据推送节点来完成每周工作内容总结。

2204 7
|
算法
|

「AIGC」readLink实现url识别pdf、网页标题和内容

AIGC算法实现服务,通过Express接收URL,识别内容类型:HTML使用Cheerio解析,PDF用`pdf-parse`。自定义函数提取标题和内容。示例代码展示了如何处理HTTP响应,提取HTML的`<title>`及PDF文本,并提供错误处理。服务器运行在端口3000。

522 0
|
存储 Ubuntu 关系型数据库
|

Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程

该文档提供了在Ubuntu上卸载和安装MySQL 5.7的步骤。首先,通过`apt`命令卸载所有MySQL相关软件包及配置。然后,下载特定版本(5.7.32)的MySQL安装包,解压并安装所需依赖。接着,按照特定顺序安装解压后的deb包,并在安装过程中设置root用户的密码。安装完成后,启动MySQL服务,连接数据库并验证。最后,提到了开启GTID和二进制日志的配置方法。

5420 5
|
存储 Linux 虚拟化
|

Hyper-V 安装 CentOS 8.5

本文档介绍了在 Windows 10 上使用 Hyper-V 安装 CentOS 8.5.2111 的详细步骤

1257 3
|
SQL 运维 搜索推荐
|

《揭秘,阿里开源自研搜索引擎Havenask的在线检索服务》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的在线检索服务,它具备高可用、高时效、低成本的优势,帮助企业和开发者量身定做适合业务发展的智能搜索服务。

85307 138
来自: 智能搜索推荐  版块
|
数据安全/隐私保护 iOS开发
|

Apple Music中的DRM保护

苹果音乐(Apple Music)是一种流媒体音乐服务,为用户提供了广泛的音乐内容。然而,为了保护音乐版权,Apple Music使用数字版权管理(DRM)技术对其音乐进行保护。DRM保护是一种加密技术,旨在防止用户未经授权地复制、传播或修改受版权保护的音乐。

2559 1
|
机器学习/深度学习 传感器 算法
|

单目3D目标检测 方法综述——直接回归方法、基于深度信息方法、基于点云信息方法

本文综合整理单目3D目标检测的方法模型,包括:基于几何约束的直接回归方法,基于深度信息的方法,基于点云信息的方法。万字长文,慢慢阅读~ 直接回归方法 涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet、SMOKE等。 基于深度信息的方法 涉及到模型包括:MF3D、MonoGRNet、D4LCN、MonoPSR等。 基于点云信息的方法 涉及到模型包括:Pseudo lidar、DD3D、CaDDN、LPCG等。

3150 2
|
机器学习/深度学习 运维 算法
|

梯度&散度&旋度&峰度&偏度你分得清楚吗?驻点&鞍点你分得清楚吗?曲率&斜率你分得清楚吗?

本文介绍了四种常见的物理量:加速度,速度,位移和力学功。详细介绍了它们的定义、计算以及在物理学和工程学领域中的应用。此外,本文还介绍了四种与物理量相关的概念:向量、标量、质量和密度。 数学,物理,机器学习领域常见概念区分

3719 0
|
2月前
|
数据采集 供应链 物联网
|

别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型

别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型

310 4
|
2月前
|
人工智能 自然语言处理 机器人
|

告别机械回复:三步微调AI模型,打造会“读心”的智能客服

本文详解智能客服“需求感知”核心技术:通过BERT微调实现情感识别(感知情绪)、意图分类(理解目的)与实体抽取(提取关键信息),三者协同输出结构化理解。附完整Python实战代码,零基础可上手,并介绍低代码平台方案,助你快速打造有温度的AI客服大脑。(239字)

320 4
|
2月前
|
缓存 负载均衡 安全
|

Nginx 反向代理:原理、优势与配置指南

Nginx反向代理是核心服务器架构技术,可实现请求转发、负载均衡、高可用与安全防护。它隐藏后端服务器,自动剔除故障节点,并支持SSL终止、缓存等高级功能,配置简洁灵活,广泛应用于高性能Web系统。

344 13
|
3月前
|
XML JSON API
|

淘宝商品详情API(tb.item_get)

本文详解淘宝开放平台商品详情核心API(如item_get),涵盖对接流程、权限申请、请求规范、参数说明及返回字段,并列举代购集运、选品分析、比价导购等典型应用场景,助力开发者合规高效获取商品数据。(239字)

396 3
|
4月前
|
存储 安全 编译器
|

C++数据类型:

C++基本数据类型包括bool、char、int、float、double等,支持signed、unsigned、short、long修饰。wchar_t用于宽字符,typedef可为类型定义别名,enum定义枚举常量。支持static_cast、dynamic_cast、const_cast和reinterpret_cast四种类型转换,实现安全或强制类型变换。

285 1
|
4月前
|
存储 缓存 JavaScript
|

Vue3 Composition API深度解析:原理、用法与迁移实践

本文深度解析Vue3 Composition API的核心优势、常用API、底层原理与迁移实践,对比Options API的局限性,详解ref、reactive、watch、生命周期钩子等用法,剖析基于Proxy的响应式机制,并提供渐进式迁移策略,助开发者高效掌握Vue3开发范式。

411 0
|
4月前
|
消息中间件 存储 数据挖掘
|

应用架构图

本文介绍应用架构图的设计原理,涵盖单体与分布式架构。从展现层、业务层、数据层到基础层,阐述各层职责及技术选型逻辑,并通过调用关系明确系统边界,支撑业务落地。

195 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69319
内容
128
活动
439806
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务