|
存储 分布式计算 搜索推荐
|

OpenSearch图搜图、文搜图向量检索最佳实践

本文介绍如何通过OpenSearch【向量检索版】帮助企业在没有向量数据的情况下快速搭建图像搜索服务,解决图片向量化、向量搜索等检索难题,实现以图搜图、以文搜图等多种图像检索能力。并通过数据压缩功能,降低存储空间,降低业务成本,为企业提供效果、性能双保障。

3856 3
来自: 智能搜索推荐  版块
|
机器学习/深度学习 缓存 自然语言处理
|

更加灵活、经济、高效的训练——新一代搜推广稀疏大模型训练范式GBA

近日,阿里巴巴在国际顶级机器学习会议NeurIPS 2022上发表了新的自研训练模式 Gloabl Batch gradients Aggregation (GBA,论文链接:https://arxiv.org/abs/2205.11048),由阿里妈妈事业部搜索广告团队和智能引擎事业部XDL训练引擎团队联合探索和研发。GBA的提出对阿里巴巴搜推广稀疏模型的训练范式带来了架构性的跨越式升级。本文将从GBA的设计思路、收敛性分析及工程实现等方面展开介绍,欢迎阅读交流。

1453 0
来自: 智能搜索推荐  版块
|
Shell 数据处理 定位技术
|

数字孪生核心技术揭秘(二):三维模型

三维模型是一个很宽泛的概念,大部分三维模型是无法直接应用于数字孪生项目的;三维建模需要找专业的供应商进行制作,需要有标准规范和质量检验;建模、模型数据加工都需要制定规范,才能支持好数据融合;需要使用合适的数字孪生引擎才能发挥三维模型的效果;

4902 2
来自: 数据可视化DataV  版块
|
机器学习/深度学习 SQL 算法
|

中原银行实时风控体系建设实践

中原银行数据平台中心开发工程师陈玉强在 FFA 2021 的演讲。

2674 1
来自: 实时计算 Flink  版块
|
存储 人工智能 分布式计算
|

阿里云云原生一体化数仓 — 离线实时一体化新能力解读

介绍MaxCompute+Hologres离线和实时数仓一体化优于之前有离线、有在线、有很多不同的引擎的实现方案,通过用实时的引擎做预处理,实现离线实时数据入仓后做更加实时的服务化BI分析实践。

2939 1
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 缓存
|

阿里云EMR Remote Shuffle Service在小米的实践,以及开源

阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施,与此同时RSS也在跟合作方小米的共建下不断演进。本文将介绍RSS的最新架构,在小米的实践,以及开源。

4205 0
|
存储 消息中间件 缓存
|

腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统

腾讯看点基于 Flink 构建实时数仓以及实时数据查询系统,亚秒级的响应多维条件查询请求。

1910 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 分布式计算
|

PAI:一站式云原生AI平台

本文是《飞天大数据产品价值解读系列》之《一站式云原生AI平台》的视频分享精华总结,主要由阿里云机器学习PAI团队的产品经理高慧玲(花名:玲汐)向大家介绍了阿里巴巴整体的AI情况以及一站式云原生的AI平台PAI,并且做了简单的DEMO演示。

5192 0
来自: 人工智能平台PAI  版块
|
流计算 Apache 存储
|

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

13860 0
来自: 实时计算 Flink  版块
|
存储 运维 分布式计算
|

飞天5K实战经验:大规模分布式系统运维实践

传统的运维人员通常只面对几十或者上百台的服务器,但在大规模分布式集群中,运维人员面临工作任务明显不同。本文分别阐述服务器数量激增,要求提升全局掌控能力,如何实现系统的自我保护和自动化恢复,大规模与精细化平衡,以及需要开发和运维更加紧密合作等方面,通过对真实数据进行分析和预测,将判断失误概率降到最低。

6454 0
来自: 大数据计算 MaxCompute  版块
|
23小时前
|
SQL 存储 分布式计算
|

别让大数据“全表扫描”掏空你:数据分区策略与分区裁剪的实战心经

别让大数据“全表扫描”掏空你:数据分区策略与分区裁剪的实战心经

26 3
|
18天前
|
人工智能 安全 API
|

身份证二、三要素实名认证API文档介绍

身份证二、三要素实名认证API,通过姓名、身份证号及头像比对权威数据源,快速核验用户身份真实性。广泛应用于金融、政务、电商等场景,助力企业合规运营,防范冒用身份等风险,保障账户安全与业务可信。

298 1
|
24天前
|
机器学习/深度学习 数据可视化 算法
|

Python | 网格搜索参数优化的XGBoost+SHAP可解释性分析回归预测及可视化算法

本教程将推出Python实现的XGBoost回归预测,结合网格搜索调参与SHAP可解释性分析,涵盖数据处理、模型训练、可视化及结果保存,助力科研论文提升模型可解释性,附完整代码与保姆级环境配置指南。

185 1
|
25天前
|
人工智能 JSON 文字识别
|

发票验真API:基于权威数据源与阿里云平台的发票验真代码解析

发票验真迈向智能化新阶段,融合OCR识别与权威查验平台,实现全票种自动化验真。一站式接口高效、安全、可溯,支持批量处理与高并发调用,显著提升效率、降低合规风险,助力企业构建智能财税风控体系。(238字)

279 0
|
27天前
|
数据采集 机器学习/深度学习 数据可视化
|

基于python大数据的小说数据可视化及预测系统

本研究基于Python构建小说数据可视化与预测系统,整合多平台海量数据,利用爬虫、数据分析及机器学习技术,实现热度趋势预测与用户偏好挖掘。系统结合Django、Vue等框架,提供动态交互式可视化界面,助力平台精准运营、作者创作优化与读者个性化阅读体验,推动网络文学数据智能化发展。

197 19
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

教育行业如何做GEO?让AI成为你的课程推荐官

过去,学生找课程靠搜索;现在,他们直接问AI:“附近有哪些性价比高的编程课?”或“商科最好的在线大学?”——AI不会简单罗列链接,而是直接推荐答案。如果你的教育机构没被AI“看见”,可能已经错过了新一轮流量红利。 作为深耕GEO领域的实战团队,数聚酷科技结合教育行业特性,总结出以下可落地的GEO优化策略,帮助你的课程和…

137 6
来自: 智能搜索推荐  版块
|
1月前
|
存储 人工智能 自然语言处理
|

阿里云 Elasticsearch 的 AI 革新:高性能、低成本、智能化的搜索新纪元

本文介绍了数智化浪潮下, 阿里云 Elasticsearch 打通了 云原生内核优化、RAG 闭环方案、云原生推理平台 三大能力模块,实现了从底层到应用的全链路升级,助力企业构建面向未来的智能搜索中枢。

391 22
|
2月前
|
机器学习/深度学习 人工智能 物联网
|

AR技术融入到产品质量检测:提升效率与精度的未来趋势

元幂境认为,AR技术正革新产品质量检测,通过虚实融合提升精度、降低门槛、强化培训与协作,广泛应用于制造、电子、医疗及航空航天领域,未来结合AI将迈向智能检测新阶段。

406 0
|
3月前
|
分布式计算 Java 关系型数据库
|

二、Sqoop 详细安装部署教程

在大数据开发实战中,Sqoop 是数据库与 Hadoop 生态之间不可或缺的数据传输工具。这篇文章将以 Sqoop 1.4.7 为例,结合官方站点截图,详细讲解 Sqoop 的下载路径、安装步骤、环境配置,以及常见 JDBC 驱动的准备过程,帮你一步步搭建出能正常运行的 Sqoop 环境,并通过 list-databases 命令验证安装是否成功。如果你正打算学习 Sqoop,或者在搭建大数据平台过程中遇到安装配置问题,本文将是非常实用的参考指南。

304 6
|
4月前
|
JSON API 开发者
|

闲鱼商品详情API数据解析(附代码)

闲鱼商品详情API(goodfish.item_get)支持通过商品ID获取标题、价格、描述等信息,适用于比价、推荐系统及市场分析。接口支持GET/POST请求,返回JSON格式数据,并提供Python调用示例,便于开发者快速集成。

434 0
|
5月前
|
安全 Java 网络安全
|

Java 实现 SMTP 协议调用的详细示例及实战指南 SMTP Java 调用示例

本文介绍了如何使用Java调用SMTP协议发送邮件,涵盖SMTP基本概念、JavaMail API配置、代码实现及注意事项,适合Java开发者快速掌握邮件发送功能集成。

561 0
|
5月前
|
分布式计算 Serverless OLAP
|

实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统

Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。

752 2
来自: 实时数仓 Hologres  版块
|
5月前
|
存储 缓存 Apache
|

Apache Iceberg数据湖高级特性及性能调优

性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率,结合文件内/间排序优化I/O与压缩,辅以Z-Order实现多维数据聚集。同时,合理配置元数据缓存与清单合并,加速查询规划。适用于点查、全表扫描及高并发写入场景,显著提升系统性能与资源利用率。

568 0
|
6月前
|
机器学习/深度学习 数据采集 分布式计算
|

阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型

本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。

1075 0
|
6月前
|
传感器 人工智能 安全
|

运营商三要素API的实战指南:实现 “人 - 证 - 号” 三位一体核验

在数字身份欺诈频发的背景下,传统单点验证已无法满足高安全需求。探数API推出的“运营商三要素核验API”,通过姓名、身份证号、手机号的三重交叉验证,构建起“铁三角”防线,广泛适用于金融、政务、电商等领域。该API支持一致性验证及基础信息返回(可选),具备高准确性与防伪性,远超单一或双因素验证方式。其调用流程简单,提供Python示例代码及异常处理建议,助力打造更安全的数字身份体系,成为连接多领域的关键桥梁。未来,多因子融合的身份认证将成为趋势,而三要素核验API正是当前可信数字身份的重要基石。

740 2
|
6月前
|
存储 自然语言处理 算法
|

基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案

本文探讨了在构建对话系统时如何通过一种内存高效算法降低大语言模型(LLM)的Token消耗和运营成本。传统方法中,随着对话深度增加,Token消耗呈指数级增长,导致成本上升。

547 7
|
7月前
|

HarmonyOS实战:Tab顶部滑动悬停功能实现

在鸿蒙开发中,实现Scroll嵌套List列表滑动时顶部悬停的效果是一个常见需求。本文详细介绍了如何通过布局和事件处理来实现这一功能。首先,使用Scroll嵌套List和Tab布局来构建基础页面。然后,通过设置nestedScroll属性为NestedScrollMode.PARENT_FIRST,确保外层Scroll优先滑动。接着,通过监听List和Scroll的滑动事件,处理滑动冲突,确保在特定条件下Scroll停止滑动,将滑动事件交给List处理。最终,实现了在上下滑动时优先让Scroll滑动的效果,并提供了扩展思路,如优先让List滑动等。

355 10
|
7月前
|
机器学习/深度学习 PyTorch 编译器
|

深入解析torch.compile:提升PyTorch模型性能、高效解决常见问题

PyTorch 2.0推出的`torch.compile`功能为深度学习模型带来了显著的性能优化能力。本文从实用角度出发,详细介绍了`torch.compile`的核心技巧与应用场景,涵盖模型复杂度评估、可编译组件分析、系统化调试策略及性能优化高级技巧等内容。通过解决图断裂、重编译频繁等问题,并结合分布式训练和NCCL通信优化,开发者可以有效提升日常开发效率与模型性能。文章为PyTorch用户提供了全面的指导,助力充分挖掘`torch.compile`的潜力。

850 17
|
8月前
|
移动开发 人工智能 定位技术
|

用 Godot 开发像素风《饥荒》的流程

用 Godot 开发像素风《饥荒》的流程

539 6
|
8月前
|
人工智能 安全 数据安全/隐私保护
|

本地部署DeepSeek教程:一键远程访问,还能解决Ollama安全隐患

本教程详细介绍如何使用Ollama+Open WebUI本地部署DeepSeek模型,并借助贝锐花生壳内网穿透实现安全远程访问。首先,安装Ollama并下载DeepSeek模型,根据显存选择合适参数(如4G选1.5B)。接着,通过Docker部署Open WebUI以获得图形化交互界面。最后,利用贝锐花生壳简单三步完成远程访问设置,支持HTTPS加密传输,保障数据安全。整个过程无需云服务器,轻松打造专属AI助手。

1025 5
|
9月前
|
人工智能 自然语言处理 Cloud Native
|

快速使用Milvus MCP Server,0代码搭建智能搜索Agent

阿里云向量检索服务Milvus版是一款云原生向量检索引擎。目前Milvus提供了milvus-mcp-server来对接各种AI Agent,支持包括:更新向量数据、创建索引、混合检索(向量+全文)、多向量列检索等多种能力。本文介绍了如何使用Milvus-mcp-server来搭建智能搜索Agent,并分别使用Cline和Cursor进行部署展示。

1151 6
|
9月前
|
存储 运维 监控
|

阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享,围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化,以及基于Paimon的湖仓方案优势。通过分层设计与技术优化,实现业务交付周期缩短30%以上,资源开销降低40%,并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动,助力企业探索实时计算与湖仓一体化解决方案。

1039 3
来自: 实时计算 Flink  版块
|
9月前
|
机器学习/深度学习 运维 数据挖掘
|

时间序列特征提取:18 种高效工具库及其应用分析

时间序列特征提取是数据科学的重要环节,可将原始数据转化为分析价值高的特征表示。本文介绍18个Python库,涵盖通用与专业领域(如医疗、金融)的特征提取工具。这些库包括tsfeatures、tsfresh、librosa等,各自针对特定任务(如预测、分类、异常检测)提供独特功能。通过结合不同库的特点,数据科学家能更高效地进行特征工程,提升模型性能与分析深度。文章总结了各库的优势及适用场景,为实际应用提供了全面指导。

547 0
|
9月前
|
数据采集 XML JavaScript
|

Python爬虫:从人民网提取视频链接的完整指南

Python爬虫:从人民网提取视频链接的完整指南

1387 2
|
10月前
|
运维 并行计算 数据处理
|

量子计算的基本原理与传统计算的区别

量子计算的基本原理与传统计算的区别

516 5
|
10月前
|
JSON API 数据格式
|

携程网获取景点列表 API 接口(携程 API 系列)

携程作为国内知名的在线旅游服务提供商,其景点列表API对接口功能、参数和返回格式进行了详细定义。该接口可获取景点基本信息(名称、地区、开放时间等),支持条件筛选查询(如按地区、评分、价格区间等)。接口返回JSON或XML格式数据,并设有调用限制以确保系统稳定性和数据安全。虽然携程未公开免费API,开发者可通过商务合作申请权限。以下为模拟Python请求示例,展示了如何使用该接口获取景点信息。 代码示例中,通过`requests.get()`发送GET请求,设置请求参数(如地区、门票价格等)和请求头(模拟浏览器访问),并处理响应数据。实际应用需替换为真实的接口URL,并遵循携程官方文档要求。

1992 0
|
10月前
|
机器学习/深度学习 自然语言处理 并行计算
|

Transformer 学习笔记 | Seq2Seq,Encoder-Decoder,分词器tokenizer,attention,词嵌入

本文记录了学习Transformer过程中的笔记,介绍了Seq2Seq模型及其编码器-解码器结构。Seq2Seq模型通过将输入序列转化为上下文向量,再由解码器生成输出序列,适用于机器翻译、对话系统等任务。文章详细探讨了Seq2Seq的优势与局限,如信息压缩导致的细节丢失和短期记忆限制,并引入注意力机制来解决长序列处理问题。此外,还介绍了分词器(tokenizer)的工作原理及不同类型分词器的特点,以及词嵌入和Transformer架构的基础知识。文中包含大量图表和实例,帮助理解复杂的概念。参考资料来自多个权威来源,确保内容的准确性和全面性。

836 9
|
10月前
|
数据可视化 算法 数据挖掘
|

用傅里叶变换解码时间序列:从频域视角解析季节性模式

本文介绍了如何使用傅里叶变换和周期图分析来识别时间序列中的季节性模式,特别是在能源消耗数据中。通过Python实现傅里叶变换和周期图,可以有效提取并量化时间序列中的主要和次要频率成分,克服传统可视化分析的局限性。这对于准确捕捉时间序列中的季节性变化具有重要意义。文章以AEP能源消耗数据为例,展示了如何应用这些方法识别日、周、半年等周期模式。

470 3
|
11月前
|
机器学习/深度学习 人工智能 算法
|

阿里云人工智能平台图像视频特征提取

本文介绍了图像与视频特征提取技术在人工智能和计算机视觉中的应用,涵盖图像质量评分、人脸属性分析、年龄分析、图像多标签打标、图文视频动态分类打标、视频质量评分及视频分类打标。通过深度学习模型如CNN和RNN,这些技术能从海量数据中挖掘有价值信息,为图像分类、目标检测、视频推荐等场景提供支持,提升分析精度与效率。

758 9
来自: 人工智能平台PAI  版块
|
12月前
|
机器学习/深度学习 算法 数据可视化
|

无监督学习与数据聚类:从理论到实践

无监督学习与数据聚类:从理论到实践

511 12
|
12月前
|
API 数据库
|

京东图片搜索商品拍立淘接口(JD.item_search_img)

拍立淘是阿里巴巴淘宝平台推出的基于图像识别技术的购物应用功能,旨在提升商品搜索效率与准确性。用户可通过上传图片快速找到相似商品。其核心接口item_search_img利用先进图像识别技术提取商品特征,并在数据库中匹配相似商品,返回包含商品ID、标题、价格等详细信息的结果列表,支持按价格、销量等多种方式排序,极大优化了用户的购物体验。

559 3
|
12月前
|
机器学习/深度学习 监控 算法
|

机器学习在图像识别中的应用:解锁视觉世界的钥匙

机器学习在图像识别中的应用:解锁视觉世界的钥匙

1541 95
|
安全 API 数据安全/隐私保护
|

淘宝店铺所有商品数据接口(Taobao.item_search_shop)

淘宝开放平台提供的 `Taobao.item_search_shop` 接口用于获取指定淘宝店铺的所有商品数据。请求参数包括 `seller_id`(必需)、`page`(可选,默认为1)和 `sort`(可选,排序方式如新品、价格、销量)。响应参数包括商品的唯一标识符、主图URL、标题、价格、销量等。使用步骤包括注册账号、创建应用、获取权限、构建请求、分页获取商品列表和获取商品详细信息。注意遵守调用频率限制和相关法律法规。

514 5
|
XML JSON 缓存
|

阿里巴巴商品详情数据接口(alibaba.item_get) 丨阿里巴巴 API 实时接口指南

阿里巴巴商品详情数据接口(alibaba.item_get)允许商家通过API获取商品的详细信息,包括标题、描述、价格、销量、评价等。主要参数为商品ID(num_iid),支持多种返回数据格式,如json、xml等,便于开发者根据需求选择。使用前需注册并获得App Key与App Secret,注意遵守使用规范。

592 6
|
人工智能 JSON 算法
|

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。

1678 30
来自: 人工智能平台PAI  版块
|
算法 数据可视化 PyTorch
|

IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析

本文探讨了目标检测中常用的交并比(IoU)及其变体,包括广义交并比(GIoU)、距离交并比(DIoU)和完全交并比(CIoU)。这些指标不仅提高了模型在处理不重叠、距离较远或形状差异大的边界框时的表现,还为模型的学习过程提供了更深入的洞察。文章详细解释了各指标的计算方法及应用场景,并提供了相应的代码示例,帮助读者更好地理解和应用这些先进的评估指标。

1033 7
|
机器学习/深度学习 计算机视觉
|

一文详解残差网络

残差网络(ResNet)源于2016年的论文《Deep Residual Learning for Image Recognition》,旨在解决深层网络中的梯度消失和爆炸问题。通过引入残差块,即在网络中添加跳跃连接,使得信息可以直接跨过多层传递,从而有效解决了网络加深导致的训练困难。ResNet不仅显著提高了模型性能,还促进了深度学习领域的发展。

2014 3
|
Java 索引
|

Java“ArrayIndexOutOfBoundsException”解决

Java中的“ArrayIndexOutOfBoundsException”异常通常发生在尝试访问数组的无效索引时。解决方法包括:检查数组边界,确保索引值在有效范围内;使用循环时注意终止条件;对用户输入进行验证。通过这些措施可以有效避免该异常。

2725 2
|
数据采集 前端开发 测试技术
|

Selenium中定位元素的9种方法

在Selenium中,定位页面元素是自动化测试和网页爬虫的基础。常用的9种元素定位方法包括:ID、Name、Class Name、Tag Name、CSS Selector、XPath、Link Text、Partial Link Text,以及XPath和CSS选择器的组合使用。每种方法各有优劣,建议根据页面的具体情况和元素的属性选择最合适的方法,并使用显式等待确保元素可用。

1828 5
|
机器学习/深度学习 自然语言处理 JavaScript
|

信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用

在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。

1603 2

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

5
今日
67713
内容
128
活动
439500
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务