|
7月前
|
数据采集 存储 供应链
|

第三方电商数据 API 数据来源深度解析:合规与稳定背后的核心逻辑

本文揭秘第三方电商数据API的底层逻辑:通过官方授权、生态共享与合规采集三重来源,结合严格清洗校验,确保数据稳定、合规、高质。企业选型应关注来源合法性与场景匹配度,避开数据陷阱,实现真正数据驱动增长

679 4
|
7月前
|
机器学习/深度学习 算法 数据可视化
|

基于MVO多元宇宙优化的DBSCAN聚类算法matlab仿真

本程序基于MATLAB实现MVO优化的DBSCAN聚类算法,通过多元宇宙优化自动搜索最优参数Eps与MinPts,提升聚类精度。对比传统DBSCAN,MVO-DBSCAN有效克服参数依赖问题,适应复杂数据分布,增强鲁棒性,适用于非均匀密度数据集的高效聚类分析。

494 6
|
8月前
|
自然语言处理 前端开发 安全
|

别人还在摸索,你用这篇Hoobuy淘宝代购集运系统搭建攻略开拓欧美反向海淘市场!

淘宝代购集运系统为海外用户提供一站式中国电商购物解决方案,集成商品抓取、多语言展示、本地支付、国际物流与订单追踪功能,支持多平台数据同步与合规运营,通过技术整合破解语言、支付、物流难题,助力逆向海淘高效便捷。

562 1
|
9月前
|
机器学习/深度学习 监控 大数据
|

数据当“安全带”:金融市场如何用大数据玩转风险控制?

数据当“安全带”:金融市场如何用大数据玩转风险控制?

524 10
|
9月前
|
自然语言处理 DataWorks 算法
|

数据开发再提速!DataWorks正式接入Qwen3-Coder

阿里云DataWorks平台正式接入Qwen3-Coder模型,用户通过Copilot智能助手可实现自然语言交互生成代码,提升数据开发效率。支持SQL/Python代码生成、优化及Notebook文件创建,适用于数据分析与算法构建,助力企业高效开发。

825 9
|
10月前
|
数据采集 运维 DataWorks
|

DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案,支持千万级任务调度、多源数据集成及全链路数据开发,助力智能驾驶模型数据处理与模型训练高效落地。

870 0
|
10月前
|
SQL 人工智能 数据可视化
|

开源AI BI可视化工具-WrenAI

Wren AI 是一款开源的 SQL AI 代理,支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型(LLM)与检索增强生成(RAG)技术,助力用户高效处理复杂数据分析任务。

1495 5
|
供应链 API 开发者
|

1688 商品数据接口终极指南:Python 开发者如何高效获取标题 / 价格 / 销量数据(附调试工具推荐)

1688商品列表API是阿里巴巴开放平台提供的服务,允许开发者通过API获取1688平台的商品信息(标题、价格、销量等)。适用于电商选品、比价工具、供应链管理等场景。使用时需构造请求URL,携带参数(如q、start_price、end_price等),发送HTTP请求并解析返回的JSON/XML数据。示例代码展示了如何用Python调用该API获取商品列表。

659 18
|
数据采集 Web App开发 JavaScript
|

Python爬虫如何获取JavaScript动态渲染后的网页内容?

Python爬虫如何获取JavaScript动态渲染后的网页内容?

1442 6
|
存储 SQL 分布式计算
|

别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南

别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南

731 19
|
人工智能 自然语言处理 数据库
|

云上玩转Qwen3系列之二:PAI-LangStudio搭建联网搜索和RAG增强问答应用

本文详细介绍了如何使用 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。

1211 5
来自: 人工智能平台PAI  版块
|
数据采集 JSON API
|

Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势

小红书作为社交电商的重要平台,其笔记评论蕴含丰富市场洞察与用户反馈。本文介绍的小红书笔记评论API,可获取指定笔记的评论详情(如内容、点赞数等),支持分页与身份认证。开发者可通过HTTP请求提取数据,以JSON格式返回。附Python调用示例代码,帮助快速上手分析用户互动数据,优化品牌策略与用户体验。

2291 3
|
人工智能 缓存 自然语言处理
|

electron35-vue3-deepseek客户端流式输出AI对话系统

Electron35-DeepSeek桌面端AI系统|vue3.5+electron+arco客户端ai模板。2025跨平台ai实战electron35+vite6+arco仿DeepSeek/豆包ai流式打字聊天助手。

538 4
|
JSON API 开发者
|

深入研究:1688 拍立淘图片搜索 API 详解

本文介绍了 1688 拍立淘图片搜索 API 的功能与使用方法。该 API 支持开发者通过上传图片,在 1688 平台上搜索相似商品,返回商品标题、价格、销量等信息,适用于电商数据分析和商品推荐等场景。文章详细说明了接口的请求方式(HTTP POST)、参数(如 app_key、timestamp、sign 和 image)及 JSON 响应格式。此外,提供了 Python 请求示例代码,涵盖图片 Base64 编码、签名生成、发送请求及响应处理等步骤,帮助开发者快速集成与调试。

559 1
|
机器学习/深度学习 人工智能 算法
|

AI鱼类识别技术原理及示例代码

本文详细解析了AI鱼类识别的代码示例,涵盖深度学习框架选择、数据集处理、模型构建与训练优化全流程。内容包括技术选型对比(如TensorFlow、PyTorch、YOLO系列)、数据准备流程(开源数据集与标注规范)、完整代码示例(以PyTorch版ResNet50改进模型为例)以及模型优化策略(如量化压缩、知识蒸馏)。此外,还提供了典型应用场景(如渔业资源监测系统)、模型评估指标及开源项目推荐,并针对常见问题(小样本、水下模糊、类别不平衡等)提出解决方案。

1006 5
|
机器学习/深度学习 人工智能 自然语言处理
|

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)是由字节跳动提出的一种突破性的开源大语言模型强化学习系统。基于Qwen2.5-32B基础模型,DAPO在AIME 2024测试中以50分的优异成绩超越了现有最佳模型,

1501 6
|
并行计算 PyTorch 算法框架/工具
|

融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践

本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。

1341 3
|
XML 存储 分布式计算
|

【赵渝强老师】史上最详细:Hadoop HDFS的体系架构

HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。

1652 70
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 缓存
|

LLM高效推理:KV缓存与分页注意力机制深度解析

随着大型语言模型(LLM)规模和复杂性的增长,高效推理变得至关重要。KV缓存和分页注意力是优化LLM推理的两项关键技术。KV缓存通过存储键值对减少重复计算,而分页注意力则通过将序列分割成小块来降低内存消耗,从而有效处理长序列。本文深入剖析这些技术的工作原理及其在仅解码器模型中的应用,探讨其优势与挑战,并展示其实现示例。

1130 16
|
机器学习/深度学习 自然语言处理 算法
|

Transformer 学习笔记 | Decoder

本文记录了笔者学习Transformer的过程,重点介绍了填充(padding)和掩码(masking)机制。掩码确保解码器只依赖于之前的位置,避免信息泄露,保持因果关系及训练与推理的一致性。通过线性层和softmax函数生成输出概率,并使用梯度下降和反向传播进行训练。评估指标包括BLEU、ROUGE、METEOR和困惑度等。欢迎指正。

1468 2
|
存储 人工智能 安全
|

面向法律场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向法律场景的大模型 RAG 检索增强解决方案,应用构建更简便,开发环境更直观。此外,PAI 平台同样发布了面向医疗、金融和教育领域的 RAG 解决方案。

2537 10
来自: 人工智能平台PAI  版块
|
存储 人工智能 自然语言处理
|

阿里云 AI 搜索方案解读:大模型驱动下的智能搜索,助力企业数字化转型

本解读了阿里云 AI搜索整体方案。

2526 41
|
机器学习/深度学习 人工智能 监控
|

AI在交通管理系统中的应用

AI在交通管理系统中的应用

767 23
|
开发框架 .NET 开发者
|

简化 ASP.NET Core 依赖注入(DI)注册-Scrutor

Scrutor 是一个简化 ASP.NET Core 应用程序中依赖注入(DI)注册过程的开源库,支持自动扫描和注册服务。通过简单的配置,开发者可以轻松地从指定程序集中筛选、注册服务,并设置其生命周期,同时支持服务装饰等高级功能。适用于大型项目,提高代码的可维护性和简洁性。仓库地址:<https://github.com/khellang/Scrutor>

681 5
|
数据采集 人工智能 文字识别
|

如何绕过Captcha并使用OCR技术抓取数据

在现代网页数据抓取中,Captcha作为一种防止爬虫和恶意访问的措施,广泛应用于各种网站。本文介绍如何使用OCR技术绕过文字Captcha,并通过代理IP技术提高爬虫的隐蔽性。具体实现包括下载Captcha图片、使用Tesseract OCR识别文字、通过代理IP抓取目标数据。示例代码展示了如何抓取大众点评的商家信息。

777 0
|
Java Unix Linux
|

Java “SocketException” 错误怎么处理

Java 中的 "SocketException" 错误通常发生在网络通信过程中,如连接失败、断开连接或数据传输异常。处理方法包括检查网络配置、确保服务器正常运行、使用超时设置和重试机制,以及捕获并处理异常。

2759 6
|
机器学习/深度学习 算法 计算机视觉
|

边缘检测评估方法:FOM、RMSE、PSNR和SSIM对比实验和理论研究

本文探讨了图像分割与边缘检测之间的关系,并通过实验评估了多种边缘检测指标的有效性。研究发现,常用的RMSE、PSNR和SSIM指标在海岸线检测任务中可能高估性能,而FOM(优点图)指标则能更准确地选择最佳边缘检测参数。实验结果表明,FOM在92.6%的情况下选择了更好的阈值,在66.3%的情况下选择了最佳阈值。此外,FOM通过考虑预测边缘与真实边缘之间的距离,提供了更合理的评估标准。本文不仅对海岸线检测有重要意义,还对医学图像分析、计算机视觉和遥感等多个领域具有广泛的应用价值。作者通过理论分析和实证研究,证明了FOM在边缘检测评估中的优越性。

1043 3
|
人工智能 数据可视化 前端开发
|

DB-GPT v0.6.0 版本更新,发布六大核心新特性!

DB-GPT v0.6.0 版本已发布,这是一个开源的AI原生数据应用开发框架,带来了多项新特性,包括AWEL协议升级至2.0,支持复杂编排;改进的数据应用创建与生命周期管理,支持多模式构建;GraphRAG增强图社区摘要与混合检索,图索引成本降低50%;丰富的Agent Memory类型;支持Text2NLU与Text2GQL微调;GPT-Vis前端可视化升级。这些更新助力企业快速构建智能数据应用,推动数字化转型。

1127 3
|
存储 数据采集 OLAP
|

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

饿了么的实时数仓经历了多个阶段的演进。初期通过实时ETL、报表应用、联动及监控构建基础架构,随后形成了涵盖数据采集、加工和服务的整体数据架构。1.0版本通过日志和Binlog采集数据,但在研发效率和数据一致性方面存在问题。2.0版本通过Dataphin构建流批一体化系统,提升了数据一致性和研发效率,但仍面临新业务适应性等问题。最终,饿了么选择Paimon和StarRocks作为实时湖仓方案,显著降低了存储成本并提高了系统稳定性。未来,将进一步优化带宽瓶颈、小文件问题及权限控制,实现更多场景的应用。

1637 8
来自: 实时计算 Flink  版块
|
SQL 机器学习/深度学习 自然语言处理
|

Text-to-SQL技术演进 - 阿里云OpenSearch-SQL在BIRD榜单夺冠方法剖析

本文介绍了Text-to-SQL的技术演进,并对OpenSearch-SQL方法进行剖析。

2519 8
来自: 智能搜索推荐  版块
|
存储 Ubuntu 搜索推荐
|

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

【8月更文第29天】**摘要** JupyterHub 是一个易于使用的、可伸缩的、多用户的 Jupyter Notebook 服务器。它允许您在一个集中式服务器上托管多个独立的 Jupyter Notebook 会话,非常适合团队协作和教学环境。本文将详细介绍如何安装和配置 JupyterHub,以及如何利用它来构建一个多用户 Jupyter 服务器环境。

5744 0
|
数据采集 监控 大数据
|

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式,它通过互联网服务提供商(ISP)池获取真实住宅用户的IP地址。在此背景下,住宅IP通常与特定的物理位置绑定,从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

1431 1
|
机器学习/深度学习 存储 算法
|

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

在本文中,我们将探讨一种方法来解决这个问题,称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。

1872 1
|
数据采集 自然语言处理 大数据
|

​「Python大数据」LDA主题分析模型

使用Python进行文本聚类,流程包括读取VOC数据、jieba分词、去除停用词,应用LDA模型(n_components=5)进行主题分析,并通过pyLDAvis生成可视化HTML。关键代码涉及数据预处理、CountVectorizer、LatentDirichletAllocation以及HTML文件的本地化处理。停用词和业务术语列表用于优化分词效果。

1172 0
|
自然语言处理 数据挖掘 数据安全/隐私保护
|

Magento:电子商务平台的卓越之选

Magento是2008年发布的开源电子商务平台,以其强大功能、灵活性和扩展性深受商家青睐。它支持多语言、货币和站点管理,适应全球化运营。主要特点包括:开源免费、功能丰富、扩展性强、性能优秀及安全性高。Magento的优势在于优秀的用户体验、SEO友好、内置营销工具、数据分析能力和社区支持。许多知名品牌利用Magento拓展全球市场,中小企业也通过它实现业务增长。作为电商解决方案,Magento将继续影响未来的电子商务格局。

651 4
|
机器学习/深度学习 人工智能 自然语言处理
|

算法金 | 吴恩达:机器学习的六个核心算法!

吴恩达教授在《The Batch》周报中介绍了机器学习领域的六个基础算法:线性回归、逻辑回归、梯度下降、神经网络、决策树和k均值聚类。这些算法是现代AI的基石,涵盖了从简单的统计建模到复杂的深度学习。线性回归用于连续变量预测,逻辑回归用于二分类,梯度下降用于优化模型参数,神经网络处理非线性关系,决策树提供直观的分类规则,而k均值聚类则用于无监督学习中的数据分组。这些算法各有优缺点,广泛应用于经济学、金融、医学、市场营销等多个领域。通过不断学习和实践,我们可以更好地掌握这些工具,发掘智能的乐趣。

1104 1
|
消息中间件 Docker 索引
|

【一文解读】阿里自研开源核心搜索引擎 Havenask简介及发展历史

本次分享内容为Havenask的简介及发展历史,由下面五个部分组成(Havenask整体介绍、名词解释、架构、代码结构、编译与部署),希望可以帮助大家更好了解和使用Havenask。

73606 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 负载均衡
|

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。

2199 8
来自: 人工智能平台PAI  版块
|
Oracle 关系型数据库 流计算
|

flink cdc 同步问题之报错org.apache.flink.util.SerializedThrowable:如何解决

Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。

1439 0
来自: 实时计算 Flink  版块
|
数据采集 存储 C#
|

抓取Instagram数据:Fizzler库带您进入C#程序的世界

在当今数字化的世界中,数据是无价之宝。社交媒体平台如Instagram成为了用户分享照片、视频和故事的热门场所。作为开发人员,我们可以利用爬虫技术来抓取这些平台上的数据,进行分析、挖掘和应用。本文将介绍如何使用C#编写一个简单的Instagram爬虫程序,使用Fizzler库来解析HTML页面,同时利用代理IP技术提高采集效率。

425 0
|
数据处理 数据库 流计算
|

FlinkCDC的性能如何

FlinkCDC的性能如何

629 1
|
人工智能 自然语言处理 大数据
|

大模型+知识图谱双驱架构:新一代《知识语义框架SPG》白皮书

白皮书展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。

3830 2
|
机器学习/深度学习 资源调度 数据可视化
|

Mamba详细介绍和RNN、Transformer的架构可视化对比

Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。

1887 2
|
Linux Shell 调度
|

linux服务器定时执行python程序

linux服务器定时执行python程序

2258 0
|
算法 计算机视觉
|

【MATLAB】史上最全的9种数据拟合算法全家桶

【MATLAB】史上最全的9种数据拟合算法全家桶

937 0
|
存储 缓存 异构计算
|

大语言模型量化方法对比:GPTQ、GGUF、AWQ

在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。

6730 0
|
虚拟化 数据中心 异构计算
|

GPU 虚拟化技术MIG简介和安装使用教程

使用多实例GPU (MIG/Multi-Instance GPU)可以将强大的显卡分成更小的部分,每个部分都有自己的工作,这样单张显卡可以同时运行不同的任务。本文将对其进行简单介绍并且提供安装和使用的示例。

1722 0
|
JSON JavaScript 数据可视化
|

可视化JSON数据工具推荐:JSON Viewer Pro和JSONGrid

本文介绍了两款可视化JSON数据的工具:JSON Viewer Pro和JSONGrid。它们都提供了丰富的功能和用户友好的界面,使用户能够更轻松地理解和处理JSON格式的数据。这些功能包括查看和分析、编辑和修改、格式化和美化、折叠和展开、高亮和搜索、排序和过滤、导入和导出等。这些工具对于开发人员、数据分析师和任何需要处理JSON的人都非常实用。

5167 0
|
自然语言处理 搜索推荐 算法
|

阿里云OpenSearch重磅推出LLM问答式搜索产品,助力企业高效构建对话式搜索服务

OpenSearch推出LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务,基于内置的LLM大模型提供问答能力,一站式快速搭建问答搜索系统。

13401 7
来自: 智能搜索推荐  版块
|
机器学习/深度学习 分布式计算 DataWorks
|

《Apache Flink 案例集(2022版)》——3.机器学习——钱大妈-基于阿里云Flink的实时风控实践(1)

《Apache Flink 案例集(2022版)》——3.机器学习——钱大妈-基于阿里云Flink的实时风控实践(1)

1026 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439957
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务