|
7月前
|
数据采集 存储 NoSQL
|

基于Scrapy-Redis的分布式景点数据爬取与热力图生成

基于Scrapy-Redis的分布式景点数据爬取与热力图生成

397 67
7月前
|
大数据
|

查询加速 MaxQA 功能解读及使用演示

为满足现代数据分析和业务应用中对低延迟的需求,阿里云推出 MaxQA 查询加速功能,显著减少查询响应时间,适用于 BI 场景、交互式分析以及近实时数仓等对延迟要求高且稳定的场景。​ ​ 本视频为大家介绍MaxQA在性能、稳定性及使用成本上的核心优势以及相较于MCQA1.0的能力升级,还有产品专家实操演示教学。 公测期间可申请100CU(价值15000元)计算资源用于测试(加入钉群申领:87535025714)

285 0
来自: 大数据计算 MaxCompute  版块
|
7月前
|
消息中间件 运维 Kafka
|

直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!

在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)

566 35
来自: 实时计算 Flink  版块
|
7月前
|
XML 数据挖掘 API
|

小红书笔记详情API接口如何使用

小红书作为社交媒体平台,拥有海量优质笔记内容。为方便开发者获取笔记详情(如标题、正文、图片、点赞数等),可假设存在一个合规的 API 接口。该接口通过 note_id、timestamp 和 sign 等参数进行调用,采用 HTTP 请求方式,返回 JSON 或 XML 格式的响应数据。尽管小红书官方未正式开放 API,但此假设有助于理解其潜在应用场景,如内容分析与数据挖掘等。

683 4
|
7月前
|
数据采集 存储 NoSQL
|

分布式爬虫去重:Python + Redis实现高效URL去重

分布式爬虫去重:Python + Redis实现高效URL去重

385 4
|
7月前
|
消息中间件 监控 5G
|

5G+智能家居:让生活更智慧、更畅快

5G+智能家居:让生活更智慧、更畅快

312 7
|
7月前
|
分布式计算 数据可视化 大数据
|

大数据+GIS:别光想着看地图,人家早就开始“算”地图了!

大数据+GIS:别光想着看地图,人家早就开始“算”地图了!

240 17
|
8月前
|
分布式计算 运维 搜索推荐
|

立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。

457 57
|
8月前
|
边缘计算 运维 监控
|

5G落地没那么简单!细扒部署挑战与硬核解决方案

5G落地没那么简单!细扒部署挑战与硬核解决方案

272 30
|
8月前
|
机器学习/深度学习 存储 算法
|

NoProp:无需反向传播,基于去噪原理的非全局梯度传播神经网络训练,可大幅降低内存消耗

反向传播算法虽是深度学习基石,但面临内存消耗大和并行扩展受限的问题。近期,牛津大学等机构提出NoProp方法,通过扩散模型概念,将训练重塑为分层去噪任务,无需全局前向或反向传播。NoProp包含三种变体(DT、CT、FM),具备低内存占用与高效训练优势,在CIFAR-10等数据集上达到与传统方法相当的性能。其层间解耦特性支持分布式并行训练,为无梯度深度学习提供了新方向。

343 1
|
8月前
|
存储 分布式计算 大数据
|

数据湖——大数据存储的新思维,如何打破传统束缚?

数据湖——大数据存储的新思维,如何打破传统束缚?

351 16
|
8月前
|
算法
|

基于MATLAB的地下水模拟系统开发

本项目基于MATLAB开发了一套地下水模拟系统,利用GUI实现参数输入与结果显示。系统集成径向基函数配点法和有限元法,可输出地下水位等高线及立体图。测试版本为MATLAB 2022A,展示多场景运行结果。开发内容涵盖水文地质条件分析、模块化设计(文件、数据输入、算法等模块)及具体开发步骤,确保科学性与实用性。核心程序实现了交互功能与数值计算,适用于复杂地下水系统的离散化模拟与分析。

171 12
|
8月前
|
数据采集 自然语言处理 JavaScript
|

Playwright多语言生态:跨Python/Java/.NET的统一采集方案

随着数据采集需求的增加,传统爬虫工具如Selenium、Jsoup等因语言割裂、JS渲染困难及代理兼容性差等问题,难以满足现代网站抓取需求。微软推出的Playwright框架,凭借多语言支持(Python/Java/.NET/Node.js)、统一API接口和优异的JS兼容性,解决了跨语言协作、动态页面解析和身份伪装等痛点。其性能优于Selenium与Puppeteer,在学术数据库(如Scopus)抓取中表现出色。行业应用广泛,涵盖高校科研、大型数据公司及AI初创团队,助力构建高效稳定的爬虫系统。

472 2
|
8月前
|
机器学习/深度学习 编解码 PyTorch
|

从零实现基于扩散模型的文本到视频生成系统:技术详解与Pytorch代码实现

本文介绍了一种基于扩散模型的文本到视频生成系统,详细展示了模型架构、训练流程及生成效果。通过3D U-Net结构和多头注意力机制,模型能够根据文本提示生成高质量视频。

349 1
|
8月前
|
机器学习/深度学习 并行计算 PyTorch
|

【pytorch】【202504】关于torch.nn.Linear

小白从开始这段代码展示了`nn.Linear`的使用及其背后的原理。 此外,小白还深入研究了PyTorch的核心类`torch.nn.Module`以及其子类`torch.nn.Linear`的源码。`grad_fn`作为张量的一个属性,用于指导反向传播 进一步地,小白探讨了`requires_grad`与叶子节点(leaf tensor)的关系。叶子节点是指在计算图中没有前驱操作的张量,只有设置了`requires_grad=True`的叶子节点才会在反向传播时保存梯度。 最后,小白学习了PyTorch中的三种梯度模式 通过以上学习小白对PyTorch的自动求导机制有了更深刻的理解。

367 6
|
8月前
|
数据可视化 大数据 Python
|

让数据“开口说话”——数据可视化的实用指南

让数据“开口说话”——数据可视化的实用指南

229 20
|
9月前
|
算法 数据可视化 BI
|

基于免疫算法的最优物流仓储点选址方案MATLAB仿真

本程序基于免疫算法实现物流仓储点选址优化,并通过MATLAB 2022A仿真展示结果。核心代码包括收敛曲线绘制、最优派送路线规划及可视化。算法模拟生物免疫系统,通过多样性生成、亲和力评价、选择、克隆、变异和抑制机制,高效搜索最优解。解决了物流仓储点选址这一复杂多目标优化问题,显著提升物流效率与服务质量。附完整无水印运行结果图示。

310 20
|
9月前
|
机器学习/深度学习 算法 调度
|

【强化学习】基于深度强化学习的微能源网能量管理与优化策略研究【Python】

本项目基于深度Q网络(DQN)算法,通过学习预测负荷、可再生能源输出及分时电价等信息,实现微能源网的能量管理与优化。程序以能量总线模型为基础,结合强化学习理论,采用Python编写,注释清晰,复现效果佳。内容涵盖微能源网系统组成、Q学习算法原理及其实现,并提供训练奖励曲线、发电单元功率、电网交互功率和蓄电池调度等运行结果图表,便于对照文献学习与应用。

339 6
|
9月前
|
人工智能 自然语言处理 运维
|

【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B

PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。

585 16
来自: 人工智能平台PAI  版块
|
9月前
|
存储 算法 数据挖掘
|

数据无罪,使用有度:从技术人角度谈数据伦理

数据无罪,使用有度:从技术人角度谈数据伦理

439 9
|
9月前
|
DataWorks 关系型数据库 Serverless
|

DataWorks数据集成同步至Hologres能力介绍

本文由DataWorks PD王喆分享,介绍DataWorks数据集成同步至Hologres的能力。DataWorks提供低成本、高效率的全场景数据同步方案,支持离线与实时同步。通过Serverless资源组,实现灵活付费与动态扩缩容,提升隔离性和安全性。文章还详细演示了MySQL和ClickHouse整库同步至Hologres的过程。

321 0
来自: 实时数仓 Hologres  版块
|
9月前
|

自动校针

TP屏 HMI库文件,自动校准已经更新

139 26
|
9月前
|
数据采集 前端开发 JavaScript
|

金融数据分析:解析JavaScript渲染的隐藏表格

本文详解了如何使用Python与Selenium结合代理IP技术,从金融网站(如东方财富网)抓取由JavaScript渲染的隐藏表格数据。内容涵盖环境搭建、代理配置、模拟用户行为、数据解析与分析等关键步骤。通过设置Cookie和User-Agent,突破反爬机制;借助Selenium等待页面渲染,精准定位动态数据。同时,提供了常见错误解决方案及延伸练习,帮助读者掌握金融数据采集的核心技能,为投资决策提供支持。注意规避动态加载、代理验证及元素定位等潜在陷阱,确保数据抓取高效稳定。

296 17
|
9月前
|
数据采集 存储 机器学习/深度学习
|

Fuel 爬虫:Scala 中的图片数据采集与分析

Fuel 爬虫:Scala 中的图片数据采集与分析

252 1
|
9月前
|
SQL 存储 消息中间件
|

vivo基于Paimon的湖仓一体落地实践

本文整理自vivo互联网大数据专家徐昱在Flink Forward Asia 2024的分享,基于实际案例探讨了构建现代化数据湖仓的关键决策和技术实践。内容涵盖组件选型、架构设计、离线加速、流批链路统一、消息组件替代、样本拼接、查询提速、元数据监控、数据迁移及未来展望等方面。通过这些探索,展示了如何优化性能、降低成本并提升数据处理效率,为相关领域提供了宝贵的经验和参考。

1103 3
来自: 实时计算 Flink  版块
|
9月前
|
算法 数据安全/隐私保护
|

基于GARCH-Copula-CVaR模型的金融系统性风险溢出效应matlab模拟仿真

本程序基于GARCH-Copula-CVaR模型,使用MATLAB2022A仿真金融系统性风险溢出效应。核心功能包括计算违约点、资产价值波动率、信用溢价及其直方图等指标。GARCH模型用于描述资产收益波动性,Copula捕捉依赖结构,CVaR度量极端风险。完整代码无水印输出。 具体步骤:首先通过GARCH模型估计单个资产的波动性,再利用Copula方法构建多资产联合分布,最后应用CVaR评估系统性风险。程序展示了详细的运行结果和图表分析,适用于金融市场风险量化研究。

351 6
|
9月前
|
机器学习/深度学习 数据可视化
|

Visual-RFT:基于强化学习的视觉语言模型微调技术研究

Visual-RFT 是一种创新的视觉语言模型微调技术,结合基于规则的可验证奖励与强化学习,克服了传统监督微调在数据稀缺场景下的局限。它通过渐进式推理和多样化响应生成,优化模型在对象检测、图像分类等任务中的表现,尤其适用于少样本学习。该方法采用组相对策略优化(GRPO)进行参数更新,简化了强化学习流程,同时保持高效性。实验结果表明,Visual-RFT 在细粒度分类和推理定位等任务中显著优于传统方法,展示了其在实际应用中的巨大潜力。

502 1
|
9月前
|
存储 JSON API
|

Python测试淘宝店铺所有商品接口的详细指南

本文详细介绍如何使用Python测试淘宝店铺商品接口,涵盖环境搭建、API接入、签名生成、请求发送、数据解析与存储、异常处理等步骤。通过具体代码示例,帮助开发者轻松获取和分析淘宝店铺商品数据,适用于电商运营、市场分析等场景。遵守法规、注意调用频率限制及数据安全,确保应用的稳定性和合法性。

390 4
|
9月前
|
数据采集 机器学习/深度学习 数据可视化
|

探索大数据分析的无限可能:R语言的应用与实践

探索大数据分析的无限可能:R语言的应用与实践

366 9
|
9月前
|
算法 数据安全/隐私保护
|

基于Big-Bang-Big-Crunch(BBBC)算法的目标函数最小值计算matlab仿真

该程序基于Big-Bang-Big-Crunch (BBBC)算法,在MATLAB2022A中实现目标函数最小值的计算与仿真。通过模拟宇宙大爆炸和大收缩过程,算法在解空间中搜索最优解。程序初始化随机解集,经过扩张和收缩阶段逐步逼近全局最优解,并记录每次迭代的最佳适应度。最终输出最佳解及其对应的目标函数最小值,并绘制收敛曲线展示优化过程。 核心代码实现了主循环、粒子位置更新、适应度评估及最优解更新等功能。程序运行后无水印,提供清晰的结果展示。

240 14
|
9月前
|
存储 机器学习/深度学习 人工智能
|

Elasticsearch:使用阿里云 AI 服务进行向量化和重新排名

本文介绍了如何将阿里云 AI 功能与 Elasticsearch 集成,以提高语义搜索的相关性。

604 0
|
10月前
|
JSON API 开发者
|

淘宝淘口令转换API接口(淘宝API系列)

淘宝淘口令转换API是用于将淘宝商品或店铺链接与淘口令进行双向转换的接口,支持HTTP POST请求。开发者可通过此API生成或解析淘口令,方便在不同平台传播淘宝内容,吸引更多潜在客户。API返回JSON格式数据,包含转换结果和状态信息。使用前需注册并申请权限,确保调用稳定可靠。示例代码展示了如何通过Python实现淘口令的生成和解析功能。

384 5
|
10月前
|
搜索推荐 数据挖掘
|

优质网络舆情监测系统大盘点

一款出色的网络舆情监测系统,不仅能够助力相关主体迅速捕捉舆情信息,有效应对危机,还能够助力其更好地把握舆论动态,维护自身形象。那么,市场上有哪些比较好的网络舆情监测系统呢?这里,本文有为各位整理了一些好用的舆情检测系统,以供各位参考!

464 0
|
10月前
|
存储 人工智能 数据库
|

面向教育场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向教育场景的大模型 RAG 检索增强解决方案,应用构建更简便,开发环境更直观。此外,PAI 平台同样发布了面向医疗、金融和法律领域的 RAG 解决方案。

552 7
来自: 人工智能平台PAI  版块
|
10月前
|
数据采集 存储 关系型数据库
|

数据采集:从何开始?

数据采集:从何开始?

475 65
|
10月前
|
人工智能 DataWorks 大数据
|

大数据AI一体化开发再加速:DataWorks 支持GPU类型资源

大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。

682 24
|
10月前
|
JSON 数据挖掘 API
|

搜款网VVIC商品列表数据接口(搜款网API系列)

搜款网(VVIC)是知名服装批发平台,开发者可通过API获取商品列表数据,用于市场调研、数据分析等。API请求通常为HTTP GET,需申请权限并提供API Key。响应数据为JSON格式,包含商品基本信息。Python示例代码展示了如何发送请求和处理响应。使用API时需确保合法合规,注意错误处理和性能优化。

252 2
|
10月前
|
数据采集 监控 大数据
|

大数据项目管理:从规划到执行的全景指南

大数据项目管理:从规划到执行的全景指南

181 4
|
10月前
|
存储 分布式计算 大数据
|

大数据与云计算:无缝结合,开启数据新纪元

大数据与云计算:无缝结合,开启数据新纪元

725 11
|
10月前
|
存储 安全 区块链
|

去中心化存储:数据存储的新范式

去中心化存储:数据存储的新范式

542 91
|
10月前
|
算法
|

基于小波变换和峰值搜索的光谱检测matlab仿真,带GUI界面

本程序基于小波变换和峰值搜索技术,实现光谱检测的MATLAB仿真,带有GUI界面。它能够对CO2、SO2、CO和CH4四种成分的比例进行分析和提取。程序在MATLAB 2022A版本下运行,通过小波分解、特征提取和峰值检测等步骤,有效识别光谱中的关键特征点。核心代码展示了光谱数据的处理流程,包括绘制原始光谱、导数光谱及标注峰值位置,并保存结果。该方法结合了小波变换的时频分析能力和峰值检测的敏锐性,适用于复杂信号的非平稳特性分析。

304 26
|
10月前
|
数据可视化 数据挖掘 大数据
|

数据可视化:让数据讲故事的力量

数据可视化:让数据讲故事的力量

389 39
|
10月前
|
存储 安全 算法
|

深入探讨区块链技术的安全性

深入探讨区块链技术的安全性

674 103
|
10月前
|
机器学习/深度学习 分布式计算 大数据
|

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。

500 15
|
11月前
|
缓存 分布式计算 资源调度
|

Spark 与 MapReduce 的 Shuffle 的区别?

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型,中间数据写入磁盘,I/O 开销大;而 Spark 使用基于内存的多阶段执行模型,支持操作合并和内存缓存,减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数,提升了性能。此外,Spark 通过 lineage 实现容错,资源管理更灵活,整体大数据处理效率更高。

642 6
来自: 大数据计算 MaxCompute  版块
|
11月前
|
自然语言处理 调度 决策智能
|

Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

Coconut提出了一种新的大语言模型推理范式,通过在潜在空间中运算,利用隐藏层生成的连续思维状态取代传统文本推理。该方法采用广度优先搜索探索多条路径,避免单一路径局限,显著提升逻辑任务性能并减少token消耗。 Coconut结合“语言模式”和“潜在模式”动态切换,通过多阶段课程学习优化推理能力,在复杂规划任务中表现卓越,尤其在GSM8k和ProsQA等任务中优于传统模型。实验表明,Coconut能有效捕获中间变量,减少幻觉错误,具备更强的推理规划能力。

477 2
|
11月前
|
数据可视化 算法 数据挖掘
|

Python时间序列分析工具Aeon使用指南

**Aeon** 是一个遵循 scikit-learn API 风格的开源 Python 库,专注于时间序列处理。它提供了分类、回归、聚类、预测建模和数据预处理等功能模块,支持多种算法和自定义距离度量。Aeon 活跃开发并持续更新至2024年,与 pandas 1.4.0 版本兼容,内置可视化工具,适合数据探索和基础分析任务。尽管在高级功能和性能优化方面有提升空间,但其简洁的 API 和完整的基础功能使其成为时间序列分析的有效工具。

362 37
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

人工智能在虚拟客服中的关键作用:提升交互体验与服务效率

人工智能在虚拟客服中的关键作用:提升交互体验与服务效率

696 90

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
67717
内容
128
活动
439502
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务