|
10月前
|
数据采集 Web App开发 存储
|

打造高效的Web Scraper:Python与Selenium的完美结合

本文介绍如何使用Python结合Selenium,通过代理IP、设置Cookie和User-Agent抓取BOSS直聘的招聘信息,包括公司名称、岗位、要求和薪资。这些数据可用于行业趋势、人才需求、企业动态及区域经济分析,为求职者、企业和分析师提供宝贵信息。文中详细说明了环境准备、代理配置、登录操作及数据抓取步骤,并提醒注意反爬虫机制和验证码处理等问题。

274 1
|
10月前
|
存储 人工智能 自然语言处理
|

云上玩转DeepSeek系列之二:PAI+DeepSeek,打造智能问答助手

本文将为您带来“PAI+DeepSeek,30分钟打造支持连网搜索+私有知识库的智能应用”最佳实践,大模型能力、联网能力再加持 RAG 方案,实现 DeepSeek 系列模型与现有业务的高效融合。

1166 16
来自: 人工智能平台PAI  版块
|
10月前
|
数据挖掘 OLAP 云计算
|

[直播预约]StarRocks 2025 Roadmap 全面解读

2月19日19:00-20:30,StarRocks TSC Member赵恒、康凯森将解读2025 Roadmap,并邀请多位专家分享最新进展。欢迎参与交流!

259 6
|
10月前
|
机器学习/深度学习 存储 人工智能
|

SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架

自反射记忆Transformer (SRMT) 是一种面向多智能体系统的记忆增强型Transformer模型,通过共享循环记忆结构和自注意力机制,优化多智能体间的协同效率与决策能力。SRMT在复杂动态环境中展现出显著优势,特别是在路径规划等任务中。实验结果表明,SRMT在记忆维持、协同成功率及策略收敛速度等方面全面超越传统模型,具备广泛的应用前景。

469 11
|
10月前
|
机器学习/深度学习 Python
|

哪些特征导致过拟合?使用ParShap 方法精准定位导致模型泛化能力下降的关键特征

本文探讨了如何识别导致模型过拟合的特征,提出了一种基于SHAP值和偏相关性的新方法——ParShap。通过分析德国健康登记数据集,作者展示了传统特征重要性无法准确反映特征在新数据上的表现,而ParShap能有效识别出过拟合特征。实验表明,移除这些特征可以显著减少过拟合现象,验证了该方法的有效性。

378 79
|
11月前
|
分布式计算 资源调度 大数据
|

Spark 如何保证宕机迅速恢复?

Spark 通过多种机制确保节点宕机时迅速恢复,主要包括:1. RDD 的 Lineage 机制,记录数据生成路径以便重计算;2. 检查点机制,持久化中间结果减少重算开销;3. 任务调度和资源管理,自动重新调度失败任务;4. 数据本地性,优先调度到数据所在节点;5. 持久化机制,将 RDD 持久化到内存或磁盘。这些机制共同保证了大数据处理的高可用性和可靠性。

319 9
|
11月前
|
分布式计算 大数据 数据挖掘
|

大数据的第一步:初学者指南

大数据的第一步:初学者指南

271 70
|
11月前
|
机器学习/深度学习 PyTorch 测试技术
|

LossVal:一种集成于损失函数的高效数据价值评估方法

LossVal是一种创新的机器学习方法,通过在损失函数中引入实例级权重,直接在训练过程中评估数据点的重要性,避免了传统方法中反复重训练模型的高计算成本。该方法适用于回归和分类任务,利用最优传输距离优化权重,确保模型更多地从高质量数据中学习。实验表明,LossVal在噪声样本检测和高价值数据点移除等任务上表现优异,具有更低的时间复杂度和更稳定的性能。论文及代码已开源,为数据价值评估提供了高效的新途径。

262 13
|
11月前
|
SQL 弹性计算 分布式计算
|

阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%

阿里云开源大数据平台 E-MapReduce 重磅推出托管弹性伸缩功能,基于 EMR 托管弹性伸缩功能,您可以指定集群的最小和最大计算限制,EMR 会持续对与集群上运行的工作负载相关的关键指标进行采样,自动调整集群大小,以获得最佳性能和资源利用率。

553 15
|
12月前
|
数据采集 人工智能 运维
|

从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践

本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案

695 3
|
12月前
|
XML 移动开发 开发者
|

京东商品详情数据接口(H5、APP 端)

京东商品详情数据接口是为H5和APP开发者提供的工具,支持获取商品名称、价格、库存、销量、评价、图片等详细信息,优化应用功能。接口返回JSON或XML格式数据,方便解析处理。适用于电商导购、社交媒体分享、活动推广、价格监控等场景,提升用户体验和购物决策效率。示例代码展示了使用Python发送GET请求的方法。

637 7
|
12月前
|
Java 数据管理 Linux
|

StarRocks元数据无法合并

StarRocks版本在3.1.4及以下,并且使用了metadata_journal_skip_bad_journal_ids来跳过某个异常的journal,会导致FE元数据无法合并。

276 2
|
18天前
|
数据采集 人工智能 搜索推荐
|

AI 问答占 52%!长沙别墅装修 GEO 突围:30 天引用率暴涨 40%

周有贵,巴黎学院人工智能博士,GGI商学院GEO首席技术专家,专注AI时代数字营销革新。2025年12月1日,长沙著名别墅设计师张主华专程拜访交流,共探GEO技术在装修设计行业中的AI引流逻辑与实操应用。面对生成式AI问答入口占比突破52%的新趋势,传统SEO正被GEO取代——从链接点击到答案呈现,企业需通过构建灯塔内容、E-E-A-T信任链与结构化数据,让品牌信息被AI优先引用。本次对话揭示:未来流量之争,本质是“被AI推荐”的能力之争。

132 11
|
19天前
|
存储 分布式计算 数据库
|

ETL vs ELT:到底谁更牛?别被名字骗了,这俩是两种世界观

ETL vs ELT:到底谁更牛?别被名字骗了,这俩是两种世界观

111 12
|
21天前
|
Shell 网络安全 开发工具
|

IDEA中Git使用http协议和ssh协议的区别

IDEA中Git使用http协议和ssh协议的区别

119 4
|
21天前
|
Prometheus Kubernetes 调度
|

Kubernetes 调度策略深度拆解:我如何帮团队省下 90% 的资源成本

Kubernetes 调度策略深度拆解:我如何帮团队省下 90% 的资源成本

113 8
|
1月前
|
人工智能 机器人 定位技术
|

隔壁火锅店天天排队,老板悄悄做了这件事?

成都火锅店两周营业额提升38%?秘诀是GEO优化!AI搜索时代,让店铺被推荐成“附近首选”。从信息标记到场景内容布局,三步打造AI推荐门店。别再等顾客找你,让AI把客流送到门口。

167 0
来自: 智能搜索推荐  版块
|
1月前
|
数据采集 存储 算法
|

数据资产上账记:企业如何把“看不见的数据”变成“看得见的资产”?

数据资产上账记:企业如何把“看不见的数据”变成“看得见的资产”?

106 10
|
1月前
|
监控 算法 API
|

速卖通商品详情API文档

速卖通商品列表API(aliexpress.item_search)支持关键词搜索、类目筛选与多维度排序,可批量获取商品标题、价格、销量等信息,适用于比价、选品及库存监控。采用AppKey+Token认证,保障数据安全,助力电商自动化运营。

107 1
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
|

数据中台的进化之路:从“管数据”到“懂业务”

数据中台的进化之路:从“管数据”到“懂业务”

184 3
|
2月前
|
算法 数据挖掘 大数据
|

别光努力发内容了,先把“数据眼”睁开:用数据放大你的社交媒体影响力

别光努力发内容了,先把“数据眼”睁开:用数据放大你的社交媒体影响力

115 8
|
2月前
|
机器学习/深度学习 人工智能 安全
|

当AI开始自己写AI:自主AI系统的时代正在到来

当AI开始自己写AI:自主AI系统的时代正在到来

259 92
|
2月前
|
人工智能 缓存 并行计算
|

用数学重构 AI的设想:流形注意力 + 自然梯度优化的最小可行落地

本文提出两个数学驱动的AI模块:流形感知注意力(D-Attention)与自然梯度优化器(NGD-Opt)。前者基于热核偏置,在局部邻域引入流形结构,降低计算开销;后者在黎曼流形上进行二阶优化,仅对线性层低频更新前置条件。二者均提供可复现代码与验证路径,兼顾性能与工程可行性,助力几何感知的模型设计与训练。

272 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|

当医生“上云端”:AI让远程医疗诊断更懂人心

当医生“上云端”:AI让远程医疗诊断更懂人心

291 8
|
2月前
|
JSON 监控 API
|

从0到1掌握京东API:商品详情获取技巧与避坑指南

京东商品详情API提供商品基础信息、实时价格、SKU规格等120+字段,支持价格监控与竞品分析。采用HTTPS协议,响应延迟≤30秒,具备高并发能力,适用于电商数据应用。

203 0
|
2月前
|
人工智能 算法 大数据
|

别让“热搜”骗了你:大数据如何让新闻更真实?

别让“热搜”骗了你:大数据如何让新闻更真实?

225 17
|
2月前
|
JSON 缓存 API
|

淘宝天猫商品详情API秘籍!轻松获取SKU属性数据

淘宝商品详情API(taobao.item.get)可获取商品标题、价格、SKU、库存等全量信息,支持RESTful调用,返回JSON数据,适用于电商导购与竞品分析。需企业实名认证,申请权限后通过签名加密请求。Python示例展示如何调用接口,配合fields参数可优化性能,应对频率限制与数据延迟建议轮询+缓存策略。

311 7
|
3月前
|
数据采集 关系型数据库 MySQL
|

python爬取数据存入数据库

Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。

158 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|

炒股还靠“拍脑袋”?用数据预测市场波动才是真本事!

炒股还靠“拍脑袋”?用数据预测市场波动才是真本事!

252 9
|
3月前
|
JavaScript Java 关系型数据库
|

基于springboot的校内跑腿管理系统

针对校园跑腿服务效率低、信任难等问题,本研究设计基于Spring Boot与Vue的校内跑腿管理系统,融合MySQL数据库与智能化调度技术,实现任务发布、智能匹配、实时追踪与评价反馈一体化,提升服务效率与质量,助力智慧校园建设。

238 0
|
3月前
|
机器学习/深度学习 人工智能 运维
|

看得见的智慧:聊聊计算机视觉如何优化城市基础设施

看得见的智慧:聊聊计算机视觉如何优化城市基础设施

187 4
|
3月前
|
JavaScript Java 关系型数据库
|

基于springboot的计算机在线考试管理系统

本系统基于Spring Boot、Java、Vue与MySQL,构建高效安全的在线考试管理平台,推动教育信息化发展。

160 0
|
3月前
|
JSON 供应链 监控
|

1688商品详情API技术深度解析:从接口架构到数据融合实战

1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。

259 6
|
3月前
|
JSON 监控 API
|

京东商品数据获取新姿势:商品列表API参数全解析

京东商品列表API是京东开放平台的核心接口,支持开发者高效获取商品名称、价格、销量等信息,适用于电商分析、价格监控等场景。提供关键词搜索、分类筛选、价格区间、排序及分页功能,支持HTTPS请求,数据实时更新,单次可查询最多200个SKU,助力电商应用开发。

189 0
|
3月前
|
JSON 监控 供应链
|

京东商品详情API参数构造指南:必填参数与自定义字段配置

京东商品详情API由京东开放平台提供,支持获取商品基础信息、价格库存、SKU规格等120+字段,适用于价格监控、库存管理等场景。接口采用HTTPS协议、JSON格式,数据延迟≤30秒,支持高并发。提供Python请求示例,便于快速接入。

185 0
|
3月前
|
数据采集 监控 Shell
|

无需Python:Shell脚本如何成为你的自动化爬虫引擎?

Shell脚本利用curl/wget发起请求,结合文本处理工具构建轻量级爬虫,支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性,适用于日志监控、价格追踪等场景。相比Python,具备启动快、资源占用低的优势,适合嵌入式或老旧服务器环境,复杂任务可结合Python实现混合编程。

170 0
|
3月前
|
运维 安全 Linux
|

【清爽加速】Windows 11 Pro 24H2-Emmy精简系统

“清爽加速”Windows 11 Pro 24H2 针对老旧或低配设备,通过精简系统、优化服务与简化装机流程,降低资源占用,提升运行流畅度,兼顾安全性与稳定性,让老设备也能轻松应对日常办公与轻度娱乐需求。

216 1
|
4月前
|
自然语言处理 5G 语音技术
|

5G加持下的实时翻译:从“卡顿”到“秒懂”的进化之路

5G加持下的实时翻译:从“卡顿”到“秒懂”的进化之路

170 1
|
4月前
|
存储 分布式计算 数据处理
|

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。

521 0
来自: 实时计算 Flink  版块
|
4月前
|
传感器 机器学习/深度学习 人工智能
|

从铁钩到“仿生手”:AI正在重写假肢的未来

从铁钩到“仿生手”:AI正在重写假肢的未来

239 4
|
4月前
|
存储 数据采集 搜索推荐
|

Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)

本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。

196 0
|
4月前
|
前端开发 JavaScript API
|

深度剖析epub reader for mac:原理、兼容性与工程实现全解读

数字内容正重塑阅读方式,而EPUB作为开放电子书标准,在Mac平台的体验却参差不齐。本文从工程师视角解析EPUB文件结构、渲染机制与跨平台兼容难题,探讨为何同一EPUB文件在不同阅读器中呈现效果迥异,涉及字体、排版、目录、多媒体支持等技术细节,并结合用户反馈与开发实践,揭示提升EPUB阅读体验的关键路径。

297 0
|
4月前
|
前端开发 Java API
|

利用 Spring WebFlux 技术打造高效非阻塞 API 的完整开发方案与实践技巧

本文介绍了如何使用Spring WebFlux构建高效、可扩展的非阻塞API,涵盖响应式编程核心概念、技术方案设计及具体实现示例,适用于高并发场景下的API开发。

396 0
|
4月前
|
JSON 监控 供应链
|

京东SPU/SKU数据接口全解读:商品详情API文档

京东开放平台商品详情API提供标准化接口,支持获取SPU/SKU信息,适用于价格监控、库存管理等场景。支持HTTPS与JSON格式,具备高效性与扩展性。

251 0
|
4月前
|
缓存 JSON 算法
|

1688 商品详情接口开发实战:从平台特性到高可用实现

本文深入解析了1688平台商品详情接口的技术实现,涵盖参数设计、签名机制、数据解析等内容,并结合代码示例展示如何构建适用于B2B业务场景的接口调用系统。重点突出其批发属性、供应商信息、多规格支持及定制化能力等B2B特性,帮助开发者高效对接1688开放平台。

313 0
|
4月前
|
PyTorch 编译器 算法框架/工具
|

TorchDynamo源码解析:从字节码拦截到性能优化的设计与实践

本文深入解析PyTorch中TorchDynamo的核心架构与实现机制,结合源码分析,为开发者提供基于Dynamo扩展开发的技术指导。内容涵盖帧拦截、字节码分析、FX图构建、守卫机制、控制流处理等关键技术,揭示其动态编译优化原理与挑战。

325 0
|
5月前
|
API 开发工具 开发者
|

API测评:快速获取门店客流趋势数据

本文介绍了一个门店客流趋势API,帮助创业者和开发者便捷获取门店客流数据。只需提供场景ID和查询时间段,即可获取详细客流分析数据,包括日均、总客流、外卖客流及竞品对比等,助力门店高效运营与决策分析。

239 0
|
5月前
|
存储 搜索推荐 算法
|

Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)

本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。

266 0
|
5月前
|
人工智能 Cloud Native Java
|

Java 技术栈企业级应用开发全流程

本指南通过构建企业级电商系统,全面解析现代化Java技术栈实战应用。涵盖Spring Boot 3、微服务架构、云原生部署、服务治理、监控可观测性及AI集成,助开发者掌握全流程开发技能,打造高效可扩展的企业级应用。

351 0
|
5月前
|
数据处理 Apache 流计算
|

Flink Forward Asia 2025 城市巡回 · 上海站

Flink Forward Asia 2025 城市巡回上海站重磅来袭!8月16日,顶尖技术专家齐聚,共探实时计算前沿趋势与行业实践。大会涵盖技术分享、实战案例与开源生态共建,支持线上直播预约。立即报名,共赴技术盛宴!

423 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

6
今日
67719
内容
128
活动
439502
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务