|
11月前
|
数据采集 存储 监控
|

实战案例:采集 51job 企业招聘信息

本文基于Feapder框架,从零开始搭建企业级招聘信息爬虫管道。内容涵盖基础概念(数据管道与Feapder特点)、生动比喻(快递系统类比爬虫流程)、技术场景(代理IP、Cookie管理)及实战案例(采集51job岗位信息并分类存储)。通过完整代码示例,展示如何配置代理、自定义中间件及Pipeline。无论产品经理还是学生,均可轻松上手,构建高效稳定的爬虫系统。

668 10
|
11月前
|
存储 数据管理 数据格式
|

数据治理 vs. 数据管理:别再傻傻分不清!

数据治理 vs. 数据管理:别再傻傻分不清!

534 10
|
11月前
|
JSON 搜索推荐 API
|

京东商品详情API接口攻略

本文介绍如何使用京东商品详情API获取商品信息,包括名称、价格、规格和用户评价等。该API基于RESTful设计,支持HTTP POST/GET请求,返回JSON格式数据。文章提供了Python请求示例,涵盖参数配置、签名生成与错误处理,帮助开发者快速集成并构建比价工具或推荐系统等应用。通过调整`param_json`参数,可灵活获取所需商品详情信息。

330 4
|
11月前
|
JSON 监控 API
|

深度解析淘宝天猫店铺所有商品API接口,一文带你吃透

本文介绍如何通过淘宝开放平台的API获取店铺所有商品信息,适用于电商数据分析、竞品监控等场景。核心接口为`tb.items.onsale.get`(出售中商品)和`tb.items.inventory.get`(库存商品列表)。接口采用HTTP POST请求,返回JSON格式数据,包含商品总数、列表及各商品的ID、标题、价格、图片URL等关键信息,并提供Python实现示例,助力开发者高效获取与处理数据。

411 3
|
11月前
|
SQL 安全 大数据
|

大数据时代的安全挑战——数据泄露如何悄然发生?

大数据时代的安全挑战——数据泄露如何悄然发生?

453 18
|
11月前
|
JSON API 数据格式
|

淘宝天猫商品列表API接口(附代码示例)

淘宝天猫商品列表API接口是获取淘宝/天猫商品数据的工具,支持按关键词、价格区间、销量等条件筛选商品,返回商品标题、价格、销量等基本信息,适用于商品分析与竞品调研。使用时需注册开发者账号并调用HTTP GET/POST请求,响应数据为JSON格式。示例代码展示了如何用Python发送请求并处理返回数据。

366 18
|
11月前
|
机器学习/深度学习 PyTorch 数据处理
|

PyTorchVideo实战:从零开始构建高效视频分类模型

本文详细介绍了基于PyTorchVideo和PyTorch Lightning构建视频分类模型的全流程。通过Kinetics数据集,利用3D ResNet-50实现高效动作识别。教程涵盖数据加载与增强、模型构建及训练流程,结合两大框架优势,简化开发复杂度并提升性能,为视频理解任务提供完整解决方案。

524 3
|
11月前
|
JSON 数据挖掘 API
|

抖音电商新篇章:douyin.item_video API接口的介绍

抖音视频列表API接口简介:随着短视频发展,抖音成为全球重要平台,其视频数据对开发者、创作者和分析师意义重大。该API支持按关键词、分类等方式获取视频列表,通过HTTP请求(如GET)返回JSON格式数据,包含视频ID、播放量、作者信息等,助力构建推荐系统、分析趋势及挖掘用户行为,实现高效合法的数据利用。

810 1
|
11月前
|
人工智能 分布式计算 大数据
|

大数据& AI 产品月刊【2025年4月】

大数据& AI 产品技术月刊【2025年4月】,涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

424 2
|
11月前
|
数据采集 运维 数据可视化
|

别再靠拍脑袋了!搞懂数据治理框架,企业才有未来

别再靠拍脑袋了!搞懂数据治理框架,企业才有未来

357 11
|
12月前
|
人工智能 边缘计算 搜索推荐
|

5G+教育=未来课堂?一文讲透5G如何颠覆教学现场

5G+教育=未来课堂?一文讲透5G如何颠覆教学现场

322 5
|
12月前
|
数据采集 XML 存储
|

Headers池技术在Python爬虫反反爬中的应用

Headers池技术在Python爬虫反反爬中的应用

485 0
|
12月前
|
搜索推荐 API 开发者
|

京东商品列表 API 接口全解析:从入门到精通

京东商品列表API是京东开放平台为开发者提供的核心数据接口,支持批量获取商品基础信息、价格、库存状态等多维度数据。它具备数据丰富性、灵活筛选与分页查询、稳定高效等特点,可满足市场分析、选品优化、比价工具及推荐系统开发等需求,为电商业务创新提供坚实支撑。通过标准化通道,助力第三方高效、合法地利用京东海量商品数据。

435 3
|
12月前
|
JSON API 数据格式
|

深入研究:Shopee 商品详情 API 接口详解

Shopee 商品详情 API 是针对东南亚及中国台湾地区电商开发者的强大工具,可获取商品的详细信息(如价格、库存、描述等),支持竞品分析与市场调研。通过 HTTP GET/POST 请求,传入商品 ID 等参数,返回 JSON 格式的商品数据,包括基本信息、销售数据、商家信息等。以下是 Python 示例代码,展示如何使用 requests 库调用该接口并处理响应数据。注意实际应用需遵循 Shopee 认证要求。

542 1
|
12月前
|
安全 JavaScript 前端开发
|

引流器即服务(Drainer-as-a-Service)的兴起 | 了解引流器即服务(DaaS)

近期,X(原推特)平台遭遇一波账号接管攻击,多个知名账户被入侵以传播窃取加密货币的恶意内容。这些攻击主要依赖“加密货币引流器”及“引流器即服务”(DaaS)平台实施。DaaS提供现成脚本、智能合约等工具,帮助攻击者从受害者钱包中转移资产。2021年起,此类威胁逐渐兴起,但未引起足够关注。文章深入分析了DaaS运作模式及其影响,并以CLINKSINK恶意软件为例剖析具体攻击手法。为防范此类威胁,建议启用多因素认证(MFA),警惕社会工程学手段,使用硬件钱包提升安全性。DaaS因低门槛、高回报特点,可能吸引更多恶意参与者,需持续关注其演变趋势。

214 0
|
12月前
|
机器学习/深度学习 运维 算法
|

从算法菜鸟到挖掘达人:数据挖掘的算法大冒险

从算法菜鸟到挖掘达人:数据挖掘的算法大冒险

383 18
|
12月前
|
API 开发者 Python
|

深入研究:1688商品跨境属性API接口详解

本文介绍了如何通过 1688 商品跨境属性 API 获取商品的跨境相关数据,助力企业开展电商业务。文章分为三部分:引言阐述了接口的重要性及应用场景;接口概述详细说明了调用步骤,包括参数准备、签名生成、请求发送和响应处理;Python 请求示例提供了一个完整的代码实现,帮助开发者快速上手。示例代码涵盖了请求参数配置、签名生成逻辑以及使用 requests 库发送请求的过程,为实际应用提供了参考。

2902 13
|
12月前
|
XML JSON 监控
|

深入研究:1688 商品列表 API 详解

1688商品列表API为电商数据分析、竞品调研等场景提供程序化数据获取方式。通过关键词、价格区间、销量范围及类目等条件筛选商品,返回商品标题、价格、销量等基本信息。支持HTTP GET/POST请求,响应格式为JSON或XML,助力业务分析与决策。

250 4
|
12月前
|
XML JSON API
|

深入研究:1688 商品详情 API 详解

1688商品详情API助力电商数据分析与决策!通过该接口,开发者可基于商品ID快速获取1688平台上商品的标题、价格、规格、图片等多维信息。企业能优化商品策略,提升竞争力。使用前需注册开发者账号、创建应用并申请权限,调用时传入必要参数(如app_key和商品ID),返回JSON/XML格式数据,涵盖商品基本信息、描述、图片及商家资料等内容。

336 0
|
12月前
|
存储 消息中间件 分布式计算
|

Hologres实时数仓在B站游戏的建设与实践

本文介绍了B站游戏业务中实时数据仓库的构建与优化过程。为满足日益增长的数据实时性需求,采用了Hologres作为核心组件优化传统Lambda架构,实现了存储层面的流批一体化及离线-实时数据的无缝衔接。文章详细描述了架构选型、分层设计(ODS、DWD、DIM、ADS)及关键技术挑战的解决方法,如高QPS点查、数据乱序重写等。目前,该实时数仓已广泛应用于运营分析、广告投放等多个场景,并计划进一步完善实时指标体系、扩展明细层应用及研发数据实时解析能力。

779 0
来自: 实时数仓 Hologres  版块
|
12月前
|
数据采集 搜索推荐 API
|

Python 原生爬虫教程:京东商品列表页面数据API

京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。

646 5
|
12月前
|
前端开发 Linux Docker
|

docker的安装使用0废话版本自学软硬件工程师778天

win11怎么安装docker的必要设置自学软硬件工程师778天

270 0
|
12月前
|
搜索推荐 数据挖掘 数据安全/隐私保护
|

频率派与贝叶斯统计在营销组合建模中的应用比较:隐私优先时代的方法选择

营销组合建模(MMM)是量化营销渠道贡献的核心工具,在数字营销进入隐私优先时代后焕发新生。文章探讨了频率派与贝叶斯统计学在MMM中的应用,前者实现简单、结果直观,适合数据充足场景;后者能整合先验知识、量化不确定性,适应复杂和数据稀缺情况。两者各有优劣,选择需结合业务需求与数据条件。贝叶斯方法在隐私保护趋势下尤为重要,为未来营销分析提供新思路。

321 47
|
30天前
|
Java
|

java工具:《Java日期格式化完全指南:从Date到String的优雅转换》

java工具:《Java日期格式化完全指南:从Date到String的优雅转换》

112 1
|
1月前
|
Java
|

java工具:检测一个字符串是否是时间格式

java工具:检测一个字符串是否是时间格式

113 6
|
1月前
|
Java
|

java工具:日期毫秒数转日期字符串

java工具:日期毫秒数转日期字符串

123 6
|
2月前
|
数据采集 Go 开发者
|

Go语言高并发采集:Goroutine配合隧道代理的极致性能体验

本文探讨了使用Go语言和隧道代理技术实现高并发数据采集的方法。Go的轻量级并发和非阻塞I/O特性,结合隧道代理的IP轮换优势,可大幅提升采集效率并降低维护成本。文章提供了Go代码示例,展示了如何配置http客户端使用隧道代理,并强调了性能优化技巧,如连接池复用、Channel限流、错误重试和上下文控制

103 2
|
2月前
|
人工智能 自然语言处理 小程序
|

你的祝福AI真的好吗?三个维度量化“走心”的秘密

春节将至,AI祝福工具泛滥,但真“走心”吗?本文揭秘评估关键:**事实准确性**(细节不编造)、**风格契合度**(对父母/老板用不同语气)、**表达自然度**(像人话,不堆成语)。告别BLEU等传统指标,用三维标准科学打分,避开“智商税”。

145 4
|
2月前
|
缓存 人工智能 弹性计算
|

祝福发送也疯狂:秒级响应的速度奥秘

春节祝福需秒级响应!本文详解高并发下AI祝福生成的提效方案:优选7B小模型、INT4量化提速5倍、批处理提升吞吐、vLLM推理优化、弹性云部署+CDN缓存,多管齐下实现高质量与飞速响应兼得。

104 1
|
2月前
|
安全 搜索推荐 物联网
|

微调后模型“记住用户信息”,通常发生在什么阶段

本文揭示模型“记住用户信息”并非突发事故,而是贯穿预训练、SFT、LoRA微调、偏好对齐等七阶段的渐进式演化过程。关键在于:**不是模型学会了记忆,而是训练中持续奖励“具体化”,使用户特征被逐步绑定、放大并合法化。** 风险隐蔽且无明显红线,需在各环节警惕“身份可推断性”。

109 4
|
2月前
|
C++ 容器
|

切分粒度,如何影响 TopK 的风险分布

RAG系统问题常被归咎于TopK调参,实则根源在文档切分粒度——它预先决定了风险类型(缺失型/冲突型)与分布形态(分散或集中)。TopK只是放大器,而非成因。优化切分才是治本之策。

103 12
|
2月前
|
数据库 C++
|

相似度搜索 ≠ 语义理解:向量数据库的能力边界

本文直击RAG系统常见误区:向量数据库只解决“相似性检索”,不等于“语义理解”。它能高效召回“看起来相关”的内容,但无法判断概念等价、逻辑冲突、条件限制或信息可用性。混淆二者是多数故障根源。正确认知其边界,方能工程化落地。

136 3
|
2月前
|
SQL 人工智能 运维
|

人机共生时代:AI 不是敌人,而是一起扛活的伙伴

人机共生时代:AI 不是敌人,而是一起扛活的伙伴

143 7
|
2月前
|
C++
|

从“能跑通微调”到“敢上线模型”,中间差了什么

本文揭示微调项目常卡在“能跑通却不敢上线”的困境,指出从训练成功到真实交付之间存在六道关键鸿沟:行为不确定性、极端风险、系统视角缺失、失控预案空白、用户视角缺位与模型冻结勇气不足。上线靠的不是模型多好,而是你是否已将不确定性关进笼子。

120 3
|
3月前
|
监控 API
|

金融行情系统中,API 接入常见的 5 个工程问题

本文以黄金、白银等高波动贵金属行情为例,剖析金融系统在API接入层面的五大典型工程问题:数据延迟放大、单点依赖风险、多源维护成本高、异常处理分散、缺乏统一接入层。强调统一、可控、可演进的API设计对系统稳定性与长期演进的关键价值。

174 5
来自: 大数据计算 MaxCompute  版块
|
3月前
|
运维 量子技术 芯片
|

一条走“低温暴力美学”,一条玩“光速优雅路线”:聊聊超导量子比特和光子量子比特

一条走“低温暴力美学”,一条玩“光速优雅路线”:聊聊超导量子比特和光子量子比特

127 6
|
3月前
|
搜索推荐 C++ 索引
|

RAG 的失败,大多在“切文档”那一刻就已经注定

RAG项目常败在文档切分:切得过小导致语义断裂,固定长度破坏表格/列表/步骤等关键结构。真正决定效果的,不是模型或向量库,而是chunk是否具备“语义完整性”——能否独立支撑答案。切分应以“生成可用性”为第一标准,而非检索便利性。

131 4
|
3月前
|
数据采集 人工智能 监控
|

解析规则交给 AI,是效率提升还是系统隐患?

本文通过严谨的A/B实验,对比人工编写与大模型生成HTML解析规则在真实爬虫场景中的表现。结果显示:大模型虽初筛成功率尚可(92%),但面对页面改版、多地区代理等常见变化时稳定性骤降(失败率升至35%),且易引入静默错误。结论明确:大模型宜作规则“候选生成器”,而非生产环境“唯一决策者”。

111 1
|
3月前
|
SQL 机器学习/深度学习 运维
|

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

179 13
|
3月前
|
量子技术 芯片 异构计算
|

量子芯片为什么这么难造?从“画电路”到“跑量子态”,中间全是坑

量子芯片为什么这么难造?从“画电路”到“跑量子态”,中间全是坑

208 3
|
3月前
|
人工智能 自然语言处理 机器人
|

别错过商机!智能体降临,携手智创未来商业传奇

AI智能体正推动商业范式革命:“一人公司”崛起、主动获客成常态、垂直场景成蓝海。它不止优化流程,更重构生意逻辑,降低创业门槛,释放“超级个体”潜能。(239字)

122 0
|
3月前
|
人工智能 算法 机器人
|

智能体来了,智创未来,科技的下一个奇点在哪?

自1956年达特茅斯会议以来,AI历经起伏。如今,具备自主规划、长期记忆与工具调用能力的智能体(Agent)正推动我们逼近科技奇点:从模仿人类转向自我演进、群体涌现与自动科学发现。开发者使命亦升维——成为目标对齐者与数字伦理构建者。奇点,始于每个智能体的理性进化。(239字)

118 1
|
3月前
|
数据安全/隐私保护 流计算
|

pyflink在读取hdfs文件的时候如何使用通配符?

538 0
来自:实时计算 Flink 版块
|
3月前
|
混合部署
|

软件授时和 NTP 硬件时间服务器,项目里该怎么选

项目中多套系统、设备时间未统一,导致日志、视频等时间不一致,排查困难。经分析,采用专用授时设备NTS-886003作为内部唯一时间源,实现全系统统一对时,解决时间偏差问题。

116 0
|
3月前
|
数据可视化 BI 定位技术
|

选择合适的工具

选择合适工具(如Excel、Tableau、Python等)进行数据可视化,确保数据清洁、结构合理。根据分析目标选用折线图、柱状图、散点图等图表类型,设计时优化颜色、字体、标签等视觉元素,提升可读性。通过代码示例实现图表并验证效果,确保信息准确传达。

101 8

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69319
内容
128
活动
439807
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务