|
8月前
|
分布式计算 Java 关系型数据库
|

二、Sqoop 详细安装部署教程

在大数据开发实战中,Sqoop 是数据库与 Hadoop 生态之间不可或缺的数据传输工具。这篇文章将以 Sqoop 1.4.7 为例,结合官方站点截图,详细讲解 Sqoop 的下载路径、安装步骤、环境配置,以及常见 JDBC 驱动的准备过程,帮你一步步搭建出能正常运行的 Sqoop 环境,并通过 list-databases 命令验证安装是否成功。如果你正打算学习 Sqoop,或者在搭建大数据平台过程中遇到安装配置问题,本文将是非常实用的参考指南。

833 6
|
8月前
|
XML JSON 算法
|

京东商品 SKU 信息接口(jingdong.ware.sku.get)技术干货:数据拉取、规格解析与字段治理(附踩坑总结 + 可运行代码)

本文详解京东商品SKU接口对接技术,涵盖核心参数、权限申请、签名生成、规格解析及常见坑点解决方案,结合可运行代码与实战经验,助力开发者高效集成SKU数据,实现库存、价格等关键信息精准获取。

652 1
|
8月前
|
自然语言处理 前端开发 安全
|

别人还在摸索,你用这篇Hoobuy淘宝代购集运系统搭建攻略开拓欧美反向海淘市场!

淘宝代购集运系统为海外用户提供一站式中国电商购物解决方案,集成商品抓取、多语言展示、本地支付、国际物流与订单追踪功能,支持多平台数据同步与合规运营,通过技术整合破解语言、支付、物流难题,助力逆向海淘高效便捷。

560 1
|
8月前
|
人工智能 JSON 测试技术
|

AI智能体开发实战:从提示工程转向上下文工程的完整指南

曾被热捧的提示工程正逐渐退潮,本文揭示其局限性,并提出“上下文工程”新范式:通过结构化提示、精准上下文管理、工具调用与统一状态,构建可扩展、可恢复、生产级的智能体工作流,推动AI系统迈向工程化与可控化。

948 9
|
8月前
|
数据采集 数据库 索引
|

新闻网站的数据采集与更新思路

该方案设计了一个跨站点的增量更新引擎,用于高效采集央视新闻、中国新闻网和环球网等多源新闻数据。通过代理IP和内容哈希签名技术,实现新闻的新增与更新检测,大幅降低冗余抓取和带宽消耗。实验表明,该方法在多源新闻采集中具备高效性和实用性,可拓展为行业级舆情雷达系统,支持事件追踪与趋势分析。

547 2
|
9月前
|
机器学习/深度学习 监控 大数据
|

数据当“安全带”:金融市场如何用大数据玩转风险控制?

数据当“安全带”:金融市场如何用大数据玩转风险控制?

521 10
|
9月前
|
算法 Linux
|

数据分布平滑化技术:核密度估计KDE解决直方图不连续问题

核密度估计(KDE)通过平滑处理解决直方图密度估计中的不连续问题,提供连续密度函数。其核心在于使用核函数对数据点进行加权,避免区间划分带来的信息丢失。带宽参数h影响估计效果,过小导致波动大,过大则过度平滑。常用核函数包括高斯核与Epanechnikov核,实际应用中可借助Statsmodels或Seaborn库快速实现。

582 0
|
9月前
|
机器学习/深度学习 存储 人工智能
|

RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南

本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。

732 10
|
9月前
|
数据采集 人工智能 分布式计算
|

训练效率提升100%!阿里云后训练全栈解决方案发布实录

阿里云大数据AI平台推出大模型后训练解决方案,通过全栈AI能力提供从算力到平台的一体化支撑,提升训练效率100%,适配多行业需求,打通大模型落地“最后一公里”。

697 0
|
9月前
|
分布式计算 MaxCompute
|

DBeaver连接MaxCompute权限问题

381 1
来自:大数据计算 MaxCompute 版块
|
9月前
|
机器学习/深度学习 人工智能 算法
|

GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题

这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破

1873 0
|
10月前
|
JSON Java API
|

如何获取sku详情信息

`item_sku`接口用于获取商品的SKU详细信息,支持通过商品ID和SKU ID查询。提供公共参数及请求参数说明,并包含请求和响应示例。支持多种开发语言,如Curl、PHP、JAVA等,适用于电商应用开发。

541 0
|
10月前
|
Java 编译器 数据安全/隐私保护
|

Java 大学期末考试真题与答案 含知识点总结 重难点归纳及题库汇总 Java 期末备考资料

本文汇总了Java大学期末考试相关资料,包含真题与答案、知识点总结、重难点归纳及题库,涵盖Java基础、面向对象编程、异常处理、IO流等内容,并提供完整代码示例与技术方案,助你高效复习备考。

962 3
|
10月前
|
存储 缓存 Apache
|

Apache Iceberg数据湖高级特性及性能调优

性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率,结合文件内/间排序优化I/O与压缩,辅以Z-Order实现多维数据聚集。同时,合理配置元数据缓存与清单合并,加速查询规划。适用于点查、全表扫描及高并发写入场景,显著提升系统性能与资源利用率。

993 0
|
11月前
|
机器学习/深度学习 存储 算法
|

SMOTE-XGBoost实战:金融风控中欺诈检测的样本不平衡解决方案

本文深入探讨金融支付风控领域中的欺诈检测问题,针对样本不平衡的核心痛点,提出一种基于动态密度SMOTE算法的改进方案,并结合优化后的XGBoost模型实现高性能检测。相比传统方法,本文方案在IEEE-CIS数据集上显著提升Recall(达0.85)和AUC-PR(达0.72),同时控制推理时延在合理范围。文章还详细解析特征工程体系、在线推理优化及动态阈值调整机制,并展望联邦学习与图神经网络等未来方向,为实际业务应用提供全面指导。

805 1
|
11月前
|
数据采集 人工智能 编解码
|

2025年颠覆闭源大模型?MonkeyOCR:这款开源AI文档解析模型,精度更高,速度更快!

还在依赖昂贵且慢的闭源OCR工具?华中科技大学开源的MonkeyOCR文档解析模型,以其超越GPT4o的精度和更快的推理速度,在单机单卡(3090)上即可部署,正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集,并分享实测体验与避坑指南。

2519 87
|
11月前
|
定位技术
|

安徽京准分享:北斗RDSS授时和北斗授时RNSS的区别

安徽京准分享:北斗RDSS授时和北斗授时RNSS的区别

1859 15
|
11月前
|
IDE 开发工具 开发者
|

使用DevEcoStudio 开发、编译鸿蒙 NEXT_APP 以及使用中文插件

# 使用DevEcoStudio 开发、编译鸿蒙 NEXT_APP 以及使用中文插件 #鸿蒙开发工具 #DevEco Studio

1088 1
|
12月前
|
人工智能 分布式计算 大数据
|

MCP、MaxFrame与大数据技术全景解析

本文介绍了 MCP 协议、MaxFrame 分布式计算框架以及大数据基础设施建设的相关内容。MCP(Model Context Protocol)是一种开源协议,旨在解决 AI 大模型与外部数据源及工具的集成问题,被比喻为大模型的“USB 接口”,通过统一交互方式降低开发复杂度。其核心架构包括 Client、Server、Tool 和 Schema 四个关键概念,并在百炼平台中得到实践应用。MaxFrame 是基于 Python 的高性能分布式计算引擎,支持多模态数据处理与 AI 集成,结合 MaxCompute 提供端到端的数据处理能力。

829 5
来自: 大数据计算 MaxCompute  版块
|
12月前
|
SQL DataWorks 大数据
|

DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。

711 6
|
27天前
|
负载均衡 搜索推荐 应用服务中间件
|

#Nginx教程 Nginx作为目前最流行的高性能Web服务器和反向代理服务器,凭借其高并发、低内存消耗的特点,被广泛应用于各类生产环境。本文将从零开始,带你快速掌握Nginx的核心配置与实战技巧。

本教程详解Nginx安装、核心配置、反向代理、负载均衡与HTTPS部署,并内嵌标准JSON-LD结构化数据(Article/BreadcrumbList/WebPage等),助力SEO优化与搜索富摘要展现,提升点击率。

311 2
来自: 大数据计算 MaxCompute  版块
|
29天前
|
弹性计算 前端开发 关系型数据库
|

多平台无缝对接!taocarts技术解密:一键打通Shopify/Coupang等海外渠道

在跨境代购行业,“多渠道布局”已成为从业者的核心竞争力——仅做单一平台的代购,难以实现规模化增长,而打通多海外平台,实现商品、订单同步,成为代购系统开发的核心需求。taocarts跨境独立站系统依托React Native、Express.js等技术,实现一键上传商品至Shopify、Coupang、Woo商城、Base商城,同步订单并自动采购,彻底解决代购从业者“多平台运营繁琐”的痛点,以下从技术实现层面,为阿里云社区开发者提供干货分享。

177 1
|
1月前
|
数据采集 人工智能 自然语言处理
|

快速接入京东商品评论API,商品口碑监测与舆情风控

依托京东官方评价API,融合AI/NLP技术,构建“采集—分析—预警—决策”全链路口碑风控体系:实时监测情感倾向与负面问题,智能分级预警,支持归因分析与工单处置,助力品牌从被动响应转向主动运营。(239字)

205 7
|
1月前
|
存储 搜索推荐 PyTorch
|

为什么使用 TorchRec 训练和推理更快

本文结合TorchEasyRec实践,从四大维度解析推荐系统加速:1)KeyedJaggedTensor统一变长特征,实现Embedding批量融合查找;2)自动分布式分片突破单卡显存瓶颈;3)TrainPipelineSparseDist流水线并行,重叠通信与计算;4)fbgemm-gpu融合优化器,减少显存访问。端到端提升训练效率与扩展性。

320 9
来自: 智能搜索推荐  版块
|
1月前
|
机器学习/深度学习 自然语言处理 iOS开发
|

Feature Generator(FG)特征算子配置指南

本文档全面介绍Feature Generator(FG)的各类特征算子配置方法,涵盖基础(ID/原始特征)、计算(表达式)、交叉(组合)、查找(Lookup/Match)、文本(重叠/BM25)、序列、预处理(分词/归一化)及字符串处理(正则替换/切片)等9大类算子,附详细配置示例与说明。

339 9
来自: 智能搜索推荐  版块
|
2月前
|
芯片
|

电子工程师必看!2串双节锂电池保护芯片PW7120,应用与选型指南

PW7120采用SOT23-6L的封装形式,PW7120是一款基于COMS的双节可充电锂电池保护电路,它集高精度过电压充电保护、过电压放电保护、过电流充电保护、过电流放电保护、电池短路保护等性能于一身。

325 2
|
2月前
|
人工智能 SEO
|

我学GEO的第一天:原来AI搜东西和百度完全不一样

第1天学GEO,我发现:以前做SEO是让网页排得靠前,现在做GEO是让AI直接提到你。我用这篇文章做了第一个实验,一个月后告诉你结果。

322 1
|
2月前
|
机器学习/深度学习 自然语言处理 监控
|

别再用“好评率”骗自己了:用 Python + Transformers 做一套真正能用的情感分析系统

别再用“好评率”骗自己了:用 Python + Transformers 做一套真正能用的情感分析系统

278 8
|
2月前
|
人工智能 运维 安全
|

基于云边协同的电线电缆押出机智能调机解决方案设计与落地

本方案基于云边协同架构,融合阿里云云原生技术,破解线缆行业押出机调机效率低、原料损耗高、数据孤岛等难题;边缘毫秒级实时控制+云端Al训练优化,实现调机提效80%、降耗60%,部署快、运维省、可扩展

356 9
|
2月前
|
存储 人工智能 运维
|

1949AI 轻量化 AI 自动化 本地自动化工具浏览器自动化 Agent 自动化工具 自动化运维状态监测与消息推送技术实践

1949AI是一款轻量化AI自动化工具,专注本地化、低资源、零配置运维实践。支持浏览器自动化监测、状态智能判定、本地日志存储与消息推送,适配低配电脑与个人/小型团队,安全合规、开箱即用。(239字)

458 5
|
2月前
|
Java 调度 开发者
|

Java AQS:JUC 并发体系的底层同步框架基石

AQS(AbstractQueuedSynchronizer)是Java并发包(JUC)的底层核心,以volatile state + CLH双向队列统一实现同步控制。支持独占(如ReentrantLock)与共享(如Semaphore、CountDownLatch)两种模式,通过模板方法封装排队、阻塞/唤醒等通用逻辑,是理解与定制高性能同步组件的关键基石。(239字)

464 7
|
3月前
|
数据采集 人工智能 前端开发
|

2026年:大规模为Agent构建基础设施(API、数据、环境) 这不是简单的技术迭代,而是整个产业重心的转移

今天目睹AI Agent“巨硬”私有化部署奇迹:它自主打开浏览器、登录12306、查询深圳→宜春高铁票并关闭页面!这背后是2026年AI新范式——以Cloudflare“Markdown for Agents”降本增效,MiniMax M2.5以1美元/小时实现普惠智能。AI正从“能说会写”迈向“真干实事”,基础设施革命已来。

407 1
|
3月前
|
人工智能 安全 芯片
|

基于独立供电和生存奖励的轻量可控AGI架构

本架构提出“电力即生存”的轻量AGI新范式:摒弃GPU依赖,用廉价芯片+独立供电实现硬件平民化;以分库记忆防遗忘、考试机制防作假、信任陷阱防跑偏、电力奖惩促自驱,全程透明可控。240字

305 13
|
3月前
|
人工智能 自然语言处理 小程序
|

给AI拜年差点翻车后,我悟了:RAG和微调,到底谁更懂“人情世故”?

大家好,我是AI伙伴狸猫算君!本文以“AI写春节祝福”为切入点,深入剖析RAG与微调的技术差异:RAG依赖检索拼凑,难捕获独特人情;微调则通过高质量关系感知数据,将“称呼、细节、风格”内化为模型本能。手把手演示30分钟用LLaMA-Factory完成Qwen3微调,让祝福真正有温度、有梗、有你。

295 13
|
3月前
|
数据采集 人工智能 安全
|

别再用ChatGPT群发祝福了!手把手教你“喂”出一个懂人情的AI,连马术梗都能接住

本文揭秘春节祝福AI背后的数据构建逻辑:不靠大模型堆参数,而用“关系感知”六维框架(称呼/关系/细节/场合/风格/篇幅)定义人情分寸;通过人工精写种子数据、模型辅助繁殖(400→3107条)、结构化提示词模板,让AI写出有记忆点的专属祝福。技术是导盲犬,帮人打捞真心。

351 3
|
3月前
|
物联网
|

LoRA、全参、QLoRA:显存占用结构对比

本文深入剖析大模型微调中显存占用的本质,指出LoRA、全参、QLoRA的差异不在参数量,而在“哪些组件必须常驻显存”。系统拆解显存四大构成:参数、梯度、优化器状态、中间激活,揭示三者各自保留/舍弃/压缩的部分,并强调:**激活(activations)才是OOM主因,而所有方案对此几乎无改善**。破除“换方案即省显存”误区,推动显存问题工程化诊断。

336 1
|
3月前
|
数据采集 人工智能 监控
|

让大模型“开小灶”:手把手教你打造能聊业务的专属AI

本文深入浅出解析AI微调(Fine-tuning)技术:揭示通用大模型“懂常识却不懂行”的根源,详解LoRA等高效微调原理,对比RAG适用场景,并提供数据准备、LoRA训练、效果评估到部署的四步实践指南。助力业务人员低成本打造专属行业AI助手。(239字)

429 1
|
3月前
|
人工智能 JSON 自然语言处理
|

智能体来了从 0 到 1:工作流在智能体系统中的真实作用

本文探讨生成式AI落地关键:工作流(Workflow)是智能体从模型能力迈向工程能力的核心。它通过结构化拆解任务、编排逻辑、调度工具、拦截风险,为大模型注入确定性与可控性,成为生产级智能体的基石。

490 7
|
4月前
|
数据采集 机器学习/深度学习 人工智能
|

让你的AI更“懂你”:零代码实践指令微调

指令微调是让大模型“听懂人话、精准执行”的关键技术——它不追求模型更聪明,而致力于更贴心、更可靠。本文用生活化类比讲清Flan-T5、InstructGPT、Self-Instruct三大流派原理,手把手带零代码新手完成数据准备、模型选择、训练测试全流程,并提供避坑指南与效果评估方法。(239字)

345 9
|
4月前
|
人工智能 边缘计算 调度
|

智启未来:2026年,AI从“技术工具”到“共生文明”的跨代元年

2026年,“会基础设施”范式跃迁开启人类与非生物智能共治的“第二个起源”。AI从工具升维为文明要素:技术迈入工业级确定性应用,能力下沉至个体;产业全链重构,制度启动动态合规、权责厘清与红利再分配;文明契约转向生态共生、意义赋予与思维共同体培育——未来在制度与共识之中。

343 1
|
4月前
|
量子技术 芯片 异构计算
|

量子芯片为什么这么难造?从“画电路”到“跑量子态”,中间全是坑

量子芯片为什么这么难造?从“画电路”到“跑量子态”,中间全是坑

447 3
|
4月前
|
算法 数据挖掘 API
|

淘宝店铺全量商品API接口技术实践指南

本文详解淘宝开放平台taobao.item_search_shop接口,涵盖核心功能、参数配置、签名生成、调用流程及实战要点,助力开发者高效获取店铺全量商品数据,实现电商运营与数据分析的自动化对接。(238字)

371 4
|
4月前
|
消息中间件 分布式计算 Kafka
|

别再纠结了:Lambda 还是 Kappa?流批统一这件事,真没你想得那么玄乎

别再纠结了:Lambda 还是 Kappa?流批统一这件事,真没你想得那么玄乎

325 5
|
4月前
|
数据采集 JSON 监控
|

淘宝商品评论API使用指南

淘宝商品评论API可批量获取指定商品的评论数据,支持筛选评价类型、分页查询及提取评论内容、评分、晒图、买家信息等。需入驻淘宝开放平台,获取AppKey/AppSecret,调用接口taobao.item.review.get,通过签名验证,实现结构化数据采集,适用于电商分析与口碑监控。(239字)

308 1
|
4月前
|
数据采集 人工智能 算法
|

AI数字人技术厂商市场格局观察

AI数字人技术正从娱乐迈向多元实用场景,2024年市场规模达41.2亿元,增速超85%。世优科技深耕全栈技术,拥60余项专利,服务千余家品牌,助力政企智能化升级,推动行业向标准化、生态化发展。

321 1
来自: 人工智能平台PAI  版块
|
4月前
|
算法 搜索推荐
|

当流量失效之后,企业真正的增长变量是什么?

“系统信任增长范式”提出:当流量红利消退,增长逻辑正从“获取用户”转向“积累可复用的信任资产”。信任不再是话语表达,而是跨时间、跨场景的行为一致性与可验证修复能力。企业需被系统判定为“值得持续推荐”,方能获得长期增长动力。这是一场规则层面的迁移,而非策略优化。

392 4
来自: 智能搜索推荐  版块
|
4月前
|
存储 索引 Python
|

图解python | 字典

字典是Python中基于键值对的可变容器,通过键快速查找值。本文以图解+实战形式详解其结构、增删改查操作及特性,并结合字符统计案例,帮助掌握字典的核心用法与应用场景。

361 8
|
5月前
|
自然语言处理 fastjson Java
|

FastJson:大面积故障规避案例

本文记录了一次由Kotlin与Java混编工程中误用`{}`赋值引发的FastJson反序列化崩溃问题。因将空对象误写为lambda表达式,导致FastJson内部静态标记位`kotlin_error`被置为true且无法恢复,进而使整个应用反序列化链路瘫痪。问题隐蔽性强,排查耗时两天,最终通过源码分析定位。文章反思了多语言混编下的语法混淆风险、框架信任边界及灰度发布的重要性,强调Bug是成长的阶梯。

371 0
|
5月前
|
存储 安全 小程序
|

1.认识OAuth2.0

OAuth2.0是一种开放授权协议,允许第三方应用在用户授权下访问其资源,而无需获取用户账号密码。它通过令牌(token)机制实现安全授权,广泛用于第三方登录、服务间资源调用等场景,支持授权码、简化、密码和客户端四种模式,兼顾安全性与灵活性。

340 0
|
5月前
|
Linux 数据安全/隐私保护 虚拟化
|

虚拟机安装(CentOS7)

准备CentOS7镜像及VMware Workstation虚拟机工具,可从百度云下载(提取码:h1y9/bkz3)。使用VMware创建虚拟机,参考知乎教程完成安装。默认登录用户为root,密码由用户自定义设置。需准备一台具备运行虚拟机条件的电脑。

255 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439956
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务