大数据上云存算分离演进思考与探讨-2022
当前大数据上云与存算分离的技术趋势越来越成为行业标准与发展方向。作为大数据商业化的践行者,从存算分离的演进/定义/价值/架构应用/实践/对比等多个维度来分析与探讨其发展历程与组成体系。为大数据存算分离技术整体发展添砖加瓦。
Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务
Flink Remote Shuffle 正式开源!
【新功能】开放搜索多路召回技术解读
多路召回就是指采用不同的策略、特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略,本文将介绍开放搜索平台上的多路召回技术是如何深度提升搜索效果的~
DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
数据质量问题虽然从数据工程师的角度来看是个简单问题,但是从业务的角度来看是个很严重的问题。所以数据质量是数据开发和治理全生命周期中,非常重要的一个环节。在DataWorks产品版图里,数据质量也是非常重要的模块之一。
MaxCompute中如何通过logview诊断慢作业
MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务,在MaxCompute执行sql任务的时候有时候作业会很慢,本文通过查看logview排查具体任务慢的原因
百信银行基于 Apache Hudi 实时数据湖演进方案
本文介绍了百信银行实时计算平台的建设情况,实时数据湖构建在 Hudi 上的方案和实践方法,以及实时计算平台集成 Hudi 和使用 Hudi 的方式。
MaxCompute产品消费相关文章合集
MaxCompute (原odps)是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入。MaxCompute支持多种经典计算模型(批处理、机器学习、交互式分析等)和完善的企业管理功能,借助MaxCompute,用户可轻松集成和管理企业数据资产,简化数据平台架构,加速价值实现。
持续定义Saas模式云数据仓库+BI
简介:阿里云技术专家海清为大家带来持续定义Saas模式云数据仓库+BI的介绍。内容包括云数据仓库概述,BI使用场景与趋势,基于MaxCompute云数仓+BI的特性,以及实践案例。
【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍,本文探讨了一种数据管理架构,该架构可以在数据到达时,通过主动监控和分析来检测流式数据中损坏或不良的数据,并且不会造成瓶颈。
MaxCompute SQL与Hive对比分析及使用注意事项
一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompute。
用Flink取代Spark Streaming!知乎实时数仓架构演进
- 实时数仓 1.0 版本,主题:ETL 逻辑实时化,技术方案:Spark Streaming。 - 实时数仓 2.0 版本,主题:数据分层,指标计算实时化,技术方案:Flink Streaming。 - 实时数仓未来展望:Streaming SQL 平台化,元信息管理系统化,结果验收自动化。
MaxCompute常见错误汇总(更新ing)
从今天开始,小编会为大家陆续解读MaxCompute常见问题,帮助大家快速上手MaxCompute,玩转大数据计算平台。
MaxCompute UDF系列之身份证校验及15位身份证号码转换成18位
为了验证一些老证件上的身份证号码到底是不是本人,今天为大家提供一个15位身份证号码转换成18位的MaxCompute的UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: /*** * 身份证号码构成:6位地址编码+8位生日+3位顺序码
AI赋能跨境代购!taocarts智能选品+自动翻译+风控,降本增效新路径(附AI代码)
随着反向海淘行业的竞争加剧,“效率提升”成为代购从业者的核心诉求——人工选品耗时耗力、多语言翻译不精准、虚假订单欺诈等问题,严重制约行业规模化发展。taocarts跨境独立站系统融入AI技术,结合React、Laravel框架,实现AI智能选品、自动翻译、交易风控三大核心功能,依托阿里云AI服务,为代购从业者提供智能化解决方案,从技术层面实现降本增效,以下从AI技术实现、功能落地等角度,为阿里云社区开发者提供干货分享。
【赵渝强老师】Hadoop的伪分布部署模式
本文详解Hadoop伪分布式部署:涵盖目录结构、环境变量配置、核心配置文件(hdfs-site.xml等)修改、NameNode格式化、集群启动及Web UI访问,并通过WordCount实例验证HDFS与YARN功能。
固定指标问答和复杂经营分析,为什么适合的技术路线往往不是同一类?
企业智能问数需分两类:固定指标问答(重稳定、快响应,适配预置SQL/指标层)与复杂经营分析(重语义理解、跨系统推理,依赖本体语义层)。二者问题结构本质不同,选型关键不在厂商优劣,而在厘清自身需求——80%固定问题宜选轻量路线;高频跨域、开放式分析则本体语义层更具长期价值。
反向海淘爆发下,多平台铺货效率决定规模|taocarts 打通 Shopify/Coupang 自动化链路
反向海淘风口下,多渠道铺货已成为跨境创业者规模化运营的核心路径,但传统代购系统源码普遍存在多平台对接缺失、订单与采购割裂、人工操作效率低下等痛点。本文从技术适配与效率提升角度,解析taocarts跨境独立站系统如何通过一键铺货、订单同步、自动采购全链路闭环,打通Shopify、Coupang等海外主流电商平台,结合多语言多货币、运费估算、海外仓备货等能力,帮助反向海淘独立站从业者降本增效,快速抢占多渠道红利,同时规避技术对接与合规风险。
天猫商品详情API数据解析
天猫商品详情API解析方案,涵盖taobao/tmall.item.get接口字段说明、JSON结构、解析代码及SKU/详情图/规格提取。支持价格库存、竞品监测、舆情预警等场景,AI智能清洗、卖点解析与爆款预测,助力中小卖家高效用数。(239字)
我学GEO的第一天:原来AI搜东西和百度完全不一样
第1天学GEO,我发现:以前做SEO是让网页排得靠前,现在做GEO是让AI直接提到你。我用这篇文章做了第一个实验,一个月后告诉你结果。
从"代码跑不通"到"答辩演示丝滑流畅":毕设部署避坑完全指南
毕设答辩“最后一公里”常因部署失败翻车!本文提供本地一键、云服务器、Docker三种部署方案,重点推荐智码方舟AI生成器——10分钟获取配置完备的部署文档+脚本,规避90%环境问题,助你稳过答辩。
50%的人给了差评:龙虾为何在技术论坛翻车了?
OpenClaw(龙虾)AI工具因“自动赚钱”“代约主播”等夸张宣传走红,但吾爱破解论坛投票显示:50%技术用户未下载且不认可其能力。技术圈冷静源于见惯“神器”泡沫——AI擅写代码(搬砖),却难懂需求、统筹系统。它不是神药,而是待磨的砍柴刀。
Linux内核三大核心模块深度解析:调度、内存与I/O
Linux内核三大核心模块——进程调度(CFS/EEVDF等)、内存管理(buddy/slub、页回收、THP)与文件I/O(io_uring、页缓存、I/O调度)——共同决定系统性能与稳定性。深入理解其原理及协同机制,是高性能开发、调优与故障诊断的基石。(239字)
阐述:关键词搜索京东商品列表API接口
京东关键词搜索商品列表API是其开放平台核心接口,支持按关键词检索商品,提供多条件筛选、分页排序及丰富字段(价格、销量、店铺、库存等),适用于选品、竞品分析、价格监控与联盟推广,需AppKey+签名认证。
从130倍性能提升看Python的批量计算和并行化策略:traj-dist-rs的并行策略实现
本文以traj-dist-rs为例,讲解使用rust与rayon在python的计算密集型任务中的性能提升方案。
相似度搜索 ≠ 语义理解:向量数据库的能力边界
本文直击RAG系统常见误区:向量数据库只解决“相似性检索”,不等于“语义理解”。它能高效召回“看起来相关”的内容,但无法判断概念等价、逻辑冲突、条件限制或信息可用性。混淆二者是多数故障根源。正确认知其边界,方能工程化落地。
天猫商品详情API全解析
天猫商品详情API是淘宝开放平台提供的官方接口,合规、高效获取天猫商品全量结构化数据(价格、销量、规格等),支持精准筛选与实时同步,助力选品决策、竞品分析与智能运营,规避爬虫风险。(239字)
重构认知——AI智能体来了从0到1的落地工程全指南
本文系统阐述AI智能体开发方法论:突破“调参”思维,以感知、决策、执行、记忆四大架构为基,提出从场景锁定到评估优化的“五步跃迁法”,助力开发者构建具备行业深度与自主行动力的数字生命。(239字)
代理地址≠协议!HTTPS使用误区拆解
跨境运营、爬虫从业者必看!99%人混淆的代理误区:代理地址带https≠HTTPS代理。关键看目标网站协议!目标为HTTPS时,即使代理是http,仍为HTTPS代理。掌握核心:目标URL决定代理类型,代理前缀仅影响传输加密。三步避坑指南,提升效率与隐私安全。
真实案例复盘:从“三套烟囱”到 All in ES,这家企业如何砍掉 40%运维成本
某泛娱乐平台面临搜索架构复杂、成本高企难题,通过阿里云Elasticsearch实现日志、搜索、向量一体化重构。借助Serverless化与混合存储,成本降60%,运维统一,查询效率倍增,验证了“All in ES”极简架构在AI时代的高效与可扩展性。
淘宝商品评论API使用指南
淘宝商品评论API可批量获取指定商品的评论数据,支持筛选评价类型、分页查询及提取评论内容、评分、晒图、买家信息等。需入驻淘宝开放平台,获取AppKey/AppSecret,调用接口taobao.item.review.get,通过签名验证,实现结构化数据采集,适用于电商分析与口碑监控。(239字)
基于深度学习的车牌识别系统
在智能交通快速发展背景下,传统车牌识别技术受限于复杂环境,难以满足高精度需求。深度学习凭借强大特征学习能力,显著提升识别准确率与鲁棒性,成为主流技术方向。本文综述基于YOLOv8等先进模型的研究进展,探讨系统实现关键步骤,推动智慧交通与城市治理智能化升级。
Python | K折交叉验证的参数优化的弹性网络回归预测及可视化算法
本教程介绍基于Python的K折交叉验证与参数优化的弹性网络回归预测算法,涵盖贝叶斯、随机及网格搜索三种调参方法,结合SHAP分析、密度散点图与热力图等可视化技术,适用于多领域回归任务,代码及数据完整可复现。
2026年建设网站的十个步骤
2026 年优质网站建设十大关键步骤涵盖需求分析、架构规划等全生命周期环节,以 PageAdmin 低代码平台为支撑,兼顾设计、开发、测试、部署与运维,可高效构建功能完善、体验优良的专业网站,契合多元需求与长期发展目标。
构建AI智能体:八十三、当AI开始“失忆“:深入理解和预防模型衰老与数据漂移
AI模型会因数据分布变化和时间推移而性能下降,即“模型衰老”与“数据漂移”。如同知识过时,旧模型难以适应新环境,导致预测不准。需通过PSI、KS等指标监测,并定期重训练以保持其有效性。
构建AI智能体:八十一、SVD模型压缩的艺术:如何科学选择K值实现最佳性能
本文探讨了SVD(奇异值分解)在深度学习模型压缩中的应用。随着模型规模不断扩大,面临的存储、计算和能耗问题日益突出。SVD通过将大型矩阵分解为三个特殊矩阵(U、Σ、Vᵀ),并根据奇异值大小进行截断,实现模型的高效压缩。文章详细分析了SVD的数学原理、压缩机制和参数选择策略,重点讨论了如何通过能量保留、目标压缩率和拐点检测等方法确定最佳截断秩k。以一个500×300的用户-物品矩阵为例,实证显示k=32时能实现82.93%的压缩率,99.97%的能量保留和5.86倍计算加速,达到了精度损失与压缩收益的最佳平衡
京东店铺所有商品API接口使用指南
本文介绍如何对接京东开放平台“店铺所有商品API”,通过调用`JD.item_search_shop`接口,以编程方式获取POP或自营店铺的商品信息(如ID、标题、价格、库存等),适用于运营分析、库存监控等场景。需配置AppKey、时间戳等公共参数,并传入seller_id、page_no等业务参数实现分页查询,无需access_token授权。
服务保护、分布式事务
本课程学习微服务保护核心知识,涵盖雪崩问题、熔断降级、限流隔离等方案,掌握Sentinel实现熔断、降级、限流及线程隔离的方法,并了解CAP原理与Seata分布式事务应用。
MySQL 项目实战入门:从 0 到 1 搭建电商数据库
本文以电商系统为实战场景,从环境搭建、需求分析入手,详解MySQL数据库的表结构设计、SQL编写、关联查询及性能优化,帮助初学者掌握从零构建完整数据库项目的全流程,提升实操能力。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。