Ubuntu20.04安装软件报错:The following packages have unmet dependencies - 蓝易云
请注意,替换上述命令中的 `<package-name>`为你实际要安装的软件包名。
解决“Unable to start embedded Tomcat“错误的完整指南
通过逐步检查以上问题,你应该能够解决 "Unable to start embedded Tomcat" 错误,并使Tomcat成功启动。
掌握网络抓取技术:利用RobotRules库的Perl下载器一览小红书的世界
本文探讨了使用Perl和RobotRules库在遵循robots.txt规则下抓取小红书数据的方法。通过分析小红书的robots.txt文件,配合亿牛云爬虫代理隐藏真实IP,以及实现多线程抓取,提高了数据采集效率。示例代码展示了如何创建一个尊重网站规则的数据下载器,并强调了代理IP稳定性和抓取频率控制的重要性。
Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)
Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)
四张图片道清AI大模型的发展史(1943-2023)
现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。
云原生大数据架构实践与思考-DataFunTalk
导读: 作者:振策-阿里云计算平台-产品解决方案, 20230805 本文将分享当前云原生大数据架构的发展历程/架构定义/核心能力/应用场景及趋势思考。主要包括以下四个部分: - 从大数据上云看架构 - 云原生数据平台的核心能力 - Data+AI with Cloud-Native - 未来趋势与思考
Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native
本篇文章介绍了 Gluten 项目的背景和目标,以及它如何解决基于 Apache Spark 的数据负载场景中的 CPU 计算瓶颈。此外,还详细介绍了 Gluten 与 Celeborn 的集成。Celeborn 采用了 Push Shuffle 的设计,通过远端存储、数据重组、内存缓存、多副本等设计,不仅进一步提升 Gluten Shuffle 的性能和稳定性,还使得 Gluten 拥有更好的弹性,从而更好的拥抱云原生。
基于 Flink CDC 的现代数据栈实践
阿里云技术专家,Apache Flink PMC Member & Committer, Flink CDC Maintainer 徐榜江和阿里云高级研发工程师,Apache Flink Contributor & Flink CDC Maintainer 阮航,在 Flink Forward Asia 2022 数据集成专场的分享。
Flink Table Store 0.3 构建流式数仓最佳实践
阿里巴巴高级技术专家,Apache Flink PMC 李劲松(之信),在 FFA 2022 实时湖仓的分享。
数字孪生核心技术揭秘(二):三维模型
三维模型是一个很宽泛的概念,大部分三维模型是无法直接应用于数字孪生项目的;三维建模需要找专业的供应商进行制作,需要有标准规范和质量检验;建模、模型数据加工都需要制定规范,才能支持好数据融合;需要使用合适的数字孪生引擎才能发挥三维模型的效果;
Delta Lake的演进历史及现状【Databricks 数据洞察公开课】
从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。
Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架
Flink CDC 2.2 正式发布,文末有一则消息或许你会感兴趣~
超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!)
Kibana 的 Alert—Elastic Stack 实战手册
Kibana 的 Alert 模块主要用于 Elastic Stack 的监控告警。以一种相对较低的使用成本,将复杂的查询条件,编辑完成后监控不同的 Elastic Stack 的技术产品中产生的数据,最终把符合条件的告警信息以需要的方式反馈给用户。
Search template — Elastic Stack 实战手册
Elasticsearch 允许使用模板语言 mustache 来预设搜索逻辑,在实际搜索时,通过参数中的键值,对来替换模板中的占位符,最终完成搜索
数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。
AI·OS新探索:端到端算法工程平台
本话题将围绕深度算法学习工程,详细介绍在淘宝搜索,推荐,广告业务的最佳实践,和大家详细阐述,阿里是如何构建一个高效的端到端AI算法平台。
MaxCompute/Dataworks云数仓高可用最佳实践
大数据计算服务(MaxCompute,原名ODPS)是一种企业级SaaS模式云数据仓库,能够快速、完全托管的EB级数据仓库解决方案。DataWorks和MaxCompute关系紧密:DataWorks为MaxCompute提供一站式的数据同步、业务流程设计、数据开发、管理和运维功能。 本文主要介绍在使用阿里云MaxCompute/DataWorks运维过程中经常会遇到的问题及对应的解决方法。
助力云上开源生态 - 阿里云开源大数据平台的发展
阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。
【最佳实践】如何从AWS中的Elasticsearch索引平滑迁移至阿里云
阿里云的易用、便捷、稳定、以及低门槛深受广大开发者欢迎,本次实践是针对希望将Elasticsearch索引迁移至阿里云的客户所准备。本次Elasticsearch索引迁移方案参考架构图如下:
Apache Flink 漫谈系列(15) - DataStream Connectors之Kafka
聊什么 为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。
阿里巴巴搜索混部解密
Hippo是搜索调度团队根据搜索、推荐、广告等业务特点从2013年开始打造并逐步完善的一套分布式调度系统,支持了集团内外多个事业部的搜索、推荐、广告等相关业务。2017双11期间,搜索在离线混部实现了全时段无干预无降级稳定运行,提供了搜索双11所有TF模型离线批次训练所需资源,并在2017/11/10晚上23点因为离线训练集群负载过高首次在混部上不间断运行了超过2万core的双11实时训练流程并一直在稳定运行。
切分粒度,如何影响 TopK 的风险分布
RAG系统问题常被归咎于TopK调参,实则根源在文档切分粒度——它预先决定了风险类型(缺失型/冲突型)与分布形态(分散或集中)。TopK只是放大器,而非成因。优化切分才是治本之策。
零基础玩转RAG:手把手教你搞定文档切分与大模型微调
本文深入解析RAG中至关重要的文档切分技术,系统对比句子切分、固定长度、重叠窗口、递归切分和语义切分五种策略,结合代码示例与实战技巧(PDF/Markdown/代码处理),并提供量化评估与调优方法,助你夯实RAG基石。(239字)
重构认知——AI智能体来了从0到1的落地工程全指南
本文系统阐述AI智能体开发方法论:突破“调参”思维,以感知、决策、执行、记忆四大架构为基,提出从场景锁定到评估优化的“五步跃迁法”,助力开发者构建具备行业深度与自主行动力的数字生命。(239字)
别光“调戏”ChatGPT了!亲手微调一个专属大模型,你需要知道这些
本文深入浅出地讲解大模型“训练-微调-推理”三步法,类比医生培养过程,帮助读者理解AI如何从通才变为专才。涵盖技术原理、实操步骤、效果评估与GPU选型,助力个人与企业打造专属AI模型,推动AI应用落地。
阿里云大数据AI产品月刊-2025年12月
大数据& AI 产品技术月刊【2025年 12 月】,涵盖 12 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
淘宝商品详情API接口指南
淘宝商品详情API(taobao.item.get)可获取商品标题、价格、图片、库存、销量等核心信息。支持POST/GET请求,返回JSON格式数据。需提供app_key、timestamp、sign等参数,常见响应码包括200(成功)、401(权限不足)、403(签名错误)等,适用于电商数据对接与分析。
静态IP购买常见问题及解决方案
静态IP因稳定、适用广,成企业刚需,但购买易踩坑。本文梳理IP纯度低、带宽虚标、地域偏差、售后差、计费不透明、合规风险6大问题,提供避坑指南,助你高效选购合规、稳定的独享静态IP,保障业务顺畅运行。(238字)
Thread.sleep(0) 到底有什么用
Thread.Sleep用于暂停线程执行,Sleep(1000)不保证精确唤醒时间,因系统调度受优先级和竞争影响;Sleep(0)则触发立即重新分配CPU,让其他线程有机会执行,避免界面假死。两者作用显著不同。
FastJson:大面积故障规避案例
本文记录了一次由Kotlin语法误用引发的FastJson反序列化故障排查过程。因将 `{}` 错误赋值给Java对象字段,导致FastJson解析时触发 `kotlin_error` 静态标记位异常,进而使整个工程反序列化链路中断。问题根源为多语言混编下语法混淆及框架对异常状态处理不当。通过深入分析源码与依赖,最终定位并修复,强调了对框架不信任原则和代码严谨性的重要性。(238字)
Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可
Ververica,由Apache Flink创始团队创立、阿里云旗下企业,首次入选Forrester 2025流式数据平台领导者象限,凭借在实时AI与流处理领域的技术创新及全场景部署能力获高度认可,成为全球企业构建实时数据基础设施的核心选择。
手机端网站建设:响应式设计主导下的工具选取与实施步骤
移动互联网时代,响应式设计已成手机端建站主流,无需单独搭建手机端。本文以 PageAdmin CMS 为例,阐述其原生响应式架构、轻量化等适配优势,详细拆解从前期规划、环境安装、响应式模板适配、内容优化,到测试上线与后期维护的全流程,该方案适配中小规模站点,能降低开发维护成本,保障多端用户体验一致性。
实验报告:让AI自动生成采集代码,会踩哪些坑?
本文复盘AI自动生成采集代码的实战效果,梳理出“模拟行为”与“接口调用”两大技术路线。AI在浏览器自动化中表现良好,适合简单场景;但面对加密接口与强反爬时仍需人工介入。最终结论:AI是高效助手,但核心难题仍需工程师掌控。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。