MaxCompute元数据使用实践--作业统计
通过MaxCompute租户级别Information Schema的“TASKS_HISTORY”视图可以统计查看MaxCompute计算作业的元数据信息,方便您进行作业审计以及各类统计,指导作业性能、成本优化。
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
以阿里云OpenSearch为例谈向量检索技术选型
本文从向量检索应用场景、常见的向量检索方法、向量检索性能优化、功能性能对比介绍了向量检索的业务应用场景和技术选型方式。
Dynamic ReLU:根据输入动态确定的ReLU
这是我最近才看到的一篇论文,它提出了动态ReLU (Dynamic ReLU, DY-ReLU),可以将全局上下文编码为超函数,并相应地调整分段线性激活函数。与传统的ReLU相比,DY-ReLU的额外计算成本可以忽略不计,但表示能力明显增强,并且实现简单,所以可以非常简单的对我们现有的模型进行修改。
什么是HTTP代理?HTTP代理的作用?HTTP代理怎么设置?
HTTP代理是一种充当客户端和服务器之间的中间人的服务器。当客户端发起请求时,HTTP代理会拦截请求并将其转发给目标服务器。一旦目标服务器响应,HTTP代理会拦截响应并将其转发回客户端。HTTP代理可以被用于多种场景,例如加强安全、缓存内容以加速访问、访问受限资源等等。在这篇文章中,我们将会讨论HTTP代理的作用、类型以及如何设置它。
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023
阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。
机器学习系列 | 01:多类别分类任务(multi-class)中为何precision,recall和F1相等?
在 multi-class 分类任务中,如果使用 micro 类指标,那么 micro-precision, micro-recall和micro-F1值都是相等的。本文主要针对这个现象进行解释。
如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践
MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。
大神都这么做,让 Kibana 搜索语法 query string 也能轻松上手
kibana 的搜索框默认选择了 query string 的搜索语法,虽然简洁却不简单,本文来帮大家如何轻松上手;
Flink on YARN(下):常见问题与排查思路
上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路。
使用DataX同步MaxCompute数据到TableStore(原OTS)优化指南
现在越来越多的技术架构下会组合使用MaxCompute和TableStore,用MaxCompute作大数据分析,计算的结果会导出到TableStore提供在线访问。MaxCompute提供海量数据计算的能力,而TableStore提供海量数据高并发低延迟读写的能力。
基于Spark Streaming 进行 MySQL Binlog 日志准实时传输
基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程: 如何把 RDS 的 binlog 收集到 SLS。 如何通过 Spark Streaming 将 SLS 中的日志读取出来,进行分析。
【ELK入门】Elastic中文社区运维监控实战之架构篇
阿里云MVP曾勇撰写的《ELK运维监控入门实战》系列,以Elasticsearch中文社区网站运维监控体系搭建作为案例,讲解了ELK监控系统的相关原理和技术实现,可作为对ELK感兴趣的同学的入门级文章。本篇作为第一篇,介绍了项目背景和技术架构。
凑单算法——基于Graph Embedding的bundle mining
本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍,实现体验和数据上的双赢。
【玩转数据系列四】听说啤酒和尿布很配?本期教你用协同过滤做推荐
数据挖掘的一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品,但是当超市将两种产品放到相邻货架销售的时候,会大大提高两者销量。很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过理性的分析得到的。这时候我们需
PbootCMS常见报错与解决方案大全:从权限配置到版本兼容
本文汇总PbootCMS常见报错(权限不足、SQLite扩展未启用、伪静态异常、图片压缩、PHP版本不兼容等),提供精准原因分析与实操解决方案,涵盖static/data/runtime目录权限设置、php.ini配置、配置文件参数调优等,助力高效建站运维。(239字)
架构视角下的千万级分布式爬虫:Rust + Reqwest 与代理网关的全局设计
本文探讨如何用Rust重构分布式爬虫Worker节点,解决高并发下的内存泄漏、CPU瓶颈与代理调度难题;结合Tokio、Reqwest与企业级隧道代理,实现千万级实时抓取的稳定、安全与高效。
为什么使用 TorchRec 训练和推理更快
本文结合TorchEasyRec实践,从四大维度解析推荐系统加速:1)KeyedJaggedTensor统一变长特征,实现Embedding批量融合查找;2)自动分布式分片突破单卡显存瓶颈;3)TrainPipelineSparseDist流水线并行,重叠通信与计算;4)fbgemm-gpu融合优化器,减少显存访问。端到端提升训练效率与扩展性。
Feature Generator(FG)特征算子配置指南
本文档全面介绍Feature Generator(FG)的各类特征算子配置方法,涵盖基础(ID/原始特征)、计算(表达式)、交叉(组合)、查找(Lookup/Match)、文本(重叠/BM25)、序列、预处理(分词/归一化)及字符串处理(正则替换/切片)等9大类算子,附详细配置示例与说明。
EMR Serverless Spark 携手 PAI/百炼,开启“SQL 即 AI”的新篇章
EMR Serverless Spark 深度集成 AI Function 能力,并无缝对接 阿里云百炼与 阿里云人工智能平台 PAI 模型在线服务 PAI-EAS,定义了“SQL 即 AI”的新解决思路,数据分析师只需一行 SQL,即可直接调用世界顶尖的大模型。
我学GEO第10天:被豆包引用了,还被千问、元宝认识了
我是二二得四,专注GEO优化第10天。零基础起步,坚持每日图文输出、多平台分发、AI友好写作,已实现豆包/千问/元宝识别“二二得四”(置信度50%-65%),首篇文章被豆包引用。边学边测、边做边迭代,用真实过程记录普通人可复制的AI时代品牌可见性增长路径。
极速上手:Puppeteer + 原生代理IP (金融与突发新闻抓取 Cheat Sheet)
本文介绍金融与新闻高频爬虫的实战方案:用 `puppeteer-extra` + `stealth` 插件隐藏自动化指纹,结合高匿代理IP轮换,实现秒级资讯采集。含完整配置、优化代码及生产避坑指南。
三节串联锂电池充电芯片应用与PCB设计指南
PW4053A(异步)是一款5V输入,最大1.2A充电电流(是指电池端的电流,输出12.6V电池端的电压),支持三节锂电池的升压充电管理IC。PW4053A集成功率MOS采用异步开关架构,使其在应用时仅需极少的外围器件,可有效减少整体方案尺寸,降低BOM成本。PW4053A的升压开关充电转换器的工作频率为500KHz,转换率微90%。PW4053A啊呼入电压为5V,内置自适应环路,可智能调节充电电流大小,防止拉垮适配器输出,可匹配所有适配器。PW4053A提供SOP8-EP封装形式,工作温度额定范围为-40℃至85℃。
别再用“好评率”骗自己了:用 Python + Transformers 做一套真正能用的情感分析系统
别再用“好评率”骗自己了:用 Python + Transformers 做一套真正能用的情感分析系统
PyTorch vs TensorFlow:谁才是深度学习界的“顺手兵器”?一次接地气的实战对比
PyTorch vs TensorFlow:谁才是深度学习界的“顺手兵器”?一次接地气的实战对比
亚马逊商品详情数据获取实战:从商品链接提取 ID 到解析详情
亚马逊商品详情API(PA-API v5与SP-API)是官方合规数据接口,分别面向第三方开发者与入驻卖家,支持获取ASIN/关键词对应的商品标题、价格、图片、评价等核心信息,广泛用于比价、选品、竞品分析及Listing优化。接入稳定、数据权威。(239字)
梯度累积真的省显存吗?它换走的是什么成本
梯度累积常被当作OOM“急救药”,但它并非免费:仅降低单步显存峰值,却牺牲训练速度、梯度信号密度、优化器响应灵敏度与调参手感。它适合快速验证,却不适配长期精调——真正的瓶颈,往往不是显存,而是系统设计。
智能体来了:2026AI元年,如何抓住时代机遇?
2026年,AI正跨越临界点:智能体从实验走向系统化应用,呈现三大演进——由工具升级为协作伙伴、领域专业化深化、多智能体分布式协同。人机关系、工作流程与交互范式随之重构。机遇不在技术速胜,而在理解复杂性、保持判断力、构建可持续共处能力。
让大模型“开小灶”:手把手教你打造能聊业务的专属AI
本文深入浅出解析AI微调(Fine-tuning)技术:揭示通用大模型“懂常识却不懂行”的根源,详解LoRA等高效微调原理,对比RAG适用场景,并提供数据准备、LoRA训练、效果评估到部署的四步实践指南。助力业务人员低成本打造专属行业AI助手。(239字)
模型不该背的锅:哪些风险应该交给系统
本文揭示大模型项目中常见误区:问题常不在模型本身,而在系统责任边界模糊。模型只应负责生成与理解,而合规审查、回答授权、输入过滤、规则执行、兜底逻辑和一致性保障等,必须由系统层承担。厘清“能力”与“责任”之分,方能构建稳健AI系统。
智能体来了从 0 到 1:工作流在智能体系统中的真实作用
本文探讨生成式AI落地关键:工作流(Workflow)是智能体从模型能力迈向工程能力的核心。它通过结构化拆解任务、编排逻辑、调度工具、拦截风险,为大模型注入确定性与可控性,成为生产级智能体的基石。
让你的AI更“懂你”:零代码实践指令微调
指令微调是让大模型“听懂人话、精准执行”的关键技术——它不追求模型更聪明,而致力于更贴心、更可靠。本文用生活化类比讲清Flan-T5、InstructGPT、Self-Instruct三大流派原理,手把手带零代码新手完成数据准备、模型选择、训练测试全流程,并提供避坑指南与效果评估方法。(239字)
智能体来了从 0 到 1:数据、工具与规则的协同范式
随着AI深入产业,单一模型已难支撑复杂流程。智能体作为以大模型为核心、融合数据(知识/记忆)、工具(执行接口)与规则(行为约束)的协同系统,实现感知—推理—执行闭环。其价值在于三者可复用、可治理的工程化协同,而非模型本身。
阿里云 OpenLake:AI 时代的全模态、多引擎、一体化解决方案深度解析
阿里云徐晟详解OpenLake:构建全模态、多引擎、一体化智能数据体系,融合大数据与AI,支持湖仓一体、Agentic Data及AI搜索,助力企业降本增效、加速AI落地。(239字)
大模型“驯化”指南:从人类偏好到专属AI,PPO与DPO谁是你的菜?
本文深入解析让AI“懂你”的关键技术——偏好对齐,对比PPO与DPO两种核心方法。PPO通过奖励模型间接优化,适合复杂场景;DPO则以对比学习直接训练,高效稳定,更适合大多数NLP任务。文章涵盖原理、实战步骤、评估方法及选型建议,并推荐从DPO入手、结合低代码平台快速验证。强调数据质量与迭代实践,助力开发者高效驯化大模型,实现个性化输出。
不懂向量数据库?一文讲透其原理与应用场景
向量数据库通过将文本、图像等非结构化数据转化为“数学指纹”(向量),实现语义级相似性检索。它突破传统数据库的精确匹配局限,支撑智能客服、推荐系统与RAG应用。核心原理是Embedding编码+高效索引(如HNSW、IVF),支持亿级数据毫秒搜索。结合元数据过滤的混合查询,显著提升准确性。未来将迈向多模态融合与自适应智能检索,是AI时代不可或缺的基础设施。
AI时代最大的宝藏,也藏得最深:80%的企业知识沉睡在非结构化数据中
2026年AI进入应用爆发期,但非结构化数据成为瓶颈。Hologres推出AI原生新架构HSAP 2.0,融合语义搜索、多维分析与Serverless弹性,打造统一数据平面,让企业海量数据高效赋能AI,破解“数据熵”难题,支撑智能客服、销售助手等复杂场景,实现从“为人服务”到“为AI服务”的跨越。
AI数字人厂商的技术发展与行业生态分析
AI数字人融合语音识别、自然语言处理与3D建模等技术,正加速应用于金融、教育、医疗等领域。依托大模型与多模态交互,实现拟人化智能服务。世优科技推出“波塔AI数字人”,支持定制化形象与实时交互,助力政企数字化升级。行业快速发展的同时,也面临隐私、伦理与标准化挑战,需多方协同推进。
1.认识OAuth2.0
OAuth2.0是一种开放授权协议,允许第三方应用在用户授权下访问其资源,而无需获取用户账号密码。它通过令牌(token)机制实现安全授权,广泛用于第三方登录、服务间资源调用等场景,支持授权码、简化、密码和客户端四种模式,兼顾安全性与灵活性。
Gateway服务网关
网关是微服务的统一入口,实现请求路由、权限控制、限流与负载均衡。基于SpringCloud Gateway可构建高性能响应式网关,支持断言与过滤器工厂,灵活实现路由匹配及请求处理,并可通过全局过滤器扩展功能,解决跨域等问题。
虚拟机安装(CentOS7)
准备CentOS7镜像及VMware Workstation虚拟机工具,可从百度云下载(提取码:h1y9/bkz3)。使用VMware创建虚拟机,参考知乎教程完成安装。默认登录用户为root,密码由用户自定义设置。需准备一台具备运行虚拟机条件的电脑。
SpringCloud自定义注解
本文介绍Java自定义注解的实现与应用,结合Spring AOP与过滤器,演示日志处理、权限控制等场景。通过@Target、@Retention等元注解定义注解,并在Controller中结合AOP或拦截器实现登录验证等功能,提升代码可读性与复用性。(238字)
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。