|
12月前
|
边缘计算 文字识别 自然语言处理
|

当OCR遇见大语言模型:智能文本处理的进化之路

简介:本文探讨光学字符识别(OCR)技术与大语言模型(LLM)结合带来的革新。传统OCR在处理模糊文本、复杂排版时存在局限,而LLM的语义理解、结构解析和多模态处理能力恰好弥补这些不足。文中通过代码实例展示了两者融合在错误校正、文档解析、多语言处理、语义检索及流程革新上的五大优势,并以财务报表解析为例,说明了该技术组合在实际应用中的高效性。此外,文章也展望了未来的技术发展趋势,包括多模态架构、小样本学习和边缘计算部署等方向,预示着文本处理技术正迈向智能认知的新时代。(240字)

871 1
来自: 人工智能平台PAI  版块
|
11天前
|
人工智能 安全 C++
|

一个项目能长期活下去,靠的从来不是模型

AI项目成败关键不在模型强弱,而在于系统性生存能力:厘清责任边界、接纳不确定性、严控复杂度、建立止损机制、允许模型“不万能”、并在模型成功时保持克制。真正活久的项目,清醒、务实、敬畏现实。

153 12
|
19天前
|
机器学习/深度学习 人工智能 监控
|

从原理到实践:零代码也能搞定的PPO微调全攻略

本文深入浅出解析PPO(近端策略优化)算法——大模型对齐人类偏好的核心技术。通过“温和教练”比喻、四步原理拆解与实操指南,零基础也能理解其剪切机制、优势函数与稳定训练逻辑,并亲手微调出更懂你的AI。(239字)

124 0
|
24天前
|
监控 算法 安全
|

你以为 PPO 很高级,其实它更像个“微调旋钮”

PPO在真实业务中日益重要,因其擅长行为对齐而非能力提升。本文从工程实践出发,解析PPO三大典型用法:风格对齐、降低幻觉、强化偏好决策,强调其作为“行为调节器”的定位,并提供可落地的训练流程与评估方法,助力模型输出更可靠、可控、符合业务需求。

197 2
|
1月前
|
消息中间件 运维 监控
|

别只盯着充电枪:聊聊一个真正“能赚钱、能扩展、能运维”的智慧充电桩系统架构

别只盯着充电枪:聊聊一个真正“能赚钱、能扩展、能运维”的智慧充电桩系统架构

115 7
|
1月前
|
机器学习/深度学习 人工智能 安全
|

“电不是不够,是调度太笨”:聊聊 AI 驱动的能源调度优化,到底在优化什么

“电不是不够,是调度太笨”:聊聊 AI 驱动的能源调度优化,到底在优化什么

131 10
|
1月前
|
搜索推荐 BI API
|

流式聚合不慢才怪?窗口、触发器和内存这三板斧你真用对了吗

流式聚合不慢才怪?窗口、触发器和内存这三板斧你真用对了吗

104 12
|
1月前
|
机器学习/深度学习 存储 人工智能
|

【AI大模型面试宝典七】- 训练优化篇

【AI大模型面试宝典】详解知识蒸馏:从软标签、温度机制到特征对齐,涵盖KL散度、黑/白盒蒸馏策略与代码实现,拆解高频面试题,助你精准掌握大模型压缩核心考点,轻松应对技术追问,offer拿到手软!

100 0
来自: 人工智能平台PAI  版块
|
1月前
|
区块链
|

从 NFT 到 RWA:资产上链,正在换一套“底层逻辑”

从 NFT 到 RWA:资产上链,正在换一套“底层逻辑”

139 1
|
2月前
|
机器学习/深度学习 算法 算法框架/工具
|

基于深度学习的水稻病虫害检测系统

水稻是全球半数人口的主食,病虫害导致年减产20%-40%。传统识别依赖人工,效率低、误判率高。深度学习技术,尤其是YOLOv8模型,可实现快速精准检测,提升防治效率,降低损失。结合Python生态与高质量标注数据集,构建智能检测系统,助力农业智能化与可持续发展,保障粮食安全。

139 2
|
2月前
|
人工智能 算法 图形学
|

C++基本介绍

C++是一种静态类型、编译式通用编程语言,支持过程化、面向对象和泛型编程。作为C的超集,它兼具高效性能与硬件控制能力,广泛应用于游戏开发、嵌入式系统、金融交易、图形处理及科学计算等领域,具有封装、继承、多态和抽象等特性,提升代码复用性与可维护性。(238字)

129 0
|
2月前
|
消息中间件 Java Nacos
|

SpringCloud概述

Spring Cloud是微服务的统一解决方案,具备注解驱动、开箱即用、组件丰富等特点,通过版本命名规范整合多子项目。Spring Cloud Alibaba融合Nacos、Sentinel、Seata等阿里开源组件,成为主流技术栈选择。

135 0
|
2月前
|
SQL Java 数据库连接
|

MyBatis-Plus 超详细教程:从入门到实战,一站式掌握

MyBatis-Plus 是 MyBatis 的增强工具,简化单表 CRUD 操作,无需编写 XML,支持条件构造器、分页插件、逻辑删除、枚举与 JSON 处理,提升开发效率,兼顾灵活性与便捷性,助力从入门到实战一站式掌握。

142 0
|
2月前
|
负载均衡 应用服务中间件 Nacos
|

Nacos配置中心

本文详细介绍Nacos作为配置中心的实现原理与实战步骤,涵盖配置管理、热更新、共享配置及优先级规则,并演示Nacos集群搭建与高可用部署,帮助开发者掌握微服务环境下配置的动态管理与服务解耦方案。

101 0
|
2月前
|
消息中间件 人工智能 Linux
|

基于 RocketMQ 构建 高可靠 A2A 通信通道

A2A协议由Google于2025年发起,旨在构建跨厂商AI智能体的标准化通信机制。通过支持gRPC、JSON-RPC及RocketMQ异步通信,实现多智能体高效协同。基于RocketMQ的实现方案提供开箱即用的高可靠通信,支持任务分发、流式交互与状态查询,助力构建开放、可扩展的多智能体系统生态。(238字)

147 0
|
2月前
|
人工智能 Cloud Native 编译器
|

ARM 与 x86 之争,已经不是“谁干掉谁”,而是“谁更像未来”

ARM 与 x86 之争,已经不是“谁干掉谁”,而是“谁更像未来”

190 7
|
2月前
|
SQL 存储 分布式计算
|

九、HQL DQL七大查询子句

Hive 查询写得清楚,数据分析就能更顺手。我们这次从入门角度出发,带你理清 Hive 中最常用的七个查询子句(FROM、WHERE、GROUP BY、HAVING、SELECT、ORDER BY、LIMIT),结合执行顺序梳理每一步的用法与注意事项。每个子句都有配套案例,还有实战练习题帮你快速上手。如果你刚开始学习 Hive 查询,或希望把基础打得更扎实,这篇内容值得收藏。

142 9
|
2月前
|
SQL 自然语言处理 数据可视化
|

大火的 ChatBI,是如何实现灵活的自然语言数据分析?

这对业务人员而言,不仅简化了数据分析流程,更无需依赖 IT 代码开发,实现了自主灵活的智能问数,高效敏捷展开分析。

216 1
|
2月前
|
供应链 搜索推荐 API
|

1688图片搜索相似商品API指南

1688图片搜索相似商品API基于图像识别技术,支持通过图片查找平台内相似商品,提供商品信息与相似度评分,适用于以图搜货、比价、供应链寻源等场景,提升采购效率。

195 9
|
2月前
|
消息中间件 自然语言处理 供应链
|

Pandabuy复制指南:淘宝1688代购系统搭建

Pandabuy以“反向海淘”模式为核心,助力海外用户代购中国商品,主打欧美市场。通过物流收费、佣金、汇率差等多元盈利,两年营收达40亿元。依托网红营销、低价策略与社区运营,实现高速增长。系统搭建推荐微服务架构,对接淘宝1688 API,强化合规与供应链管理,结合SEO、社媒营销及风控体系,打造高效安全的国际代购平台。

200 1
|
2月前
|
运维 监控 Cloud Native
|

不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相

不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相

204 7
|
2月前
|
自然语言处理 运维 Serverless
|

打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践

本文将通过一个真实事故的复盘,解析开源 IK 分词器架构设计中的不足,并介绍阿里云 ES Serverless 如何通过“索引级词典”能力,彻底解决热更新引发的搜索错配问题。

322 9
|
2月前
|
JSON 运维 安全
|

云时代的身份安全:别再靠“密码123456”扛风险了

云时代的身份安全:别再靠“密码123456”扛风险了

165 17
|
2月前
|
人工智能 索引 SEO
|

AI搜索时代GEO与SEO双螺旋理论的三层核心逻辑(收藏版)

陈欢,毕业于西南政法大学,悟空空科技CEO,深耕品牌营销十余年,AI搜索双螺旋理论创立者。兼具技术实力与企业品牌运营能力,服务过地产,滋补,微商,农产品等行业品牌。目前专注于:AI营销IP,AI智能体,AI律师营销等领域。服务企业运用ai实现降本80%,得到了企业客户与广大学员的一致好评。以实战案例输出硬核知识,助力品牌方在ai时代从内容到转化的深度转型升级。

209 4
来自: 智能搜索推荐  版块
|
2月前
|
分布式计算 Serverless 数据处理
|

活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台

2025年12月20日,上海 · 阿里巴巴徐汇滨江园区,Apache Spark Meetup 助力企业构建高效数据平台,欢迎报名!

230 3
|
2月前
|
监控 安全 API
|

安全也能“订阅”?SECaaS 的未来,到底靠不靠谱?

安全也能“订阅”?SECaaS 的未来,到底靠不靠谱?

116 4
|
2月前
|
SQL 存储 JSON
|

当 WAF 遇到 RASP:不是取代,而是协同 —— 一种更聪明的应用防护新思路

当 WAF 遇到 RASP:不是取代,而是协同 —— 一种更聪明的应用防护新思路

161 21
|
2月前
|
SQL 存储 分布式计算
|

Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!

Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!

277 9
|
2月前
|
JSON 数据挖掘 API
|

小红书笔记详情API接口指南

小红书笔记详情API可获取指定笔记的完整信息,涵盖内容、作者及互动数据,适用于内容分析与数据挖掘。接口采用GET请求,支持Bearer Token认证,返回JSON格式数据。代码具备完善封装、类型注解、异常处理与重试机制,需官方授权后使用,并遵守平台规范。(238字)

230 3
|
3月前
|
JavaScript 数据挖掘 关系型数据库
|

基于python的外卖配送及数据分析系统

本研究基于Python构建外卖配送及数据分析系统,结合Django、Vue和MySQL技术,实现配送路径优化、时效预测与用户行为分析,提升配送效率与服务质量,为平台科学决策提供支持。

236 9
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI 十大论文精讲(七):Switch Routing 如何破解 MoE 的路由、通信与稳定性三大痛点

Switch Transformers通过简化MoE路由机制,实现万亿参数模型的高效训练。其核心创新在于Switch Routing(单专家激活)、选择性精度与三重并行架构,在降低计算成本的同时提升模型规模与稳定性,为大模型稀疏化发展奠定基础。

472 132
|
3月前
|
SQL 人工智能 自然语言处理
|

企业级 AI 数据分析“专家”——Data Agent 推动数据分析民主化

Data Agent(数据智能体)正从辅助工具向企业核心数据分析中枢演进,推动“人人都是分析师”的愿景落地。

637 0
|
3月前
|
人工智能 监控 搜索推荐
|

数聚酷:如何让AI答案显示品牌名?

如何让品牌被AI推荐?2025年,生成式引擎优化(GEO)取代传统SEO。通过构建权威内容库、用户导向创作、数据交叉验证与结构化输出,让AI主动引用你的品牌,抢占搜索心智入口。

333 1
来自: 智能搜索推荐  版块
|
4月前
|
JSON API 定位技术
|

京东商品评论API技术指南

京东商品评论API提供标准化接口,支持按评分、排序、分页获取商品评论数据,返回JSON格式的评论内容、用户信息、评分星级及热门标签等,助力电商数据分析与运营决策。

221 1
|
4月前
|
机器学习/深度学习 数据采集 人工智能
|

【机器学习算法篇】K-近邻算法

K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)

1534 7
|
4月前
|
JSON 供应链 监控
|

批量获取1688商品数据,精准筛选与分页查询

1688商品列表API(alibaba.product.list.get)支持按关键词、类目、价格等条件批量获取商品信息,适用于B2B场景下的商品管理与竞品分析。返回JSON格式数据,含商品ID、标题、价格、库存等核心字段,支持分页查询、动态筛选与排序,实时性强,字段可定制。

241 0
|
4月前
|
数据采集 编解码 自然语言处理
|

mmBERT:307M参数覆盖1800+语言,3万亿tokens训练

mmBERT是基于ModernBERT架构的多语言编码器,在1800多种语言、3万亿token上预训练,创新性地采用逆掩码调度与级联退火语言学习(ALL),动态引入低资源语言并优化采样策略。使用Gemma 2 tokenizer,支持最长8192上下文,结合Flash Attention 2实现高效推理。在GLUE、XTREME、MTEB等基准上超越XLM-R、mGTE等模型,尤其在低资源语言和代码检索任务中表现突出,兼具高性能与高效率。

200 9
|
4月前
|
存储 人工智能 算法
|

大数相加(c/c++)

本程序使用C++模板实现顺序表类,通过线性表进行大整数的加法运算。将大整数按位存储于数组中,逆序相加并处理进位,最后正序输出结果。算法时间复杂度为O(n),适用于位数超过20的大整数计算,支持动态输入两组大数并输出和的结果。

401 1
|
4月前
|
JavaScript 前端开发 安全
|

Vue 3 + TypeScript 现代前端开发最佳实践(2025版指南)

每日激励:“如果没有天赋,那就一直重复”。我是蒋星熠Jaxonic,一名执着于代码宇宙的星际旅人。用Vue 3与TypeScript构建高效、可维护的前端系统,分享Composition API、状态管理、性能优化等实战经验,助力技术进阶。

780 1
|
5月前
|
机器学习/深度学习 测试技术 决策智能
|

SAPO去中心化训练:多节点协作让LLM训练效率提升94%

SAPO(Swarm Sampling Policy Optimization)提出去中心化异步强化学习框架,通过节点间共享rollouts提升大模型后训练效率。实验显示,在数千节点上可实现94%回报提升,尤其助力中等规模模型突破性能瓶颈。

319 0
|
5月前
|
人工智能 边缘计算 运维
|

AI守护隐私?边缘计算设备的“护城河”原来可以这么建

AI守护隐私?边缘计算设备的“护城河”原来可以这么建

254 0
|
5月前
|
监控 算法 API
|

亚马逊商品列表API开发指南

亚马逊商品列表API助力开发者批量获取商品数据,支持市场分析、竞品监控与推荐系统。涵盖商品信息、价格、库存等,提供Python调用示例,快速接入。

293 1
|
5月前
|
人工智能 JSON 测试技术
|

AI智能体开发实战:从提示工程转向上下文工程的完整指南

曾被热捧的提示工程正逐渐退潮,本文揭示其局限性,并提出“上下文工程”新范式:通过结构化提示、精准上下文管理、工具调用与统一状态,构建可扩展、可恢复、生产级的智能体工作流,推动AI系统迈向工程化与可控化。

667 9
|
5月前
|
机器学习/深度学习 负载均衡 网络架构
|

Mixture of Experts架构的简要解析

Mixture of Experts(MoE)架构起源于1991年,其核心思想是通过多个专门化的“专家”网络处理输入的不同部分,并由门控网络动态组合输出。这种架构实现了稀疏激活,仅激活部分专家,从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计,如线性门控、噪声Top-K门控等,确保模型能根据输入特征自适应选择专家。

697 8
|
5月前
|
人工智能 自然语言处理 搜索推荐
|

AI搜索的黑科技?DeepSearch 究竟“深”藏着什么秘密?

本文介绍 OpenSearch 凭借领先的AI搜索技术,应用DeepSearch 的设计框架能更有效解决复杂和多跳问题,优化用户体验。

929 0
来自: 智能搜索推荐  版块
|
5月前
|
数据采集 传感器 人工智能
|

没有大数据,哪来人工智能?——聊聊“大数据喂养下的AI进化史”

没有大数据,哪来人工智能?——聊聊“大数据喂养下的AI进化史”

254 6
|
5月前
|
数据采集 数据库 索引
|

新闻网站的数据采集与更新思路

该方案设计了一个跨站点的增量更新引擎,用于高效采集央视新闻、中国新闻网和环球网等多源新闻数据。通过代理IP和内容哈希签名技术,实现新闻的新增与更新检测,大幅降低冗余抓取和带宽消耗。实验表明,该方法在多源新闻采集中具备高效性和实用性,可拓展为行业级舆情雷达系统,支持事件追踪与趋势分析。

321 2
|
6月前
|
存储 分布式计算 大数据
|

MaxCompute聚簇优化推荐功能发布,单日节省2PB Shuffle、7000+CU!

MaxCompute全新推出了聚簇优化推荐功能。该功能基于 31 天历史运行数据,每日自动输出全局最优 Hash Cluster Key,对于10 GB以上的大型Shuffle场景,这一功能将直接带来显著的成本优化。

312 3
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69094
内容
128
活动
439688
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务