5G+AIoT技术大趋势和产业机遇系列之 AI有多么不智能

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 过去几年时间,人工智能总伴随着莫名其妙的传说以及耸人听闻的新闻报道,AI需要祛魅。

作者介绍
   唐云峰,1999年创建“站长工厂”网站,提供网站建设技术与资讯、开源软件下载、托管应用、桌面虚拟化等服务。2009年起投身物联网与NLP(自然语言处理)领域,2017年担任中韩未来革新加速器(SKFI)社长,专注于IoT企业投资与技术赋能。
    2018年底成为2018~2019年度阿里云MVP,此次应阿里云开发者社区之邀,参与“MVP时间”策划的5G+AIoT系列专题创作。

内容概述
   “夏虫不可以语于冰者,笃于时也。”
    5G的想象空间与应用并不能在4G时代去规划,但从业者可以沿着4G技术对于现有应用与场景的支撑不足展开一些近期可能的产业机遇分析。
    AI与IoT目前的技术边界决定了AIoT的融合会产生什么样的效应或者说是技术工具,严格来讲作者是立足于互联网从业者角度去看待5G的产业发展的,所关注的也更多是应用场景。最后将以个人视角展开几个应用场景,管窥蠡测其中的工程难题与产业机遇。

文章目录

  1. 移动通讯与互联网应用演进与革新
  2. IoT发展现状(物联网这个事情有多么的不高级)
  3. AI有多么的不智能
  4. 如果把人类的历史看成IoT(万物互联)的演化历史
  5. 那么现有的技术会带给物联网什么样的未来呢?
  6. 实现AIoT(万物智能)会带给我们怎样的挑战并带来怎样的产业机遇

更新计划
   自2019年11月27日起,每周更新一篇,感谢关注,期待交流。虽然内容准备很正经,但是我尽量说人话,讲故事,谈场景。该系列自我要求:多一点感性认识,少一些理性分析。不是提倡反智,而是甘为搬运工。

为了减少劳动而更加努力劳动

看看标题都觉得这是《动物庄园》里的口号,我这里分享的是个人接触AI的故事。

数据库重构是一个重体力劳动

    1999年一位忘年交好友,做了一个人物数据库的网站,可以查询上千位名人的生平资料。后来,我们团队接手了这个项目的运营。人物的资料库从最初的1300多,扩展到2.6万条,相关的文章多达数万篇。
    最初的人物资料就是一篇篇文章,人物的各个属性都不是独立的字段。为了实现按照生卒年排序或查询,不得不对数据库进行重新设计。
    重新设计之后的数据库,需要把原先的资料按照新的字段进行填写。海量的工作对于我们之后5个兼职志愿者来说,兼职就是不可能。

有些工作是重复劳动

   愚公移山对于我们来说算是一种信念了,夜以继日,日复一日。两个多月过去了,资料转换仅仅完成了不到十分之一。
   渐渐的总结了一些规律出来,比如某些字段的开始总是有特定词语的。或者在出现某些词语的句子里面出现的数字,总是有特定的格式或者特定的意义的。
   于是我尝试编写了一个程序,把人物资料当中的生卒年,出生地,姓名等基础信息提取出来。当然使用的是全文检索的模式,虽然对于计算机来说是效率不高的一堆指令集合。
   但是这个程序却解放了我们,有点类似于很多AI的初学者用Python写的爬虫。处理了数据才有后面的分析数据。

关键词是什么?

   更大的调整自然发生在简单问题解决之后。
   每一位人物的简介、关键词都是人工添加的。在释放了大量的人力之后,我们不断折腾的路又一次开始走偏。
   每一篇文章需要完整阅读之后才能总结出关键词。我们尝试过词频统计的方式来总结关键词。然而那个时候我们弄出来的东西都是一些很奇怪的结果。因为中文分词,中文词语和英文词语最大的区别是,中文的语素之间是没有空格的。导致大量的“词语”并不是真正的词语,有一些是截断的内容。
   我们做了一个词典库,出现在词典里面的才能被认为是词语。然而,更棘手的问题出现了。统计出来的确实是一个词,但是有可能是从别的词上切下来的一部分。
   针对这种情况,又尝试着做了词语的权重。机械且传统的方式,调整了一个程序算是勉强能用了。因为再这样做下去,我们发现我们都可以做搜索引擎了(确实,但那是另外一个故事)。

根据描述判断好人还是坏人

   这只是一个比喻,我们团队发生过争论,要不要去判断一个人是什么职业、历史褒贬之类的信息。
   因为这些褒贬信息总是能够伴随着一些词语的词频展现出来。
   同样的,每一位历史人物的描述上也能够找到职业的归属。
   终于,我们基于朴素的统计方法和传统的语言学的知识无法解决我们的需求了。
   NLP(自然语言处理)进入了我的视野,然而当时能够找到的中文NLP一片荒凉,能够参考的只有哈佛的一些论文、哈尔滨工业大学、复旦大学搞得试验性的开源项目。

AI还只是个孩子,需要有人教

   当我费力地学会了一些Java的皮毛之后,更加费力地部署了FudanNLP,获得了前所未有的便利。
   依存句法分析、指代消解、分类、聚类想都不敢想的玩法出现在了面前。
   基于半监督学习,NLP提供给我一个新的思路。传统靠编程,AI靠教育。
    虽然NLP玩法很丰富,但是针对我们具体场景的需求则需要单独训练,我们的训练语料没有演示的语料那么齐全,还需要大量的标定工作。
   为了偷懒,付出了比踏踏实实做更高的成本。因为你需要教育个非人类物种理解人类的语言。为此,我学习了大量的数学相关的知识。作为一个文科生,被AI实实在在教育了一番——“不想当数学家的程序员不是一个好的语文老师。”

AI的工作方式有何不同?

   编程是通过告诉计算机要做什么,每一步操作都可以被预期,甚至出现的每一个bug都能找到原因。
   有传言AI的可预期只是在可以接受的概率下的可靠,甚至不知道AI是如何想的。
   其实,AI没有那么可怕。很多时候让我有了一些错觉,只是其中的数学方法藏的很深,深到了不容易甚至无法对应到现实意义当中。
   打比方是不准确的,但却容易让人理解。“教会了AI之后,AI按照你预想的结果不断修正自己的输出,如同耍猴人不停鞭打做错动作的猴子,耍猴人并不清楚猴子怎么想的,也不屑知道猴子怎么想。”
   或许正因为如此,让很多人对AI应用在涉及人类安全的领域,有一种莫名的恐惧。

当前AI的工作特点是简单重复

   大量简单重复的工作才是AI的应用领域,不论是写诗还是作曲,人脸识别或者语音控制。
   能否有更多的拓展呢?训练素材和算力才是制约,哪个领域的素材丰富需求的算力可承受,哪个领域的人工智能应用就发展得快。
   当前的好AI,是一个专家,只能完成特定任务的专家。

阿里云PAI平台&AI服务

   只要有标定好的数据,你可以不懂数学,不懂编程依然能够训练自己的人工智能算法。大家可以使用PAI,尝试一下,当一个人工智能教师。
   没有数据,也可以开始使用人工智能,语音识别、图像识别、翻译、自然语言处理等通用能力已经被阿里云做成了通用服务,不需要重复造轮子了。

下期预告

   本期通过介绍个人的AI接触故事,下一期我们将一起继续技术视角的人类历史课。

目录
相关文章
|
2天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
65 48
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
37 11
|
4天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的应用与挑战####
本文旨在探讨人工智能(AI)技术在医疗健康领域的创新应用及其面临的主要挑战。通过深入分析AI如何助力疾病诊断、治疗方案优化、患者管理及药物研发,本文揭示了AI技术在提升医疗服务质量、效率和可及性方面的巨大潜力。同时,文章也指出了数据隐私、伦理道德、技术局限性等关键问题,并提出了相应的解决策略和未来发展方向。本文为医疗从业者、研究者及政策制定者提供了对AI医疗技术的全面理解,促进了跨学科合作与创新。 ####
|
2天前
|
人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第31天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念开始,然后详细介绍其在医疗领域的应用,包括疾病诊断、药物研发、患者护理等方面。最后,我们将讨论AI技术在医疗领域面临的挑战,如数据隐私、算法偏见等问题。
|
2天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
4天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。
|
4天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
机器学习/深度学习 人工智能 自然语言处理
|
6天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
35 2