从百度视频看大数据与人工智能

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据与人工智能是具体如何应用的。

一,大数据个性化决策


个性化决策无疑是难度最高的,因为个性化决策是根据用户行为记录来为用户做出相应的推荐。



百度在无线端有大量的产品,其中用户数过亿的APP就多达14款。百度内部有专门的团队,分析用户在这些APP中的行为,利用算法估算用户的年龄、性别、职业、兴趣等特征。


这一技术在百度工程师那里称为用户建模,这些数据来自于用户手机里安装的百度应用如“百度地图”、“百度贴吧”、“百度魔图”外加一些使用百度开放接口的应用诸如“糗事百科”等等,百度是能够通过这些数据进而来为用户建立动态模型。


百度视频的个性化推送是典型的利用群体智慧来解决个体需求的例子。传统的视频APP通常以广播的方式为用户推送视频,即每个用户收到的消息内容是一样的,无法满足用户个性化的需求。百度视频的做法是,分析用户的历史观看记录,同时结合用户的性别、年龄、地域等特征,为用户建立兴趣模型,将用户可能感兴趣但却未观看过的视频推送给用户。


比如一个经常上动漫贴吧的用户,百度通过搜集大数据后判断其是20岁左右的大学生,在个性化推送上就和其他人群就有所不同,可能就会推送一些大学生圈子里比较流行的动漫以及韩剧之类。


简而言之,用户使用的百度系以及带有百度接口产品的产品越多,百度就能越能为用户建立个人模型,所有使用过的产品的数据会汇聚到百度云端,人工智能最后再绘制出一个人的画像,百度再根据这个画像再为每个应用进行大数据决策推送,再根据用户的反馈结果进行迭代试错,当然这是机器学习的部分,不必要再深入讨论下去。我画了一个简单的百度个性化推荐原理。



二,大数据群体化决策



1,个体与群体的价值思辨


之前我对百度个性化推送提出过缺陷的质疑,一旦当用户更换手机之后,百度就无法再次为其建立个人画像模型,进而也就失去了对于个人的意义,百度又要重新建立个人数据,十分麻烦。


而深入了解百度的大数据之后让我感到更有一番深度,百度的大数据并非只为个体用户服务,更重要的是建立群体宏观行为模型,通过这一整套模型为群体进行宏观决策,而群体决策部分的重要战略意义远远大于个体意义。


我对此的理解为:如果我们将人类整体行为看做为个体行为,那么同样的作为个人总有一些误操作,一些随机的非主流的边缘操作,而这些边缘操作对于机器学习来说只是噪声而非信号,是需要进行过滤的,那么机器就需要过滤掉这些没有价值的数据,将有价值的信号数据沉淀与固定下来,为整体行为进行决策。


所以在某种程度上,我们都会陷入个性化至上的错觉,而忽略群体数据决策的价值。再回到百度之前的个性化推送功能,这些推送一定是事先经过群体过滤过后的信号,再向用户推送后才会更戳中人心。比如百度通过数据判断出最新流行的韩剧是《来自星星的你》,而不是过气的《大长今》,继而向用户推荐《星星》,这些都不是人工的,完全是自动生成的。


也就是,这场思辨中我得出了一个关于大数据的重要结论,机器为个人的数据提供个人喜好的小范围数据,而群体大数据决策后的结果在为个体扩大范围。


个性化推送为个人提供确定性,为群体提供不确定性。而群体决策为个人提供不确定性,为群体提供确定性。


二者的噪声互为价值,二者的信号互为干扰。



2,人工智能或许永远无法超越人类


上次我和赵云峰还有刘峰老师在3W咖啡里讨论了人工智能的未来,其中我们谈论到了图灵测试,我们分析到图灵测试的程序虽然越来越厉害了,但这依然是工具而已,本质上人与人的博弈罢了,机器永远无法脱离人类进行自学习。


那么这里回到百度视频上来,百度目前做到了平均给每部视频贴上上百个标签,而且这些标签根据时间还在不断的更新与迭代,不仅如此,这些标签还在不断的自行关联。所以百度视频能够做到,搜索诸如“高智商电影”会出现《盗梦空间》、《禁闭岛》、《源代码》等等这样的关联。


有人问,这些成百上千的标签都是人工匹配的吗?如果这样,百度人力需要很多啊。实际上标签是机器全自动做好的。但制定标签还是需要人,机器应当是通过用户先搜索到某个关键词然后经过一系列的行为判断该关键词与某电影的关系,通过大量用户的反复出现的数据,机器再建立出这些关联。


假如有一天机器能够完全通过独立的自我学习,通过自身而不借助人类去关联这些标签词汇与电影的关系。那一刻才能算是真正实现了人工智能。


这只能说明我和赵云峰还有刘老师在3W咖啡的谈话是多么无聊的正确,对于机器来说,人类就像他们的发动机,他们无法做到产生真正的意识,他们无法像人类一样进行自我追问一切的起源,0与1的结构。


是啊,人类是多么孤独,因为只有人类才会意识到自己的孤独,而机器不会。但又或许,是我们正在共同创造机器的意识吧,这个超级有机体将会成为我们。




微信图片_20211124230304.jpg

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
22天前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
27天前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
27天前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
29天前
|
存储 人工智能 算法
AI与大数据的结合:案例分析与技术探讨
【8月更文挑战第22天】AI与大数据的结合为各行各业带来了前所未有的机遇和挑战。通过具体案例分析可以看出,AI与大数据在电商、智能驾驶、医疗等领域的应用已经取得了显著成效。未来,随着技术的不断进步和应用场景的不断拓展,AI与大数据的结合将继续推动各行业的创新与变革。
|
1月前
|
SQL 人工智能 分布式计算
飞天发布时刻:大数据AI平台产品升级发布
阿里云飞天发布时刻产品发布会围绕阿里云大数据AI平台的新能力和新产品进行详细介绍。人工智能平台PAI、云原生大数据计算服务MaxCompute、开源大数据平台E-MapReduce、实时数仓Hologres、阿里云Elasticsearch、向量检索Milvus等产品均带来了相关发布的深度解读。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】python之人工智能应用篇——视频生成技术
视频生成技术是一种基于深度学习和机器学习的先进技术,它使得计算机能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。这种技术主要依赖于深度学习模型,如生成对抗网络(GAN)、自回归模型(Auto-regressive Model)、扩散模型(Diffusion Model)等。其中,GAN由两个神经网络组成:一个生成器用于生成逼真的图像或视频,另一个判别器用于判断生成的图像或视频是否真实。通过不断的对抗学习,生成器和判别器共同优化,以产生更高质量的视频。
35 2
|
1月前
|
人工智能 分布式计算 大数据
大数据AI产品月刊-2024年7月
大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
27天前
|
人工智能 分布式计算 大数据
大数据及AI典型场景实践问题之“开发者藏经阁计划”的定义如何解决
大数据及AI典型场景实践问题之“开发者藏经阁计划”的定义如何解决
|
2月前
|
分布式计算 Apache Spark

热门文章

最新文章