【关于增加话题奖品,鼓励原创的公示】
社区话题自推出以来就受到了社区用户的欢迎,许多用户给出了精彩的观点,但我们也发现不少获奖的回答存在抄袭的行为,因此我们决定:
在本话题下额外增加三个打赏名额,鼓励原创、有自己观点的回答用户:程序员大凯、小周sir、嵌入式视觉,这些获奖用户可以直接前往积分商城1积分专区兑换双肩包礼品。
今后对于话题讨论进行严格审核,对于存在抄袭的回答,一律不发礼品。图文并茂、内容丰富固然重要,但是我们更重视有观点的原创表达!
最近阿里巴巴达摩院发布了2023十大科技趋势,其中涵盖了生成式AI、云原生安全、双引擎智能决策、软硬融合云计算体系架构等科技创新,详细内容请前往《达摩院2023十大科技趋势》,了解最新科技趋势。今天我们来聊一聊生成式AI这个话题~
相信AI绘画技术,各位一定不陌生吧。输入一句话,AI技术将根据这段文字描述自动生成一副艺术创作画。这其实就是图像生成技术(text to image),也属于生成式AI范畴。近期,Diffusion Model模型风头正盛,有人称该模型将成为图像生成领域中的下一个代表模型,关于Diffusion Model的讨论研究热度也盖过了曾经风靡图像生成的GAN网络。
如何看待近期生成式AI应用的井喷式高速发展?如图像领域的Diffusion Model、智能对话领域的ChatGPT等,你觉得生成式AI将会给人类创作力带来哪些帮助?随着生成式AI智能化的不断提高,AI是否会成为有智慧的机器?
本期话题:
● 你觉得近期哪些算法模型更具备“人类智慧”?GPT-3或Stable Diffusion等大型AI模型是如何支撑生成式AI发展的?
● 生成式AI的应用边界将会如何扩张?如何让生成式AI成为安全可控、有伦理、负责任的技术?你觉得生成式AI会成为人工智能未来的主要发力点吗?
● 你觉得AI开源对国内人工智能领域发展有什么影响?是否体验过中文AI模型开源社区魔搭ModeScope?分享你的使用体验。
以上话题任选讨论,话题不限,友好发言哦!欢迎留言,分享你的观点!
本期奖品
截止2023年1月17日24时,本次话题将选取10名高质量的回答,奖励商务休闲双肩背包*1。
注:话题讨论要求原创,如有参考,一律注明出处,否则视为抄袭不予发奖。获奖名单将于3个工作日内公布,礼品将于7个工作日内发放,节假日顺延。
感谢各位开发者的精彩留言,本期话题的背包获奖用户为:huc_逆天、云言▪云议、1777394985180081、gashero_cn、科技Yttrium、离原、三掌柜666、前端技术栈、认真学习的heart、科技有我 ,已通过话题打赏功能发放,请尽快兑换礼品,逾期将视为主动放弃哦~ 其他用户也打赏了相应社区积分,欢迎大家参与话题互动哦~
近期来看,GPT-3是拥有"人类智慧"的模型之一。它的语言生成能力非常强大,能够生成高质量的文本。Stable Diffusion 也是一种具有人类智慧的算法模型。
GPT-3和Stable Diffusion等大型AI模型支撑生成式AI发展的方式是通过提供更强大的语言理解和生成能力,使得生成式AI在自然语言处理、文本生成、对话系统等领域取得了更好的效果。
生成式AI的应用边界将会扩张到更多的领域,如设计、文学创作等。要让生成式AI成为安全可控、有伦理、负责任的技术,需要在研究、开发和应用过程中贯彻伦理原则,并不断改进监管机制。
我认为生成式AI可能成为人工智能未来的主要发力点之一,但其他领域的发展也非常重要。
AI开源对国内人工智能领域发展有积极的影响,可以提高研究和开发水平,促进产业发展。我并没有使用过中文AI模型开源社区魔搭ModeScope,所以对此无法分享使用体验。
“生成式AI是激发人类创作灵感还是会替代人类艺术创作?”这个话题非常好。
最早的话,感受到生成式AI的魅力,是对于直播AI机器人的展示。从华智冰,到后来的AI直播人,都无非是生成式AI的实践。
第一时间,去研究最新的AI模型、AI算法,发现目前市面上能够看到的模型,都太简单,太简陋。通过这些模型,去构建自己的实践,很复杂,很困难。数据也没法达到想要的效果。 商业模型,往往有更稍好的效果,但是其实真的讲来说,都无法推进AI的发展。
如果真的对于AI开源,则会对国内人工智能领域发展有相当大的影响。AI 模型较为复杂,尤其是要应用于行业场景,往往需要重新训练,这使得 AI 只掌握在少数算法人员手中,难以走向大众化。而新推出的魔搭社区 ModelScope,践行模型即服务的新理念(Model as a Service),提供众多预训练基础模型,只需针对具体场景再稍作调优,就能快速投入使用。
魔搭社区首批合作机构包括澜舟科技、深势科技、智谱 AI、哈工大讯飞联合实验室、中国科学技术大学等,社区首批开源模型超过 300 个,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域积极探索,覆盖的主流任务超过 60 个。模型均经过专家筛选和效果验证,包括 150 多个 SOTA(业界领先)模型和 10 多个大模型,全面开源且开放使用。
魔搭社区地址:modelscope.cn 中文作画 AI 体验入口:https://decoder.modelscope.cn/ 社区鼓励中文 AI 模型的开发和使用,希望实现中文 AI 模型的丰富供给,更好满足本土需求。目前已上架的中文模型超过 100 个,占比超过 1/3,包括了一批探索人工智能前沿的中文大模型,如阿里通义大模型系列、澜舟科技的孟子系列模型、智谱 AI 的中英双语千亿大模型等。
魔搭社区重点提供了易用的模型使用平台,让 AI 模型跑起来不再困难,从代码下载到安装部署再到效果验证,以前往往需要数天,现在只要几个小时甚至几分钟。通过全新开发的调用接口和统一的配置文件,平台提供模型探索、环境安装、推理验证、训练调优等一站式服务,在线 0 代码就可体验模型效果,1 行代码实现模型推理,10 行代码实现模型调优和定制。平台还提供了在线开发功能和算力支持,无需任何安装部署,打开网页就可以开发 AI 模型。
看到下面还有一些相关模型,除了摘要生成, 还有基于PALM的一些商品文案和天气生成模型,也给出了代码推理示例,看起来就几行代码,真的可以load起来这么大的预训练直接推理吗?
想快速测试下,但笔记本没有GPU资源,很尴尬,突然发现有个可以打开的notebook,点击后发现了隐藏宝藏,免费GPU资源!!!!
速度很快,基本不到半分钟就打开了notebook,看起来好像有64小时的额度,不知道用完后换个账号行不行(o^^o)
毕竟是示例代码,应该是选过的,我又测了几个随便输入的看看行不行,直接度娘找了篇新闻(【国际锐评】中国的北斗成为“世界的北斗”-国际在线),输入之后效果还可以啊,做过生成的同学应该都知道,在摘要生成或者标题生成场景,模型都更倾向于生成开头的文字,这也和数据有很大的关系,这个模型捕捉到了后面的关键文本,难能可贵
往下滑后看到了模型训练部分,不过是基于摘要模型的continue train,还考虑到用户基于这个模型在业务数据上做二次开发,不过这里可能要注意一下,如果不是摘要任务,其他的生成任务,可能要点链接到另一个通用模型训练
再往下翻看,居然还看到了训练代码示例,第一次在README页面看到把训练代码贴出来的,这不得写个十页八页的,再往下翻明白为啥放在这了,因为总共就这几十行,还有一部分是注释
之前主要是基于hugging face的一些代码跑训练,看看这个训练怎么样,话不多说,直接复制代码到刚才到notebook看能不能跑,训练起来了啊,体验还是挺丝滑的。现在跑的是modelscope社区的一个lcsts数据集,看到注释还能自己load本地的数据集,构造方式应该类似于hf的数据集结构。后面尝试一下
整体试用下来第一感受是丝滑,基于notebook直接跑,摆脱了配置环境的烦扰,直接就能跑起来,可以看出发布之前应该是做了大量的测试和从开发者角度出发考虑。就是不知道实际训练后的效果怎么样,模型还在跑训练,如果训练的话估计64小时的免费体验就不太够了,不知道后续机器这块是不是要付费使用了。总体下来,感觉目标用户更多的是考虑到了小白用户或者刚接触ai的用户如何使用模型,这确实也是AI的未来,可能真的就是和现在的word,ppt一样,变成了每个人都需要的技能。
关于“生成式AI是激发人类创作灵感还是会替代人类艺术创作?”这个话题,我个人想要从以下六个方面入手和大家探讨一下:
1、在深度学习出现前人们就开始尝试利用AI生成内容了。 自然语言处理研究者在多年前就尝试利用词频来生成大段的文字,只是受限于模型难以构建复杂的关系,生成的内容只能说相邻的几个字是有关系的,组成的句子则难以接受。深度学习出现以后,自然语言处理上的复杂语法分析成为可能,能生成的内容也变得更加通顺。2014年在Ian Goodfellow提出GAN后,使得内容生成有了新的迭代进化方法。AI生成的内容不再仅仅是概率上说的通,而且能让更复杂的判别器难以区分真实数据和AI生成的数据。
2、多次获得国际知名的创意设计大奖“红点奖”的艺术团队Ouchhh或许能给这个答案带来一记漂亮的注解。 作为一家新媒体艺术创意机构,他们的工作内容定位于“多学科创意枢纽中心”,通过研究建筑、艺术、科学、技术、新媒体艺术和人工智能之间的关系来探索艺术的边界。 由他们带来的达· 芬奇AI狂想数据艺术沉浸展最近也正式亮相北京。与一般的艺术展不同,这场展览以数千亿的数据作为画笔,展现数字艺术的魅力。以文艺复兴、数据石碑和量子狂想曲三大内容作为主题,引领观众重回文艺复兴时期,参与一场特殊的赛博狂欢。 Ouchhh的每一场艺术展都震撼十足、耐人寻味。他们的作品不仅享誉世界,也获得了不少殊荣。世界上最大的数字雕塑《CONNECT HONG KONG》、全球首个NASA人工智能天文研究数据雕塑公共艺术《数据门》等等作品皆出自于这个团队。在AI与艺术交融的这个特殊领域,Ouchhh团队无疑走在了世界前列。
3、何谓艺术?艺术是凭借技巧、意愿、想象力等综合人为因素所创作的含有美学意义的表达模式,是人类思想与创作的结晶。 而人工智能所创造的艺术品则是深入学习后的“演算”结果,是机械的呈现并非思考的成果。随着时间推移,AI涉足艺术界的广度和深度越来越大,人工智能让艺术得到前所未有的发展,而艺术一定程度上也反作用在促进着人工智能的革新。 人工智能所创作的艺术品又称为人工智能艺术,指通过利用特殊算法或者深入学习所生成的程序性图像。1973 年,英国艺术家哈罗德· 科恩创造了世界上最早的人工智能艺术系统AARON。由黑白简易画到自动绘画,AARON的出现与发展为人工智能艺术的发展打响了第一枪。而让人工智能艺术真正走进人们视野的,是Google于2015 年所发布的计算机视觉程序DeepDream,它通过更为特殊的算法演绎从而创造出有如故意过度处理一样的迷幻画像。由此之后,人工智能艺术也随之开启了新阶段的发展。诸如OpenAI的DALL-E、微软的NUWA-Infinity、英伟达的GauGAN和开源的Disco Diffusion等人工智能绘画软件接连诞生,AI艺术正以前所未有的速度崛起。
4、更广义的Diffusion Model(扩散模型)是近期那些优秀机器学习模型的共同机制。 包括了生成对抗网络(GAN)、变分自编码器(VAE)、流模型(Flow)、波尔兹曼机(Boltzman Machine)、自回归模型等。通过良好设计的扩散过程,使得训练集的元素可以更好的结合到一起,无论是图像层面的组合还是复杂的语法。 AI生成的画作和文本现在已经越发复杂而超出预料,在可以线性判别的领域有着不错的效果。但大家也应该看到AI生成内容的一些局限。GAN的判别器可以做分类,也可以给出一个输入的好坏分数,但并不能判断对错。从AI画图的角度看,就是能生成很华美的画面,但对满足需求却不那么擅长。近期大火的ChatGPT可以生成大段看起来很通顺的文字,但与正确还有一定的距离。同时由于判别器里图画的信息量或文字的长度也是一个重要参数,使得AI生成的内容总是华丽和罗嗦。 AI生成内容在当前的状态,很适合生成只分好坏,不分对错的内容。像是生成的音乐、画作、文字都已经有了不错的结果。同时应用的开发者也应该小心,不应让AI生成的内容污染人类生成的内容。AI生成的内容还是源自训练集,其本身不会产生新的知识。一些似是而非的内容更是难以被读者所区分,对需要寻求知识的人会产生干扰。从这个角度看,利用ChatGPT等技术来辅助搜索是个好主意,但不应该把ChatGPT生成的内容作为主要结果提供给读者。
5、向好的方向看,AI生成内容,可以让人们可以欣赏的内容变得更加丰富。 我也十分期待AI生成内容可以出现很多意想不到的应用。AI与人类配合工作的领域里,有的是AI主导的,人类作为标注员。而早期想要推动合作,更好的方式是AI作为人类的助手,扩散模型已经表现出很多超出预期的行为,在成为更好的助手上未来可期。 十多年前,互联网行业出现了Web2.0的概念。意思是相对于Web1.0时代依靠网站编辑来生成内容,Web2.0的时代是用户生成内容(UGC)。Web2.0的时代,因为创作者更多,使得互联网的内容迎来了大爆发,人们可以享用的内容急剧增加。在AIGC即将爆发的黎明,虽然有我的担忧,但也非常期待人们可以享用的内容迎来新的大爆发。个人猜测是AIGC的时代,每个人看到的内容有可能不再是以往广播的,而是更有偏好性,更个性化的针对特定用户生成的内容。过去十几年的个性化推荐已经展现出了巨大的价值,但推荐的内容仍然是对所有人相同的,而AIGC的时代,针对每个人偏好生成的主内容相信会有很大的改变。
6、总而言之,“生成式AI是激发人类创作灵感还是会替代人类艺术创作”这并不在与AI技术本身,在在于使用者和使用AI方式的本身。 对于自身长期慵懒和那些骨子里就并不勤奋的人来说,生成式AI确实帮助他们完成了一些机械式工作并且影响了他们的艺术创作; 对于自身善于思考、天性勤奋的人来说,生成式AI也帮助他们完成了一些重复度高、机械式的工作,省下来的大部分时间可以让使用生成式AI的人去完成更加高难度、机器无法替代的那些富有创造性的工作,这毫无疑问就是激发了使用者的创作灵感。当然了,就目前来说,生成式AI既可能是人类创作的助手,也可能是人类创作的竞争对手。人类在利用生成式AI技术进行艺术创作时,需要谨慎地思考这项技术带来的机会和挑战。
在正式讨论之前我们先想一下,我们是站在艺术创作者的角度来看,还是普通人的角度来看,对于艺术创作者来说,那生成式AI可以提供大量的素材和创作灵感,但是对于普通人来说,艺术创作者的作品和AI作品差别不是很大。 生成式AI是人类创造出来的,但是不富含人类的感情色彩,,考虑到情感层次方面,生成式AI不会完全替代人类创作,为什么是不完全替代,可能在某一时间节点,生成式AI的作品会给人创作的灵感,人的创作灵感又会赋予作品感情色彩,这何尝不是一种相辅相成。 其二。生成式AI未来或许会成为一种生产力,这就需要我们不断优化其算法,使得更为准确,更为高效。更为低耗。但是不可以忽视人类在艺术创作方面无形但主要的作用,它完全可以为创作者提供大量的素材和灵感, 其三,作为一个艺术家,更重要的是创作的过程,能赋予作品情感色彩,在创作作品时,过程真的很重要,如果你把过程简化为输入文本并立即得到结果。那创作的意义何在? 最起码就目前而言,生成式AI并不能替代人类艺术创作,但是对激发人类创作灵感有很大的作用
个人觉得生成式AI不可能完全替代人类艺术创作,但会形成AI创作和人类艺术创作并存的局面,现在爆火的AIGC技术未来必将成为艺术创作者的福音。AIGC被认为是继PGC、UGC之后的新型内容创作方式,虽然目前还处于文案写作、图片生成阶段,但未来在音视频设计上将有非常大的想象空间,比如音乐创作、影视创作等。毫不夸张的讲,AIGC未来有望颠覆现有的内容生产模式,它的工业化创作能力先天就能够为创作者提供海量素材和灵感,在创意生成、个性化内容的设计上,为创作者提供新的内容和视角。
那么AIGC技术具体可以怎么能帮到人类艺术创作者呢?以作画为例。创作者可以详细地设计画作风格或者清晰地描述想要的元素,然后利用AIGC工具生成符合目标的画作内容,最后创作者基于AIGC作画产品可以进行二次创作,当效果不符合预期时,还可以在成品图的基础上加入更多的元素,使画作更接近预期。在整个过程中,创作者可以借助AIGC的强大生成能力来激发自身的创作灵感。
近期大火的ChatGPT就表现出了远胜以往自然语言处理的能力。生成的文字内容不仅通顺,逻辑上的前后呼应也不同以往,还结合了以往多个自然语言处理应用的能力。最近几天我还看到有人让ChatGPT生成了可以编译通过的单片机程序,当然这些程序只是确保语法正确可以编译通过,代码功能还做不到满足需求。但这也是个巨大的进步了,结合过去一两年的CoPilot等自动补全代码类的应用,AI辅助人类的工作已经上了一个新的台阶。如下是ChatGPT生成的Arduino闪耀LED的代码
在深度学习出现前人们就开始尝试利用AI生成内容了。自然语言处理研究者在多年前就尝试利用词频来生成大段的文字,只是受限于模型难以构建复杂的关系,生成的内容只能说相邻的几个字是有关系的,组成的句子则难以接受。深度学习出现以后,自然语言处理上的复杂语法分析成为可能,能生成的内容也变得更加通顺。2014年在Ian Goodfellow提出GAN后,使得内容生成有了新的迭代进化方法。AI生成的内容不再仅仅是概率上说的通,而且能让更复杂的判别器难以区分真实数据和AI生成的数据。
更广义的Diffusion Model(扩散模型)是近期那些优秀机器学习模型的共同机制。包括了生成对抗网络(GAN)、变分自编码器(VAE)、流模型(Flow)、波尔兹曼机(Boltzman Machine)、自回归模型等。通过良好设计的扩散过程,使得训练集的元素可以更好的结合到一起,无论是图像层面的组合还是复杂的语法。
AI生成的画作和文本现在已经越发复杂而超出预料,在可以线性判别的领域有着不错的效果。但大家也应该看到AI生成内容的一些局限。GAN的判别器可以做分类,也可以给出一个输入的好坏分数,但并不能判断对错。从AI画图的角度看,就是能生成很华美的画面,但对满足需求却不那么擅长。近期大火的ChatGPT可以生成大段看起来很通顺的文字,但与正确还有一定的距离。同时由于判别器里图画的信息量或文字的长度也是一个重要参数,使得AI生成的内容总是华丽和罗嗦。
AI生成内容在当前的状态,很适合生成只分好坏,不分对错的内容。像是生成的音乐、画作、文字都已经有了不错的结果。同时应用的开发者也应该小心,不应让AI生成的内容污染人类生成的内容。AI生成的内容还是源自训练集,其本身不会产生新的知识。一些似是而非的内容更是难以被读者所区分,对需要寻求知识的人会产生干扰。从这个角度看,利用ChatGPT等技术来辅助搜索是个好主意,但不应该把ChatGPT生成的内容作为主要结果提供给读者。
向好的方向看,AI生成内容,可以让人们可以欣赏的内容变得更加丰富。我也十分期待AI生成内容可以出现很多意想不到的应用。AI与人类配合工作的领域里,有的是AI主导的,人类作为标注员。而早期想要推动合作,更好的方式是AI作为人类的助手,扩散模型已经表现出很多超出预期的行为,在成为更好的助手上未来可期。
十多年前,互联网行业出现了Web2.0的概念。意思是相对于Web1.0时代依靠网站编辑来生成内容,Web2.0的时代是用户生成内容(UGC)。Web2.0的时代,因为创作者更多,使得互联网的内容迎来了大爆发,人们可以享用的内容急剧增加。在AIGC即将爆发的黎明,虽然有我的担忧,但也非常期待人们可以享用的内容迎来新的大爆发。个人猜测是AIGC的时代,每个人看到的内容有可能不再是以往广播的,而是更有偏好性,更个性化的针对特定用户生成的内容。过去十几年的个性化推荐已经展现出了巨大的价值,但推荐的内容仍然是对所有人相同的,而AIGC的时代,针对每个人偏好生成的主内容相信会有很大的改变。
机器学习发展至今,已经变得越来越昂贵。机器学习工程师的努力之外,我也很希望能获得这些优秀机器学习模型来做出有趣的应用。近期看了机器学习模型分享网站Model Scope https://www.modelscope.cn/ ,里面就有非常多训练好的模型可供下载和尝试。机器学习早已不是几年前大家都想试试的状态。现在能够惊艳大家的机器学习模型,往往在数据收集、标注、训练等方面花费巨资,一些顶尖模型的训练成本甚至可达数千万人民币。此时通过ModelScope这类网站为桥梁,让应用工程师和机器学习工程师可以分头做自己最擅长的工作,就成为未来有趣应用的起点。
关于生成式AI的一些讨论,尤其是GPT系列的自然语言处理相关的讨论,我近期看到比较专业的一个讨论在
作为一名大前端开发者来说,最看重的就是web3.0的进一步发展以及推广速度。说到web3.0就不得不说元宇宙,就拿今年的支付宝集五福活动,就用到了元宇宙的功能:福气乐园,这也是为什么元宇宙越来越成为触手可及的,而不是虚无缥缈的。
话又说回来了,元宇宙的发展和人工智能的发展息息相关,人工智能的发展又和大数据、云计算又脱不了关系,所以最近几年的热点技术其实都是相通的,那么这里聚焦一下,单纯那人工智能来讲,刚过去的2022年最具代表性的AI应用非ChatGPT莫属,而且ChatGPT的模型也是目前更具备“人类智慧”的,它的问世,一下子刷新了技术人的新认知,突然觉得有一种短暂性的危机感,但是呢,当我们使用了ChatGPT之后,就有放心了,ChatGPT的出现不是替代任何人的工作,反而ChatGPT的出现是为了更好的服务“工具人”的工作,是给我们的工作排忧解难,甚至是锦上添花的事情,所以不必担心ChatGPT会砸了饭碗。
ChatGPT虽然很强大,但是针对一些复杂的实际场景它也有不完善的时候,尤其是比较复杂的问题,它也不能很好的给出答案,所以ChatGPT还有很长的路要走,就比如之前的阿尔法狗,也是迭代了还几次才打败了世界第一的围棋选手,所以我觉得ChatGPT的出现暂时还不能冲击到目前的行业岗位。
AI领域的快速发展和不断创新,关于云计算相关的要求也逐渐提高,尤其是更高级别的算力要求,各种复杂场景模型的要求,还有就是更高量级的数据存储的要求,所以AI领域的高度是由云计算相关能力来决定的,软件层面和硬件层面缺一不可,所以云计算的更高的发展就在这些方面。
我觉得从刚开始的阿尔法狗到现在的ChatGPT,是人工智能的迭代发展史,也是人类文明进步的产物,每一次的变革都是人们追求美好事物的体现,GPT-3或Stable Diffusion等大型AI模型也是何支撑生成式AI发展的代表和典范,生成式AI发展需要像GPT-3或Stable Diffusion等大型AI模型的具体体现。所以在不久的奖励,会有更多的生成式AI的应用出现,而且这些应用的出现不是为了打败任何人,而是为了帮助人们解决实际生活中的任何问题。
这取决于人们如何使用生成式AI。如果它用来在原有作品的基础上生成新的作品,那么它会带给人们创作灵感。但如果它用来替代人类,生成能够与人类技术无异的艺术作品,那么它就会替代人类艺术创作。
生成式AI可以帮助人们以更有效的方式创作艺术作品,节省时间和精力。它还可以帮助人们在没有太多训练和技术知识的情况下也能轻松地创作艺术作品。此外,生成式AI还可以通过自动扫描图像、文字和其他媒体来分析它们,并以各种形式复制它们,从而帮助人们产生新的概念和创意。
我们首先得知道生成式 AI是什么?简单来说就是一种机器学习技术,其主要目的是通过训练模型来生成新的内容。在艺术领域中,生成式 AI 可以用来生成音乐、图像、视频等内容。DELLA2 SD Mid这些产品我从一开始就玩起来了,那个时候出现很多很多言论,我简单分享一下我的想法
生成式 AI 确确实实可以被用来激发人类创作灵感时,它可以帮助艺术家生成新的灵感和素材。它可以用来生成新的音乐和视觉效果,并帮助艺术家更快地创作。也可以让艺术走进我们老百姓的生活——何出此言呢?给大家看看我生成的图片 这图片很好看把——风格是梵高的,我也是因为这样子才去仔细了解到梵高每个时期的创作风格
我选择的话题:你觉得近期哪些算法模型更具备“人类智慧”?GPT-3或Stable Diffusion等大型AI模型是如何支撑生成式AI发展的? 回答如下: 近期,有几种算法模型被认为更具有“人类智慧”。其中一种是 GPT-3(Generative Pre-trained Transformer 3),它是由 OpenAI 公司开发的一种语言模型。GPT-3 可以生成人类般的文本,并且能够在多种语言和领域中进行文本生成。另一种是 Stable Diffusion 算法,它是由 Google Brain 团队开发的。Stable Diffusion 是一种用于生成式模型训练的算法,能够生成高质量的图像和视频。
GPT-3 和 Stable Diffusion 等大型 AI 模型支撑生成式 AI 的发展,因为它们提供了更高效和准确的生成算法。这些模型使用了大量的数据和计算资源来训练,并且通过使用高级的深度学习技术来提高生成质量。这些算法模型的出现,使得生成式 AI 在文本、图像、音频等领域取得了显著的进展,越来越卷咯哈哈。
生成式AI是激发人类创作灵感还是会替代人类艺术创作?个人觉得这个不用担心,AI作为科技,纵有科技改变生活之说,何来科技替代生活之言。相反有了AI,更能激发人类的创作灵感,我体验过中文AI模型开源社区魔搭ModeScope,初次体验是在2022年8月份,当时我体验人像美肤以及人像卡通化的模型,个人体验感很强,很新奇,就是当时产品初期对于照片的像素,大小,类型,以及最后的处理效果,都有一点不是很生动到位,现在过去几个月在看社区魔搭ModeScope,除了看到又增加了很多的模型以外 关于人像卡通化模型也进行了升级,测试的效果看到之前人像卡通化后效果图感觉不是很满意的地方这次都有了巨大的提升,如果说是人工手绘的,其实也没毛病,另外抖音上经常见到的生成式AI体验,这么说吧生成式AI不但可以激发人类创作灵感,更能丰富人们的艺术生活,一言以蔽之,科技改变生活。
人类擅长分析,还擅长创造,像诗歌、设计、编写程序代码等。以前,机器没办法在这些方面无法与人类抗衡,只能做些分析型或机械式的计算。但现在不一样了,AI发展现在,机器已经可以创造有美感的东西了,机器并非如之前那样仅分析已有的数据,而是生成了全新的东西。 生成式AI不仅正在变得更快、更便宜,而且在某些情况下,其它的结果比人类创造的还要好,每一个需要人类创造力的行业都有可能会AI被颠覆。某些岗位可能被生成式AI取代,有些则会在生成式AI的帮助下更好地促进人机协作,生成式AI将有非常广泛的终端应用市场,帮助人们更好、更快并以更低成本的方式去创作。生成式AI有可能会把创作与知识类劳动的边际成本降为零,提升生产力并创造巨大的经济价值。
昨天下午的时候有幸参与了举行的一项元宇宙话题会议,聆听了一些院士,专家,元宇宙开发团队对这些的讲解,让我深刻明白未来的发展离不开这些科技技术,就像元宇宙聚焦与社交链接的3D虚拟世界的大型网络,所谓的就是理由信息技术,将自然宇宙扩展为虚拟宇宙,人与宇宙间的关系从此,由单转向为双向。就像AI人工智能这方面,昨天来自清华大学博士导师讲解的关于人工智能结合元宇宙方面的讲解,我们可以通过AI人工智能,可以帮助我们做一些事情,比如帮我们做饭,倒垃圾,说话,陪伴,模仿我们生活的一些作息。AI改变着我们的生活,但是我们也需要不断的学习,把科技带向人民的生活当中
目前我对生成式AI的热衷带着一定的排斥,没有使用过类似的模型或者功能前,我想象着:ChatGPT可以回答我大部分问题;AI绘图能够帮我绘制一副“床前明月光,疑是地上霜”;开源的模型能写出起码通顺的文章,毕竟对于生成式AI的定义是,可以通过机器学习创造出完全原创的内容。 结果低于预期,又超出想象。
首先是ChatGPT的使用,它确实超出了预期,我询问它“使用flink做Checkpoint 访问oss那个请求api次数读写过高 使用jindo可以解决吗?” 但又从另外一方面超出了我的预期,我问他maxcomputer是数据仓库吗,它回答不是,官网就可以搜索出来的答案,回答似是而非,预期瞬间就掉了一大截。
然后是AI绘图,毕竟绘图嘛,我测试的时候用“月亮在上面,月光洒到我的床头”有点过分简单了,结果有点打脸,而且这功能居然是要付费的,想不通,单纯的自然语言处理尚且还处在一个可能商业化,可能不能商业化的范畴,何况是语言处理转文字。
模型用的是modelscope,我的输入是“一个人只要有勇气去冒险,天下就绝没有不能解决的事。张三就是这样一个人,那一天他来到了长安,遇到了一个卖酒的小孩”,反馈的结果如下: 这很优秀,每一个字我都认识,就是连在一起,我居然看不懂了。 如果将使用者比作皇帝,那目前生成式AI的官位可能就只能个五六品,远远没有到达宰相的地步,当然具体谋朝篡位的位置也还很远,当然也不可否认,生成式AI带来的是更便捷的生活,我可能不需要再在搜索栏中搜索问题,自己去找解决办法,而是通过生成式AI帮我查找,感觉不对就换一个,这一切的前提却还有个目前无法解决的问题,费用昂贵,这也是目前我认为生成式AI需要解决的问题。
近年来,在数字化大浪潮下,人工智能发展迅猛,被广泛应用在各行各业。当下,AI已经发展到了一个全新的阶段,即生成式AI,编程、游戏、平面设计、产品设计、市场营销、社交媒体,以及很多工作岗位实现人机协作,几乎各个需要人类原创力的领域都有可能被颠覆。在我看来,生成式AI算得上是未来几年的顶级战略技术了。
其实,生成式AI也很容易理解,就是通过各种机器学习方法,从数据中学习工件的要素,进而生成全新的、原创的、真实的工件,这些工件与训练数据保持相似,却不是复制的。简单来说,生成式AI就是利用现有文本、音频文件或者是图像来创建新内容,比如通过文字描述生成图像,再比如将听说读写等能力有机结合的数字主播,就是生成式AI的实际应用。
这里面的关键技术是生成式对抗网络(GAN),其本质是一种深度学习模型,主要是通过框架中的生成模型和判别模型两个模块的相互博弈学习产生相当好的输出。GAN最常使用的地方就是图像生成,例如,在人脸图像数据集上训练的生成模型可能会学习人脸的一般结构和外观,然后使用这些知识生成新的、以前未见过的但是看起来真实可信的人脸。
生成模型的工作原理是从大型数据集中学习,并使用这些知识生成与训练数据集中示例相似的新数据。其实,这种基础生成模型有很多不同的类型,比较常见的就是GAN、VAE和自回归模型,每一种都是使用不同的方法生成新数据。
生成式AI的实际应用,以GitHub Copilot为例,其通过通过对互联网上公开可用的计算机代码进行的LLM训练,能够根据程序员已经写好的内容推荐下几行代码,这就从根本上改变了软件工程师的工作性质。以前,软件工程师必须记住、搜索或推断程序的功能,而在生成式AI的加持下,他们可以直接用普通语言描述希望自己的程序片段做什么,如果在语言模型的能力范围内,就能够从无到有地生成代码。
据统计,现在很多开发人员使用Copilot,有近40%的代码都是由AI生成的,通过生成式AI做到补全代码,生产力和创造力都获得了极大的提升。基于此,也不难想象,随着生成式AI技术愈发成熟,即便不是程序开发人员,普通人也能轻松做到自行创作程序代码了。直白点说,就是让AI自动写代码。
再拿之前热度颇高的Dall-E 2来说,这是OpenAI基于生成式AI开发的一款图像生成工具,其能够根据用户需求生成所需要的图形。用户通过语言描述输入自己想要的图形风格,程序就可以快速生成相应的图像,并且其对绘画风格的模仿也是非常精准。对此,OpenAI曾经做过测试,先用Dall-E 2仿照一些画家的风格生成一大批图片,又把这些图片和画家本人的作品放在一起,然后让用户来进行分辨,结果显示,大多数人都无法分辨出哪些是原画、哪些是AI生成的。
这类生成式AI在图像处理领域的应用,还有StableDiffusion,而且其模型处理更加人性化。实际使用中,StableDiffusion能够根据用户的要求生成一组图片,用户感觉到其中哪一张比较满意,就可以存为种子,由此,程序就会记录这张图片的大致构图样式,在后续的图像生成中,就可以在这个基础上进行优化,用户就能很容易地得到自己满意的图片。
在我看来,生成式AI生“万物”完全有可能。除了在文本内容自动化,图像自动生成,音频自动生成或转换文本,自动生成或编辑视频,自动编程生成代码,聊天机器人,搜索上的人工智能洞察,自动设计、收集或总结数据等方面的尝试,还有生成式AI游戏工作室及其应用,通过3D打印、CRISPR和其他技术从零开始呈现假肢、有机分子和其他物品生成材料等等,这些都将陆续走进现实。随着技术的不断成熟,未来,生成式AI应用领域势必会越来越广泛,发展和应用前景非常广阔。
生成式AI是激发人类创作灵感还是替代人类艺术创作?
代替人类艺术创作是完全不可能,AI即使再智能也是辅助人类生产生活的工具而已!!
著名的AI人工智能研究公司OpenAI在去年12月1日推出了重磅的超级对话模型ChatGPT,在全球人工智能领域引发了轩然大波
ChatGPT为何如此备受关注?
其实在ChatGPT之前,已经有了一款生成式AI软件叫copilot,copilot在当时也备受关注,随着ChatGPT的退出,copilot的光芒慢慢被掩盖了,这是为什么?二者有何区别? 二者都是生成式AI的工具,都可以用来自动生成代码,copilot更多的是被用来补全全程序代码,AI通过对已有代码的分析、不断进行模型训练,也采取了一些AI智能搜索和爬虫,以此生成对开发者有利的数据;
ChatGPT则是采用了更先进更智能的训练模型,称为大规模预训练语言模型,集成了NLP(自然语言处理)+强化学习,在GPT-3预训练阶段就做到了多任务同时学习,类似于之前的prompt,也不难推断出在GPT-4会增加训练的数据集,也许会采用蓝脑计划项目中的模拟大脑结构的设计思路,并极有可能通过图灵测试,业界对它的展望是更希望能用于复杂的自然语言处理、机器翻译、文本生成。
对于“微软将ChatGPT整合到Bing中,以挑战谷歌”这个争议
简直是痴人说梦,Google在搜索引擎上的投入不是微软可以比的,微软最可能的做法是把ChatGPT做成一个ToB产品,披着ChatGPT的皮,以此去做宣传增大自己的热度,对于ChatGPT搞不定的问题,用自己的Bing去补充、完善和优化,实则还是一个搜索引擎,背后的AI技术来源还是OpenAI,想要挑战Google的地位,和登天的难度差不多!
所以生成式AI的未来发展趋势在哪里?会代替人类艺术创作吗?
要知道目前生成式AI正广泛应用于图像制作、电影修复和3D环境渲染的工具,未来的趋势也会和这几个行业相关,更加垂直和深入,比如:隐私保护、音频合成和降噪、趋势和欺诈评估等等,赋予模型更多的能力,达到商用的最佳效果,显而易见,再AI的未来趋势下也是达到一种辅助商用的效果,想要代替人类进行艺术创作完全不可能!
要知道,人类所创造的一切工具的目的都是为了辅助人们生产和生活,即便是再智能的机器人也是受人类控制,无法赋予机器人类大脑的思维能力和判断能力。
即便是前段时间火遍全球的ChatGPT,声称要让程序员下岗的对话模型,其原理还是基于机器学习模型,只不过人家的训练数据、训练方法和模型学习都是行业最先进的,本质上还是将海量的数据结合表达能力很强的Transformer模型结合,然后对自然语言进行了一个非常深度的建模,对模型进行不断的训练、学习、强化,但本质还是一个对话系统,也是会胡说八道的,无法替代人类进行完整的工作。
知道这幅画是什么吗?这幅画是由AIGC通过AI生成的作品,并获得了数字艺术类级别冠军,其使用的是人工智能算法绘图工具Midjourney绘制而成,这时候肯定有人会说:这不是已经证明了生成式AI能代替人类进行技术创作吗?
不着急,看看Midjourney绘图工具的原理就明白了,AIGC写的很清楚,Midjourney是一款由人工智能驱动的工具,根据用户的提示生成图像,这就很清楚了,Midjourney同样需要人类输入文本和参数,通过训练后模型生成图像,归根到底还是需要人类介入。
在看到达摩院对2023年十大科技趋势中,让我陷入了沉思。 在AI的时代, 生成式AI似乎在2023年会迎来井喷式的增长。 生成式AI的应用场景囊括了: - 图文创作; - 代码生成; - 游戏; - 广告; -平面设计 等 ;
在回顾2022年, 在技术的展示主要有: - 图像生成 - 自然语言处理 - 代码生成
这在2023年, 随着业务/应用不断的增长, 生成式AI必将成为广泛化的技术。 同时, 这也会极大的推动了数字化内容的生产力,将其应用拓展到更多的领域中。
最近一年出现的生成式AI技术使得很多人担心起自己的工作。恐惧来自未知,更多的了解生成式AI技术,有助于更好的作出判断。技术的发展是指数式的,于是人们总是高估技术在短期的影响,而低估技术的长期影响。三四年前还分不清猫狗的AI,也不会在这几年就突然变身天网,但十年后的变化则是难以估量的。
近期大火的ChatGPT就表现出了远胜以往自然语言处理的能力。生成的文字内容不仅通顺,逻辑上的前后呼应也不同以往,还结合了以往多个自然语言处理应用的能力。最近几天我还看到有人让ChatGPT生成了可以编译通过的单片机程序,当然这些程序只是确保语法正确可以编译通过,代码功能还做不到满足需求。但这也是个巨大的进步了,结合过去一两年的CoPilot等自动补全代码类的应用,AI辅助人类的工作已经上了一个新的台阶。如下是ChatGPT生成的Arduino闪耀LED的代码例子:
在深度学习出现前人们就开始尝试利用AI生成内容了。自然语言处理研究者在多年前就尝试利用词频来生成大段的文字,只是受限于模型难以构建复杂的关系,生成的内容只能说相邻的几个字是有关系的,组成的句子则难以接受。深度学习出现以后,自然语言处理上的复杂语法分析成为可能,能生成的内容也变得更加通顺。2014年在Ian Goodfellow提出GAN后,使得内容生成有了新的迭代进化方法。AI生成的内容不再仅仅是概率上说的通,而且能让更复杂的判别器难以区分真实数据和AI生成的数据。
更广义的Diffusion Model(扩散模型)是近期那些优秀机器学习模型的共同机制。包括了生成对抗网络(GAN)、变分自编码器(VAE)、流模型(Flow)、波尔兹曼机(Boltzman Machine)、自回归模型等。通过良好设计的扩散过程,使得训练集的元素可以更好的结合到一起,无论是图像层面的组合还是复杂的语法。
AI生成的画作和文本现在已经越发复杂而超出预料,在可以线性判别的领域有着不错的效果。但大家也应该看到AI生成内容的一些局限。GAN的判别器可以做分类,也可以给出一个输入的好坏分数,但并不能判断对错。从AI画图的角度看,就是能生成很华美的画面,但对满足需求却不那么擅长。近期大火的ChatGPT可以生成大段看起来很通顺的文字,但与正确还有一定的距离。同时由于判别器里图画的信息量或文字的长度也是一个重要参数,使得AI生成的内容总是华丽和罗嗦。
AI生成内容在当前的状态,很适合生成只分好坏,不分对错的内容。像是生成的音乐、画作、文字都已经有了不错的结果。同时应用的开发者也应该小心,不应让AI生成的内容污染人类生成的内容。AI生成的内容还是源自训练集,其本身不会产生新的知识。一些似是而非的内容更是难以被读者所区分,对需要寻求知识的人会产生干扰。从这个角度看,利用ChatGPT等技术来辅助搜索是个好主意,但不应该把ChatGPT生成的内容作为主要结果提供给读者。
向好的方向看,AI生成内容,可以让人们可以欣赏的内容变得更加丰富。我也十分期待AI生成内容可以出现很多意想不到的应用。AI与人类配合工作的领域里,有的是AI主导的,人类作为标注员。而早期想要推动合作,更好的方式是AI作为人类的助手,扩散模型已经表现出很多超出预期的行为,在成为更好的助手上未来可期。
十多年前,互联网行业出现了Web2.0的概念。意思是相对于Web1.0时代依靠网站编辑来生成内容,Web2.0的时代是用户生成内容(UGC)。Web2.0的时代,因为创作者更多,使得互联网的内容迎来了大爆发,人们可以享用的内容急剧增加。在AIGC即将爆发的黎明,虽然有我的担忧,但也非常期待人们可以享用的内容迎来新的大爆发。个人猜测是AIGC的时代,每个人看到的内容有可能不再是以往广播的,而是更有偏好性,更个性化的针对特定用户生成的内容。过去十几年的个性化推荐已经展现出了巨大的价值,但推荐的内容仍然是对所有人相同的,而AIGC的时代,针对每个人偏好生成的主内容相信会有很大的改变。
机器学习发展至今,已经变得越来越昂贵。机器学习工程师的努力之外,我也很希望能获得这些优秀机器学习模型来做出有趣的应用。近期看了机器学习模型分享网站Model Scope https://www.modelscope.cn/ ,里面就有非常多训练好的模型可供下载和尝试。机器学习早已不是几年前大家都想试试的状态。现在能够惊艳大家的机器学习模型,往往在数据收集、标注、训练等方面花费巨资,一些顶尖模型的训练成本甚至可达数千万人民币。此时通过ModelScope这类网站为桥梁,让应用工程师和机器学习工程师可以分头做自己最擅长的工作,就成为未来有趣应用的起点。
为了了解AIGC的一些发展状态,我在Model Scope上寻找一些自然语言处理方向的模型。不像ChatGPT注册都很困难,Model Scope无需登录即可执行测试。如下两张图分别是Model Scope社区里的"GPT-3夸夸机器人"和"GPT-3诗词生成模型"里我的测试。尤其第二个,我把古诗句做了些修改,发现对仗还算工整。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Ai生成海报优势:快速,节省时间,节省人力成本,尤其当甲方也没有明确想要什么风格的海报时,AI可以快速生成不同风格海报供甲方选择,有时候甲方不知道想要什么但是知道他不想要什么。这时候AI海报就可以在前期快速让甲方明确不想要什么风格不想要什么图案等需求。 Ai生成海报缺点:就是海报体现的人文情感可能会有所缺失,细节处理可能不完美。 人工手绘优势:创作者通过了解甲方产品或者企业文化等人文知识可以...
这个问题让我想到了作为程序员的一些日常体验,尤其是在音频处理和机器学习领域的工作。我觉得,AI音色克隆技术能够在某种程度上模拟人的声音特质,但它是否能完全模拟一个人的“真实特质”还是值得思考的。 首先,从技术角度看,AI能够通过大量的数据训练去学习一个人的音色特征,甚至是情感表达的细微差异。这种技术已经在一些语音助手、AI客服等领域有了应用。而且,现在的技术甚至能够通过模仿一些人的音色来创作...
所谓的AI新茶饮,其实是通过AI图像识别技术,茶饮店根据消费者的舌象和面象推荐合适的茶饮配方,实现个性化定制。比如当下我们可以看到的自动去皮机、智能称、智能出茶机等。 对于AI新茶饮,我认为当下就是一种营销噱头,茶饮点引入AI技术可能更多地是一种营销手段,用于吸引消费者的注意力。但随着大众需求的多样性和个性化越来越突出,加上AI技术的不断更新迭代,长期来看AI新茶饮反而是一种必然的发展趋势,...
P人出游,你是否需要一个懂你更懂规划的AI导游呢? LLaMA Factory是一款低代码大模型微调框架,集成了百余种开源大模型的高效微调能力,使您无需深入理解复杂算法即可轻松进行模型微调。阿里云的人工智能平台PAI提供一站式机器学习服务,覆盖从数据预处理到预测的全流程,并支持多种深度学习框架与自动化建模,大幅降低了使用难度。通过结合PAI与LLaMA Factory,用户能够充分发挥二者优...
AI可以利用自然语言处理技术来理解语境和人类的情感表达,从而调整其输出以适应特定观众群体的口味,就像一个经验丰富的喜剧演员会根据现场反应即时调整表演一样。然后,借助机器学习算法,AI还可以预测哪些话题或类型的内容更容易引起笑声,通过不断优化这些模型,理论上可以使AI创作的段子更贴近观众的期待。最后,尽管AI具备强大的数据分析能力,但真正的幽默往往源于深刻的人类体验和情感共鸣,而这是目前任何算...