文|小资

栏目|米塔之家.行业研究

图片来源 |稻壳

2022年的最后一月,朋友圈居然被一个聊天机器人刷屏。

它是美国科技企业OpenAI发布了聊天机器人ChatGPT,自开启免费公测之日,一时间火爆全球,成为元宇宙Web3领域的第一大热潮,短短一周吸粉便超过百万,就连马斯克也在感叹其风靡的程度,陷入ChatGPT的无限自娱自乐循环。

一款AI,它究竟拥有什么样的魅力,能让这么多人为之疯狂?

ChatGPT是GPT(或生成式预训练转换器)文本生成AI系列的最新发展,根据从互联网上获取的大量文本样本来进行训练。

它可以参加美国高校的入学资格考试(SAT);

用鲁迅的风格阐述今天的心情;

脱口秀张口就来;

构思简短的侦探小说;

简要阐释经济学理论;

给出消除经济不平等的计划;

写代码,修bug;

规划如何毁灭世界;

生成关键词指导AI作画;

哦,对了,它也会告诉你中美的AI差距。

总结下来,ChatGPT能完成一系列常见文字输出型任务,而且在和用户对话时,能记住对话的上下文,反应非常逼真。

如此智能的机器人对话模型,不再是过去那种简单客服式的对话。近年,人工智能创作内容(AIGC)已经飞速成长,甚至在很多领域大大超越了专家学者的精准性和博识水准。

例如,AI绘画凭借其独特的创意与便捷的创作工具迅速走红,甚至出现使用AI作画参赛获奖的新闻;同时,许多AIGC方面的公司正在飞速的成长,获取一笔笔的融资,成为独角兽公司。

但是,在如火如荼的AIGC技术发展中,有一个问题却始终没有得到明确的解答,那就是AIGC虽然这么新颖、好玩,但是它的商业化价值到底如何,又能应用于哪些具体的场景呢?

本文就AIGC相关信息、落地应用与目前行业面临的问题进行解读,为那些对AIGC感兴趣的读者与投资人展现目前人工智能生成内容的发展图景。

2022年,深度学习模型Diffusion扩散化模型的出现,直接推动了AIGC技术的突破性发展,许多基于StableDiffusion模型的应用纷纷入局。也正因如此,2022年被称为AIGC元年。

但在各类使用AIGC技术的应用大规模“井喷”之前,AIGC也曾经历了几十年的发展。

1950年,图灵提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。

经过半个多世纪的发展,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。随着人工智能越来越多地被应用于内容创作,人工智能生成内容悄然兴起。

目前,对于AIGC这一概念的界定,尚无统一规范的定义。而国内产学研各界对于AIGC的理解是“继专业生成内容和用户生成内容之后,利用人工智能技术自动生成内容的新型生产方式”。

而结合人工智能的演进沿革,AIGC的发展历程大致可以分为三个阶段:

早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。1957 年,莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏《伊利亚克组曲》。1966年,约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。80年代中期,IBM创造了语音控制打字机Tangora。

沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。2006年,深度学习算法、图形处理器、张量处理器等都取得了重大突破。2007年,世界第一部完全由人工智能创作的小说《1 The Road》问世。2012年,微软公开展示了一个全自动同声传译系统,可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

快速发展阶段(2010s至今),深度学习模型不断迭代,AIGC突破性发展。2014年,对抗生产网络GAN出现。2021年,CLIP模型出现;OpenAI推出DALL-E,主要应用于文本与图像交互生成内容。2022年,深度学习模型Diffusion扩散化模型的出现。

过去,互联网的内容都是由用户生成、上传,AI只能协助人类完成一部分最简单、最基础的工作,无法独立生成内容,更不用提优质内容了。

但这一状况也因Diffusion扩散化模型的开源应用而被打破,AIGC成为了继UGC之后的又一大内容生成方式。

相较于UGC,AIGC的最大不同是新技术驱动了机器智能创作内容,这使得AIGC具有独特的技术特征,包括数据据量化、内容创造力、跨模态融合、认知交互力等,也正是这些独有的技术能力,让AIGC成为“不可替代”的新一代内容生成方式。

(1)数据巨量化:

AIGC丰富的“想象力”和惊为天人的“创作能力”,是在海量数据的基础上由计算机学习和模拟生成的,每一幅AI画作的背后都是无数的标注数据与训练。卷积神经网络和Transformer大模型的流行成功使深度学习模型参数量跃升至亿级,由此带来的数据巨量化推动了AIGC发展的进程。

如知名的计算机视觉项目ImageNet在众包任务中有超过25000人参与,标准图片超过1400万张;而OpenAI更是收集了4亿个文本图像配对数据进行预训练。在零样本学习成熟之前,AIGC通过巨量数据实现内容创作的发展路线仍难以撼动。

(2)内容创造力:

正是有了海量数据的加成,AIGC在创作方面有着无限的“灵感”,也成为了AIGC最吸引用户的特色。借助海量的语料库,AI工具仿佛超级画手或作曲家一样生成指定风格的图像、音乐或视频。

同时,例如神经风格迁移算法利用卷积神经网络识别图像内容表征和风格表征并在特定神经网络层对图像进行重构,也使得AI画作能够模仿特定风格的艺术作品。

与人类创作过程相比,AI创作拥有时间短、规模大、风格多等特点,在艺术创作、插画、影视编辑等领域正在产生变革效应,人们甚至开始担心AIGC会不会冲击传统艺术创作者的工作岗位。

(3)跨模态融合:

跨模态融合是AIGC区别于传统UGC和PGC的显著特征。AI能够分别提取文本特征和图片特征进行相似度对比,通过特征相似度计算文本与图像的匹配关系,从而实现跨模态的相互理解。

2022年9月,百度发布“2022十大科技前沿发明”,位列第一的就是“跨模态通用可控AIGC”,跨模态生成的本质是文本、视觉、听觉乃至脑电等不同模态的知识融合,覆盖图文、视频、数字人、机器人等更多场景。

在未来,随着国内外多家科技公司发布多模态AI大模型,AIGC的跨模态融合趋势将进一步加强。

(4)认知交互力:

拥有一定程度的认知和交互能力,是AIGC发展的重要趋势。

对于开发者而言,代码的输入输出是人与计算机交互的底层逻辑;对于用户而言,人们使用智能终端和网络平台实现人机交互和互联通信。在人工智能场景中,通常利用自动问答、视觉识别、姿态识别等实现人机交互,而AIGC的出现则为人与机器的沟通带来了更多可能,拥有人与人类沟通的媒介,在感知和交互上具备其独有的特色。

在不知不觉中,AIGC已经渗入了我们的生活中的每个角落,从导航软件中的“人声”指路,到直播卖货中的“虚拟主播”,都隐藏着它的身影。目前,AIGC技术已经率先在影视、电商等领域实现大规模落地。

在最简单直接的落地领域里,影视行业首当其冲。拓展创作空间,提升作品质量。

随着影视行业的快速发展,从前期创作、中期拍摄到后期制作的过程性问题也随之显露,存在高质量剧本相对缺乏、制作成本高昂以及部分作品质量有待提升等发展痛点,亟待进行结构升级。运用 AIGC 技术能激发影视剧本创作思路,扩展影视角色和场景创作空间,极大地提升影视产品的后期制作质量,帮助实现影视作品的文化价值与经 济价值最大化:

AIGC 为剧本创作提供新思路

通过对海量剧本数据进行分析归纳,并按照预设风格快速生产剧本,创作者再进行筛选和二次加工,以此激发创作者的灵感,开阔创作思路,缩短创作周期。

纽约大学利用人工智能编写的电影剧本《Sunspring》

国外率先开展相关尝试,早在 2016 年 6 月,纽约大学利用人工智能编写的电影剧本《Sunspring》,经拍摄制作后入围伦敦科幻电影(Sci-Fi London) 48 小时挑战前十强[30]。2020 年,美国查普曼大学的学生利用 OpenAI 的大模型 GPT-3 创作剧本并制作短片《律师》。

海马轻帆“小说转剧本”智能写作功能

国内部分垂直领域的科技公司开始提供智能剧本生产相关的服务,如海马轻帆推出的“小说转剧本”智能写作功能,服务了包括《你好,李焕英》《流浪地球》 等爆款作品在内的剧集剧本 30000 多集、电影/网络电影剧本 8000 多部、网络小说超过 500 万部。

AIGC 扩展角色和场景创作空间

一是通过人工智能合成人脸、 声音等相关内容,实现“数字复活”已故演员、替换“劣迹艺人”、 多语言译制片音画同步、演员角色年龄的跨越、高难度动作合成等,减少由于演员自身局限对影视作品的影响。

如2020 年播出的《了不起的儿科医生》中,主角人物的学历事件影响了影视作品的宣传与发行,该作品便采用了智能影视换脸技术将主角人物进行替换,从而减少影视作品创作过程中的损失。

2021 年,英国公司 Flawless 针对多语言译制片中角色唇形不同步的问题推出了可视化工具 TrueSync,能通过 AI 深度视频合成技术精准调整演员的面部特征,让演员的口型和不同语种的配音或字幕相匹配。

二是通过人工智能合成虚拟物理场景,将无法实拍或成本过高的场景生成出来,大大拓宽了影视作品想象力的边界,给观众带来更优质的视觉效果和听觉体验。

如 2017 年热播的《热血长安》,剧中的大量场景便是通过人工智能技术虚拟生成。工作人员在前期进行大量的场景资料采集,经由特效人员进行数字建模,制作出仿真的拍摄场景,演员则在绿幕影棚进行表演,结合实时抠像技术,将演员动作与虚拟场景进行融合,最终生成视频[31]。

AIGC 赋能影视剪辑,升级后期制作

一是实现对影视图像进行修复、还原,提升影像资料的清晰度,保障影视作品的画面质量。例如中影数字制作基地和中国科技大学共同研发的基于 AI 的图像处理系统“中影·神思”,成功修《厉害了,我的国》《马路天使》等多部影视剧。利用 AI 神思系统,修复一部电影的时间可以缩短四分之三,成本可以减少一半。同时,爱奇艺、优酷、西瓜视频等流媒体平台都开始将 AI 修复经典影视作品作为新的增长领域开拓。

二是实现影视预告片生成。IBM 旗下的人工智能系统 Watson 在学习了上百部惊悚预告片的视听手法后,从 90 分钟的《Morgan》影片中挑选出符合惊悚预告片特点的电影镜头,并制作出一段 6 分钟的预告片。尽管这部预告片需要在制作人员的重新修改下才能最终完成,但却将预告片的制作周期从一个月左右缩减到 24 小时。三是实现将影视内容从2D 向 3D 自动转制。聚力维度推出的人工智能 3D 内容自动制作平台 “峥嵘”支持对影视作品进行维度转换,将院线级 3D 转制效率提升1000 多倍。

从技术层面上看,目前 AIGC 的相关算法已经具备了真实复刻和创造某类既定内容的能力,同时相关模型对简单场景的内容生成也取得了较好成果,但面对多样性变化和复杂场景内容生成的挑战,现有AIGC 的算法能力仍需进一步提升。

举例来说,目前 AIGC 对于图像生成和编辑已经取得了令人惊叹的成果,例如对高清人脸图像或数字人头像的生成,相关算法已经能做到以假乱真。相较而言,动画视频的动态复杂性和可能性的复杂程度以几何倍数增长,高质量的视频创作仍有巨大提升空间。同时,仅仅依靠单一生成个体的内容生成对构建理想的数字世界甚至元宇宙是远远不够的。AIGC 技术的下一个发展方向将是通过不同生成个体间的交互进行内容创作。通过对整体的、多模态的复杂场景创作,AIGC将有望实现更多数智内容,进而反哺核心及关联领域,促进共同发展。

文章研究参考:《中国信通院人工智能生成内容AIGC白皮书》。

免责声明:本文不代表米塔之家立场,且不构成投资建议,请谨慎对待。

版权声明:作者保留权利。文章为作者独立观点,不代表米塔之家立场。
了解更多元宇宙知识,结识元宇宙人脉,扫码加入元宇宙行业生态社群。

联系编辑

微信二维码

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部