来源 | 腾讯研究院
全真互联时代正在悄然到来,加速线上线下的跨时空融合,作为全真互联的重要入口,数字人可以推动线上和线下更加全面地一体化,打造出沉浸式的“全真”体验与可操作的“互联”交互。
进入2022年以来,数字人在诸多应用场景大放光彩,特别是在北京冬奥会的开幕式表演、气象播报、手语解说中频频现身,使其用户基础不断扩大。爆点事件推动数字人产业被用户不断加深认知,数字人形态、技术及应用受到大量关注,而支持产业快速发展的底层元素则包括技术的发展、用户新需求、生态完善和标准的支持等。
伴随着全真互联的到来,未来数字人应用还将具有哪些可能性,技术路线会产生哪些变化? 腾讯研究院、腾讯云智能和创业黑马合作,先后对数十家从事数字人的企业进行深度调研与跟踪访谈 ,分析产业发展现状,底层驱动力、未来方向和挑战等。形成《数字人产业发展趋势报告(2023)》 (文末附下载二维码) 。从数字人的价值定位、核心技术、行业应用、C端发展、产业聚集 等十个不同维度进行剖析,挖掘出产业发展的十大趋势。
趋势1:数字人制造和运营服务的B端市场不断扩大,将面向更广大的C端用户提供服务,各类数字人价值定位和商业模式有差异。
数字人的最终服务对象为C端用户,在B端的应用领域从电影动画向广告营销、电商直播、虚拟偶像等领域不断扩展。未来,以虚拟分身为代表的应用潜力巨大。从需求角度,数字人制造和运营服务在B端市场不断扩大领域和规模,面向更广大的C端用户提供服务,而制作方式也从PGC向UGC发展。
在20世纪80年代电影、动画等领域早期的手绘数字人最先出现,伴随着21世纪初计算机动画和动捕技术的成熟,内容/IP型数字人大量应用在影视行业中,主要是增强影视中观众的体验效果,随后逐渐在文娱、市场营销、文旅、虚拟偶像等场景推广应用。近年,伴随AI驱动技术的成熟,功能服务型数字人陆续出现,主要应用于行业服务场景,如金融数字人客服、传媒数字人口播等。在虚拟空间中的虚拟分身数字人大范围出现相对较晚,虚拟空间的技术和产品还在发展中,待产业进一步完善,此类应用潜力巨大,是数字人市场的增量空间。
趋势2:技术集综合迭代驱动数字人形似人,制作效能将继续提升。
多元技术推动数字人外形更像真人:建模技术发展推动超写实数字人制作门槛、成本和周期进一步下降;物理仿真算法迭代推动服装动态展示趋向真实;渲染引擎迭代和GPU算力提升推动数字人画面更加精细和实时化;算法的优化推动专业动捕设备趋向便捷化,视觉动捕在C端应用潜力更大;面部捕捉技术向更简单的硬件、更细腻的表情、更自动化的流程方向发展。
趋势3:AI技术驱动数字人多模态交互更神似人,并逐步覆盖数字人全流程。
当前数字人对语言理解还是以文本为主,动作合成上声唇同步较为完善:
(1)AI驱动数字人是指数字人等语音表达、面部表情和动作形态等通过深度学习模型进行运算,并将其结果实时或者离线驱动,并进行渲染。目前主流的 方式是围绕NLP能力通过文本驱动,本质是通过ASR-NLP-TTS等AI技术进行感知-决策-表达的闭环来驱动数字人交互,同时需要预先设置相关的知 识图谱或问答库等,与数字人的对话系统对接,但目前NLP在通用性场景的能力还需要进一步完善。
(2)计算机视觉(CV)目前数字人声唇同步技术相对完善,在游戏中已经大量应用;而其他表情和动作还需要描述性的数据或者标签驱动,尚未智能合成, 表情动作也是是AI驱动未来发展的重点方向。
未来AI技术的重点方向是在输入端实现多模态感知输入,在输出端提升多模态交互能力,综合提升数字人的表现力,从目前的基于文本的交互,转化为基 于语义的交互,特别是需要强化对人情绪的感知和表达。此外除了利用ASR-NLP-TTS等技术驱动数字人交互外,AI技术也应用在2D数字人的视频生成、3D数字人的建模、视频驱动、物理仿真等多个环节。
趋势4:数字人技术与SLAM、3D交互、体积视频、空间音频等技术深度融合,渲染将从本地到云端。
数字人作为3D呈现的一种方式,未来将与其他3D技术如SLAM(即时定位与地图构建)、体积视频、空间音频等融合,进一步完善数字人和真实空间的交互。例如在直播场景中虚拟/真实空间中真人和数字人的交互,数字人对真实空间的感知等。同时由于数字人对渲染能力要求较高,未来云端渲染是重要的方向,将推动云服务商从算力(CPU)云服务,到渲染力(GPU)的云服务。但成本仍是云渲染普及的关键阻碍,需要突破。
趋势5:千行千面的数字人将成为人机交互新入口,但深度上仍需挖掘。
AI驱动的数字人通过AI能力建立人与大数据的连接,提高效率并满足人情感交流需求,提升用户体验,将成为人机交互新入口:应用广度上:目前使用文字或语音交互的场景都可用AI数字人软着陆的方式替代,不需要改变原有的业务逻辑和商业模式,大众接受成本较低,并提供更好的用户体验,未来应用场景非常广泛,可以与各种领域相结合,服务规模化和标准化。应用深度上:数字人作为企业的数字资产,是对员工工作的增强,具有生产力的属性,可以进一步释放生产力,同时降本增效。未来数字人将根据不同行业的业务特点和应用场景进行更深度结合,孵化千行千面的数字员工,提供差异化服务。
趋势6:UGC数字人将加速出现,成为未来产业的增量空间。
未来1-2年技术门槛和成本将快速下降,会出现更开放的创作者生态、更丰富的UGC内容和商业模式,UGC将成为数字人的增量空间,同时也是数字人在C端应用的主要生产方式
趋势7:数字人仍以2D显示设备为主,3D显示设备成为特定领域的新解法。
数字人的显示载体包括手机、平板电脑、AR/VR眼镜、智慧大屏或线下一体机等多种终端设备。PC、手机、智慧大屏、银行VTM机等2D主流显示设备仍是数字人显示的主要载体。数字人和3D的数字内容,对于裸眼3D、VR、AR等3D显示设备的普及具有推动重要。特别在VR/AR设备中,6dof交互更突出数字人特点,因此会在特定领域成为新解法,如在XR设备中的线上演唱会、展会和会议等应用场景。
趋势8:在场是数字人发展的高级阶段,将与应用场景深度耦合。
离线阶段--目前数字人产业正处于快速发展期间:离线渲染、非交互类型的数字人仍是主流,在数字化营销、文娱等领域应用广泛;AI驱动的数字人在行业服务中,虚拟分身数字人在虚拟空间中处于爆发前期。在线阶段--伴随数字人快速发展和大量使用,用户将很快进入体验突破阶段,在此阶段利用AI驱动提供初级的实时交互和实时渲染技术不断突破在场阶段--实时交互,更加智能的数字人,并结合更深的行业理解,带来更真实的沉浸感和更大的价值。
趋势9:艺术和技术双轮驱动,北京有望成为产业新高地。
作为科技产品,数字人需要技术研发、人工智能、产品设计、运营、融资环境等多方面人才,因此互联网发展较好的区域,如北京、杭州、上海、深圳等互联网和数字内容高地,将成为数字人产业的重要聚居地。在众多因素中,艺术和科技是最强驱动力,北京艺术资源相对集中,拥有中国传媒大学、中央美术学院头部艺术类院校和专家资源;科技产业优势突出,互联网企业数量较多,聚集了大量技术研发、AI算法等方面的人才;同时政府高度重视数字人产业,第一个发布数字人发展政策。在产业和政策的推动下,有望成为数字人产业聚焦的新高地。
趋势10.:数字人版权保护及行业合规体系需同步建设,推动实现可用、可靠、可知、可控。
数字人行业总体还在快速发展阶段,发展和生存是企业的重点和方向,数字人著作权、外观设计专利、商标等知识产权保护体系亟待完善。
面向未来,数字人会正朝几个方向加速迭代:一是外貌更加精致,形象更加逼真,动作更加自然,即“皮囊更好看”,跨越恐怖谷效应后,会使人觉得数字人和真人无异,有利于建立良好的心理连接;二是随着AI技术的不断完善,数字人多模态感知和交互的能力会得到显著提升,数字人未来有可能具备记忆力和判断力,从而更加智能,行为和思想上更趋于接近人,拥有“有趣的灵魂”。此外,数字人产业的加速发展,也需要渲染、动捕等行业开发工具、云渲染等技术支持体系的进一步完善,从而大幅提升制作效能,有效降低制作时间和成本。目前,很多技术已经接近商业化大规模推广的临界点,数字人产业有望进入全真互联的新阶段:将可能作为我们的分身,成为数字世界的交互入口,为我们带来更智能、更沉浸的“在场”体验。
报告目录如下:
(一) 发展现状
1. 网红数字人推动C端直观认知和概念普及
2. 融资事件频繁及专项政策的出台进一步加深对产业的认知
3. 技术发展是数字人第一推动力
4. Z世代用户崛起,数字人和虚拟空间为互联网原生一代提供新体验
5. 头部企业从工具、平台和应用多维度入局,引领数字人产业发展
6. 标准制定引导产业规范发展
(二) 产业趋势
1. 价值定位:数字人制造和运营服务的B端市场不断扩大,将面向更广大的C端用户提供服务,各类数字人价值定位和商业模式有差异。
2. 技术迭代:技术集综合迭代驱动数字人形似人,制作效能将继续提升。
3. AI赋能:AI技术驱动数字人多模态交互更神似人,并逐步覆盖数字人全流程。
4. 融合发展:数字人技术与SLAM、3D交互、体积视频、空间音频等技术深度融合,渲染将从本地到云端。
5. 行业应用:千行千面的数字人将成为人机交互新入口,但深度上仍需挖掘。
6. C端模式:UGC数字人将加速出现,成为未来产业的增量空间。
7. 硬件载体:数字人仍以2D显示设备为主,3D显示设备成为特定领域的新解法。
8. 发展路径:在场是数字人发展的高级阶段,将与应用场景深度耦合。
9. 产业集聚:艺术和技术双轮驱动,北京有望成为产业新高地。
10. 合规前置:数字人版权保护及行业合规体系需同步建设,推动实现可用、可靠、可知、可控。
(三) 应用案例
1. 典型产品:数字人播报SaaS工具、数字人UGC制作工具、数字人生产工具、快速数字分身生成工具、C端数字人直播工具、布料实时仿真工具、AI驱动数字人直播工具、视频实时驱动产品、 AI 驱动业务中台、虚拟空间产品
2. 新型显示:AR眼镜、裸眼3D屏幕、沉浸式裸眼3D交互
3. 解决方案:腾讯云数字人整体解决方案、中之人驱动直播方案、超写实数字人制作方案、高品质数字人制作和直播方案
4. 行业应用:金融、传媒、文旅、云展厅、科教、泛娱、影视、市场营销、公益
免责声明:本文不代表米塔之家立场,且不构成投资建议,请谨慎对待。