央广网北京5月16日消息(记者马可佳) 虚拟数字人正越来越频繁地出现在公共视野。
近日,腾讯智能平台产品副总裁李学朝接受央广网记者采访时表示,随着云计算、5G、人工智能和计算机视觉等技术的不断突破,虚拟人的制作和应用过程得到有效简化,虚拟数字人开始加速落地。正朝着智能化、便捷化、精细化、多样化发展,步入成长期,并且行业发展正处于快车道。
据量子位发布的《2021年虚拟数字人深度产业报告》显示,预计在2030年,我国虚拟数字人整体市场规模将达到2700亿。得益于虚拟IP的巨大潜力,身份型虚拟数字人约1750亿,将占据主导地位。服务型虚拟数字人则相对稳定发展,多模态AI助手仍有待进一步发展,多种对话式服务升级至虚拟数字人形态,总规模超过950亿。
解读专业赛事,手语主播的数字化逆袭
随着AI技术不断应用在虚拟数字人当中,使其具备了“交互智能”的能力,腾讯对于人机交互体验的研究也更为深入。
2022年冰雪赛事转播中,腾讯3D手语数智人“聆语”作为央视频AI手语翻译官,为部分比赛提供了手语解说赛事的服务,这也是行业首次AI手语解说赛事直播。让广大听障人士也可以感受冰雪赛事的精彩纷呈。
据统计,中国的14亿人口里有超过2700万残疾性听力障碍人士,专业手语翻译却少之又少。在这一领域投入技术研发,除了新闻行业的硬性需求,也体现了对社会少数群体的关爱之情。
用手语解说新闻及现场赛事,并不是人们想象中那样简单。原因是手语表达的顺序与自然语言输出的顺序并不一致。在语句文字输出量大、语音播报速度比手语播报快30%-50%的情况下,手语翻译的速度很难跟上人的语速。
此外,想让AI手语主播更像“人”,除了手语流畅,其他配合也十分重要。比如表情神态、动作的流畅度,以及理解输出的“业务能力”等等方面。这一点不仅适用于AI手语主播,其他数字人产品也是如此。
为了解决手语主播的“业务能力”问题,由中国聋人协会、国家手语和盲文研究中心和中国残疾人联合会共同编辑出版的《国家通用手语词汇》共收录了8000多个常用词汇,可聆语的词汇量能达到23000个,掌握的词汇和语句可以达到160万。针对2022年冬奥赛事,还涉及很多专业词汇,为了让手语主播“聆语”更好地服务赛事解说,腾讯数智人团队跟专业的老师不断摸索,去约定和定义专业词汇,使其能达到听障人士的可懂度,李学朝告诉记者,“这样的专业词汇,我们摸索了15000多个。”
腾讯3D手语数智人“聆语”, 最终用“新一代多模态人机交互系统”解决了这一问题,包括后台腾讯云小微的解决方案引入语义驱动技术,即根据数智人说话的语义,去匹配对应的动作和字词。它结合对话AI可以更好满足客户的服务场景,对沟通的内容有更细致的把握,也能在场景中通过肢体语言和表情、声音更好地传递丰富的情感表达,带来全新的人机交互体验。
腾讯3D手语数智人“聆语”,在2022年首次完成了数智人在大型赛事中落地应用。前几日,新智元公布的一份榜单中,“聆语”凭借出色表现,成功入围数字虚拟人Top榜单,也展示了腾讯“云小微”强大的交互智能技术能力及产品优势。
产业落地,数字人如何实现进一步“打工自由”
在腾讯看来,已通过实际的应用验证了虚拟人这一行业的可行性。但虚拟人产业无论是技术、产品还是产业应用,都还处在起步阶段,还需要在各方面进行深入的探索与突破。
目前,腾讯数智人已经在金融、传媒、政务、文旅、公共服务等场景落地应用,承担坐席客服、审核面签、理财顾问、资讯播报、会展主持、导游导览等多种角色。
比如在金融领域,腾讯数智人可以成为“金融证券虚拟客服”,支持基于标准化开户流程智能引导客户开户,为客户提供高效有温度的远程一站式服务。
同时,各个平台都在进一步降低数字人的应用门槛,力争让更多人能够实现“数字人自由”。
快速发展的行业,往往伴随着风险。近年来AI被广泛应用到医疗、金融、工业生产等多个重要领域之中,在帮助各行业提升生产力的同时,也带来了诸如隐私泄露、决策歧视、模型决策误判等风险。
日前,在腾讯AI lab、腾讯研究院承办“人工智能安全与隐私”论坛上,相关方分享了在可信AI方面的思考。比如找到合适的方法来定量分析、量化人工智能算法、模型、系统的稳定性、可解释性、隐私保护能力及公平性。
李学朝表示,如果人工智能在上述“可信”度量上都达到很高的共识水平,就有更好的机会做到明确责任、透明可信,并且推动人工智能在产业上的进一步落地。
此外,数智人由于是多种AI的综合应用,需要解决挺复杂的技术挑战以突破行业发展的瓶颈:第一,虚拟人不仅要听得到、听得清人类的语言,还需要能听得懂、说得出,随着人机交互的体验和场景的不断深入,复杂应用场景给技术提出了更高的要求;第二,数字员工类应用需要技术深入结合行业,这类懂行业的复合型人才也是紧缺的。
李学朝进一步认为,未来随着AI驱动技术的进步,基于新一代多模态人际交互技术的业务型、功能型虚拟人,可以通过整合语音交互、知识图谱、视觉识别和情绪识别等技术,有效连接信息和服务、B端和C端,在垂直产业链条中提供智能化服务,以适应更多的行业化、业务化、场景化需求,这将大大拓展数字虚拟人未来的市场空间,并助推这一新兴领域的价值跃迁。
免责声明:本文不代表米塔之家立场,且不构成投资建议,请谨慎对待。