数字人距离“有趣的灵魂”还有多远?-世界即时
在语义理解、情感交互方面与真人尚存在差距
(相关资料图)
受虚拟现实、元宇宙等前沿概念影响,以虚拟偶像、虚拟主播、虚拟员工等为代表的数字人当下正在受到市场追捧。今年以来,乘着利好政策的“东风”,数字人已成为头部企业竞相布局的人工智能热门赛道。但囿于技术、产品、市场等因素,数字人赛道迎来了不小的瓶颈与挑战。眼下“只有好看的皮囊,却没有灵魂”的现象,使得数字人产业要具备更普遍的商业价值,还有很长的路要探索。■新快报记者 梁茹欣
利好政策加速产业落地
借助逼真外壳包装起来的拟人形象,数字人正从影视、文学作品中逐渐走到文娱传媒、金融、教育等现实不同行业的“岗位”上。何为数字人?按照业内认可的说法,数字人指的是通过CG技术(计算机图形技术)、图形渲染、语音合成等技术驱动生成的数字化的虚拟人物。通常这类虚拟形象具备人的外观、感知互动能力以及表达能力。就应用类型来看,数字人可分为两类,一类是以功能应用为主的服务型数字人,如虚拟员工、虚拟教师、虚拟导游等;一类是用于娱乐、社交、个性表达为主的身份型数字人,如虚拟偶像等。
根据清华大学发布《元宇宙发展研究报告3.0版》显示,2021年,虚拟数字人核心产业规模约为336亿元,年均增长率31%,预计2025年产业规模为998亿元。截至2022年10月,虚拟数字人领域融资数量近百起,金额约120亿元。另据市场调研机构IDC数据,预计到2026年中国AI数字人市场规模将达到102.4亿元,市场将呈现高速增长态势。
今年以来,乘着利好政策的“东风”,数字人产业一脚踏进了快车道。11月,工业和信息化部等五部门联合发布的《虚拟现实与行业应用融合发展行动计划(2022-2026年)》提出,到2026年,三维化、虚实融合沉浸影音关键技术重点突破,虚拟现实在经济社会重要行业领域实现规模化应用。
落脚到各地,数字人相关产业成为不少地方产业布局的重点。7月,北京发布了《北京市促进数字人产业创新发展行动计划(2022-2025年)》,提出到2025年,北京数字人产业规模突破500亿元,培育1-2家营收超50亿元的头部数字人企业、10家营收超10亿元的重点数字人企业以及20个数字人应用标杆项目等。几乎同一时间,《上海市数字经济发展“十四五”规划》也提出,发展人机交互技术,加快智能人机交互、虚拟数字人等核心技术攻关,培育虚拟演唱会、虚拟偶像、虚拟体育等数字娱乐消费新业态。
数字人制作成本大幅下降
行业分析认为,经过过去一年多的市场培育期,众多企业的入局加速探索可落地的场景,预计国内虚拟人率先在特定服务型领域(如直播带货、虚拟客服等)规模化应用。IDC中国助理研究总监卢言霞指出,当前AI数字人在部分领域已经发挥出明显的商业价值。未来在生活与工作中,将有大规模的数字人队伍与人类共存。不过,行业用户从相对成熟的应用场景开始引入AI数字人的同时,也需对这些应用场景保持耐心,不设置过高的期望值。
事实上,由于在快速生成、AI驱动等方面存在技术瓶颈,数字人目前较难实现低成本大量复制和高频次内容产出。这也意味着,高质量虚拟数字人的制作成本极高。洞见研报《2022年虚拟人行业研究报告》显示,虚拟人的制作客单价在百万元以上,更高精度的甚至达到千万级。这大部分的花销都用在了建模、AI、动捕、渲染等技术方面。以2021年年底走红出圈的抖音美妆达人“柳夜熙”为例,该制作团队曾透露,“柳夜熙”仅制作投入约在百万元级别。
游戏引擎商Cocos品牌相关负责人告诉新快报记者,业内定制数字人按照美术的类型分为卡通、二次元、写实等风格,定制一个数字人的价格从千元到百万元不等。千元价格内的常见为电商24小时直播机器人,这类技术要求较低,用户通过直接选择给定的卡通形象来进行直播。“百万级的如‘柳夜熙’‘AYAYI’等,在IP运营方面,还涉及到基本人设,需要策划人员根据客户要求进行内容输出策划。当前超写实虚拟人的运行呈现大多还是以视频或者图片的形式为主,整个流程偏向CG生产逻辑,一次视频短片内容的生产成本在几十万左右。”
有业内人士认为,随着AI算法的突破,数字人的制作成本及周期将大幅度压缩,从过去花一年半载制作,到现在两三月甚至是数小时便可以交付,制作成本也将从原先的百万级降低到万元级别。
拥有“有趣的灵魂”还有多远
然而,当前不少数字人企业宣称已“降本增效”,更多体现在营销成本降低。即使相对成熟的直播带货场景,数字人囿于成本问题也难以与真人主播拉开优势。目前,数字人产业总体上还没有实现盈利,制作和运营维护成本高、变现能力弱等仍掣肘其发展。除此之外,市面上的数字人多数停留在逼真的外壳,能够灵活地做出表情、动作,以及根据声音或者文字做出标准的口型等,但在语义理解、情感交互方面与真人尚存在差距,即只有一个好看数字“皮囊”却没有“灵魂”。
数字人距离拥有“有趣的灵魂”还有多远?Cocos品牌相关负责人对此表示,数字人下一步发展更多应该是介入ChatGPT(美国人工智能公司近期推出的自然语言处理领域的模型,它能够通过对话方式进行交互,并根据用户输入的自然语言文本内容,自动生成新的文本内容)这类对话模型,让对话的内容更加丰富有趣。另外,还可以让人灵活地介入到数字人的逻辑中,这就需要大量的手势交互、动作捕捉等技术沉淀积累。“相信2023年底就能看到大量类似逻辑的产品出现。未来,数字人不再是供应商专业定制专属,而是由个人的创造和生成,让数字人代表自己在虚实结合的空间中交互。”