文|商隐社,作者 | 阿空,编辑 | 齐马

" 一个数字人可以顶 10-20 个主播!"

" 数字人自动回复顾客问题,傻瓜都可以操作!"


(资料图片)

" 数字人形象靓丽,不用请假,不会离职,更不会塌房!"

"4980 终身使用,就按一年来算,一天只要 5 块钱,24 小时自动产生收益!"

诱人的销售话术,以假乱真的形象,低廉的试错成本,让沉寂多年的数字人突然成为一条火热的赛道。

数字人真能降本增效,让人一夜暴富吗?

商隐社与多名业内人士聊了聊,得出的基本共识是:没想好应用场景,别做数字人;运营不好真人,也做不好数字人。

被数字人收割的韭菜们

王老板平时做点小生意,身边的朋友今年纷纷做起了抖音直播,他也眼馋。

一问成本,赚的钱还不够养直播团队:主播底薪 1 万元加 5% 成交额提成,运营月薪 1 万元,做链接的月薪 8000 元,还要配摄影、剪辑、采购、客服,并支付场地费。

王老板摆摆手:还是算了。

没过多久,王老板碰上一个数字人销售,声称只要 3 万元就能买到一个数字人,还免费提供直播培训。

" 你想啊,请一个主播多少钱?"" 一个主播还需要配一个运营,两个人加起来,成本多少?"" 主播培养成熟跑了,你损失多少?"" 你对手做直播一年几千万,你不做行吗?"" 未来是数字人时代,你们公司在这方面有没有占坑?"

王老板听了很心动,3 万元说多不多,说少不少,万一真能抓住风口呢。

没多少犹豫,王老板爽快下单,很快得到了一个美女数字人主播。结果刚在抖音开播不到一分钟,就被禁止直播一星期。

销售口中的 " 日不落 " 直播间,还没升起就落了。

小刘所在的汽车公司也打算定制一个数字人,以后放在一楼展厅,外人来参观时可以跟它互动了解企业,显得比较科技范儿。

在小刘看来,公司目前确定的数字人公司只是运气好,其实能力不强,竞标后除了要钱基本无法沟通。

一开始对方光开发费就收了 40 万,后面再加上主机、展示柜、收扩音设备、透明柜等硬件设备,整个项目将近 70 万。

此外,小刘所在公司目前跟对方签了三年合同,后面如果还想续约,要加钱;除招手、挥手、欢迎、鼓掌等动作外,要想再加新动作,也需要加钱;对方提供 AI 配音,换的话也得加钱。

据小刘分析,乙方公司并没有非常核心的技术,人物形象、语音识别、硬件设备这些都是外包的。到现在,项目已经开启了两个月,还停留在造型和声音评审阶段。

小刘逐渐相信,这个项目可能达不到预期效果。

某大公司员工定制了一个仙侠风格、帅气逼人的数字人男主,美滋滋介绍给老板。

老板狂怒:这个做得是挺好看,它能给我们公司带来什么?怎么跟我们的商业模式结合?未来怎么规划?

大家哑口无言。

数字人直播带货,靠谱吗?

午夜时分,数字人悄悄登场。

姣好的形态、迷人的微笑、纯正的播音腔,一切看起来非常完美。但没过一阵儿,画面和声音就开始重复。

数字人之所以只在午夜出没,是因为今年 5 月抖音发布了针对数字人的平台规范,明确指出:使用已注册的虚拟人形象进行直播时,必须由真人驱动进行实时互动,不允许完全由 AI 驱动进行互动。

一纸规范,引发行业地震。这段时间,抖音封杀了大量数字人直播间,商家只有在审核比较松的时段才敢把数字人放出来。

网上有段很火的视频看起来很诡异:凌晨某地,几百平的房间空无一人,100 台电脑屏幕上,数字人们在疯狂直播,仿佛一场没有人类参与的 AI 狂欢。

想要躬身入局的商家,最懂得计算投入产出比。

目前,数字人直播间需要配备一名直播操控员和一名运营人员,再加上数字人使用费、场地费和设备费,每月成本至少 2 万元。

此外,使用数字人直播还有随时可能被封的风险。如果带来的流量转化较少,获得的收益将难以覆盖运营成本。

对于小商户而言,数字人直播是一笔不小的负担,老板往往顶好几个人用,既是中控又是主播,每天播两三个小时就够了,用不着每月多花 2 万块钱。

抛开成本,很多人比较直观的感受是,目前数字人直播比较影响用户体验。数字人一看上去就有点假,它不会跟观众进行眼神交流,就像一个人在跟你说话,但是眼睛看向别处,让人感觉特别不真诚。更不用说,数字人有时还一直官话套话重复循环。

现在数字人直播的客户群体是 40 岁以上的中老年客户,他们有时分辨不出屏幕里的人是真是假。但年轻人对主播表现力的要求比较高,一看比较假就会划走,流量转瞬即逝。

而且,当用户在直播中提问时,数字人没法及时回复,训练不好还会胡说八道。真人主播在看屏幕镜头的同时,还可以扫一眼直播大屏,快速给出回复。

比如有人问,这个产品 45 岁能用吗?我已经是两个孩子的妈了。

数字人一般回答:能,好用,你现在就可以去拍。

而真人主播会针对问题做出延展性的想象。比如会先夸赞一番:你有两个孩子好幸福!两个孩子应该都很爱你吧!再去引导顾客下单。

抖音电商从业者王予灿对数字人仍持观望态度,他向商隐社表达了两点顾虑:" 数字人直播带货适合百元以下,能形成周期性复购的标品,不适合新兴品牌。而且更适合淘宝这种货架电商,而不是抖音这种兴趣电商。"

兴趣电商本身是靠情绪驱动的,刷到的商品大多可有可无,非标品多一些,会给商家带来一定的溢价空间。

但像食品、美妆这些我们定期就要买的产品,遵循一个购买目标,多数情况下只要价格合适就直接买了,百元以下更不用纠结。这种不需要主播付出太多情绪去促成下单。当然数字人目前也做不到真人的情绪流动,看起来还是一个会说话的机器在推销商品。

这就对品牌信任度提出了更高的要求。品牌知名度、开设店铺时间长短、一年内的爆款数量、收获了多少好评等,都会影响用户对产品和品牌的信任感。

如果顾客信任度足够高,刷到之后思考时间比较短,就很容易下单。

但大多数中小商家没有这样优越的先天条件。在直播中,数字人的口型、互动仍不够真实自然。

这其实在变相消耗品牌积累的信任感。直播间盲目用数字人,相当于慢性自杀。

" 所以说,事在人为,技术摆在这里了,能不能用好还是看个人能力。如果真人直播都做不好,数字人直播也做不好。这说明细节没有把控好,话术没有打磨,流程没有走明白,搞数字人没用的。" 王予灿直言。

此外,还有很大的一个问题是,数字人直播欠缺健全的规则。数字人承担的法律责任界定比较模糊,直播过程中没办法实时监控它的话术,有时对数字人的训练不到位,会造成难以预料的影响。

解构数字人

同样是数字人,为什么有的能卖 3 万,有的可以卖到几十万?数字人是如何工作的呢?我们来解构一下数字人。

这就要先从数字人的类型说起。数字人有 2D 和 3D 两种,根据背后是否有人驱动又可以分为由 AI 驱动的虚拟人,以及由人驱动的 " 中之人 ",目前中之人大部分只有 3D 可以支撑。

2D 和 3D 是两个不同的技术方向。3D 建模的成本非常高,还要做关节绑定,绑定的点越多,动作越灵活。这相当于打造了一个扯线布偶,用你的手去拉扯操纵布偶,驱动其做出面部表情和动作。

2D 不需要建模,生产过程也相对简单,只要录一段 5 分钟的视频,对视频逐帧分析,再通过机器学习对真人形象和声音进行 1:1 的克隆。7 个工作日后,你的专属数字分身就搞定了。

2D 的核心思路是改变像素,相当于老照片修复。如果老照片缺了一角,通过生成式模型进行学习后,可以把缺失一角的像素给补齐。

3D 数字人可以在元宇宙里转身,旋转跳跃不停歇。2D 虽然能够学习人的动作和表情,但没法做到跟人一模一样,而且交互性没有 3D 那么强。

目前可用的 2D 数字人直播报价是 3 万至 5 万元 / 年,短视频报价是 8000 元 / 年;3D 数字人经过建模或 IP 形象设计制作,直播报价超过 20 万元。

数字人克隆的价格主要差在形象和声音两方面。形象包括形象来源、面部表情、身体动作,声音包括语音语调、情感情绪等。

如果用开源的 AIGC 生成的虚拟形象,对清晰度和精度要求不高的话,最便宜两三百的也有。

此外,公模也比定制的便宜。所谓 " 公模 ",是指数字人企业与模特经纪公司合作,集中采购肖像授权产出的通用数字人。目前视频平台和数字人公司有很多场景的数字人模板,男生女生、职场户外的都有,可以直接租来用。

语音克隆有两种。一种是用现在比较成熟的 TTS 技术合成语音,一种是定制,高端的价格在 1 万到 5 万不等。便宜的几百块,但是情感情绪、语音语调、说话节奏会差很多。

很多形象克隆便宜是因为没有动作,只能坐在那里,比较假。品质高一些的克隆会根据文本自动生成动作和表情。

短视频生成还要另外按时长收费,一条一分半以内的短视频报价在 50 元到 100 元,包月 5000 元左右,开源的可以做到十几块钱。

这些只是软件的部分,数字人的呈现效果跟 GPU 的渲染有很大关系。买个数字人回来,如果电脑配置很低,体验就会很差,出现卡顿、嘴不对音等问题。一般电脑硬件的标配在 1.2 万元至 1.5 万元之间。

数字人是怎么运行的呢?

让数字人说话很简单,只要给到一段文字,就可以通过技术转化成语音,声音可以用免费的或者定制的,再配合形象即时生成一段视频。

互动比较难,目前有三种方式。一种需要真人在后台留意数字人的直播过程,实时抓取问题,再准备好回答话术让数字人说出来。

另一种可以提前针对产品的核心卖点准备好问题库,只要触发关键词就能自动回复。

三是接入大模型,用 AI 实时生成文字,再转化成语音。但现在大家对于通用大模型的使用比较谨慎,一般会输入专业内容、设置信息围栏,控制着数字人不要乱说话,回答更加精确。

此外,还可以用 AIGC 帮助生成视频文案,拓展思路,这种要会问问题。

交流是有主导性的,谁发起话题,就按照谁的逻辑来延展。AIGC 就像击剑比赛的对手,如果你的水平低,它的水平就低,如果你的水平高,它的水平也就高。它有时候会一本正经地胡说八道,大多是因为提问的问题不专业。

本地生活服务商戴平告诉商隐社:" 我们在训练一个 AIGC 模型的时候,会先从专业的角度拆分知识点,再去提问。AIGC 出来以后,世界上就分成两种人,一种是 AIGC 的主人,他能力非常强,能把它训练得非常好。另一种是 AIGC 的奴隶,他只会不停地问,泛泛地问,但不知道答案是对是错。"

而且 AIGC 现在的回答非常书面化,这就要问得足够细。比如卖全家桶,不要直接让它 " 推荐一下全家桶 ",可以问它 " 下午朋友相聚的时候,在肯德基里买全家桶的体验是怎么样的?",这样它给到的回答基本都是可以用的。

这样大概 5 分钟就可以生成一条短视频,之前如果让真人来拍,算上文案和录制得花费好几个小时。

现在大量操作及运营都比较差的公司,利用数字人的噱头割韭菜,给行业造成了不好的影响。但这也是事物从无序向有序过渡的必经阶段,后面真正做事的公司会凸显其商业价值。

想象与数字人共存的未来

令人倍感意外的是,早在上世纪 80 年代,就已经出现了手工绘制、通过电视拍摄的数字人。后来逐步从电视电影走向网络媒体,从极少数人的专业制作,变得越来越大众化,每个人都可以拥有自己的数字分身或者数字助手。

前面只提到了数字人短视频或者直播带货,实际上目前数字人可以利用的场景非常广泛。

比如可以用洛天依这样的纯数字人,或者明星的数字分身进行娱乐表演,电视台报社还有虚拟主播。还可以在展馆里设置数字人讲解员,在商场安置数字人导购员,剧本杀里安排数字人 NPC。

有人做了数字人名片,跟 AR 技术结合,只要拿手机小程序扫一扫,就会跳出来这个人的形象跟你打招呼、自我介绍。同理,这也可以应用在录取通知书里,用数字人的方式让新生了解学校。

现在还出现了数字人手办——在一个可视的盒子里嵌入偶像的 3D 数字人模型,它可以唱歌跳舞,也可以接入大模型跟用户对话。

此外,企业的数字员工可以跟内部系统绑定,员工可以跟它交流了解公司的规章制度,查询各种信息等。

上面说的这些场景都属于数字人产业链的应用层。中间层是数字人制作公司,提供基础的平台能力,根据客户的个性化需求去生产数字人。

再往下是提供技术引擎的厂商,涉及数字人用到的算力、云渲染。所谓引擎就是一种公共能力,提供生成形象、语音等的标准化组件。数字人生产厂商无需从零搭建平台,可以专心开发应用。

最难的还是应用层。实际上数字人技术没有太大差别,大多数都是国外开源的技术。

所以,数字人不是一个技术问题,而是设计和运营的问题,关键是要想清楚用它干什么,怎么能多发挥一些价值。以及如何做出 IP,让数字人有灵魂、有性格、有品牌,进而更好地去做商业转化。

这就像 MCN 公司发掘了一个很好看的素人,要成为网红或者明星还需要一些包装手法。

邱肃川在元宇宙行业深耕多年,他认为:" 数字人最终还是叫人,它还是社会分工的一个产物。在面向社会的时候,还是要提供特定的功能。它有什么用,决定了它值多少钱。"

与此同时,数字人也存在侵犯隐私、电信诈骗等风险。一旦把自己的素材给了数字人公司,他们就有了你一套从声音到形象的复刻素材,如果信息泄漏,影响会非常大。

我们现在很多支付都是人脸识别,如果我们的形象素材被非法使用,可能会导致财产流失。很多诈骗公司还会利用视频造假或者用克隆的形象给亲友打视频电话,从而实施诈骗。

现在的解决方式是,如果数字人是商用,那每个数字人形象都必须有专项使用权的授权函,否则就不能用。

尽管如此,当前很多场景都是对现实世界的功能性替代和优化,数字人的想象空间还有待挖掘。

数字人更大的一个应用场景是在虚拟空间,相当于在现实世界里开辟了一个平行宇宙,会产生新的需求,创造新的生产和消费活动。

这个空间里有虚拟的数字经济,有不同的人物、场景、经济体、各种各样的玩法。

这相当于进入了一场游戏,只是游戏里的人物都是隔着屏幕才能看到,NPC 都是程序直接设定的。

而在虚拟世界,真人的数字分身和数字人共同享有一个游戏世界,有经济系统、文明系统、社交系统,也有独特的价值创造。

之前邱肃川的朋友做过虚拟演唱会,第一季是虚实结合,取景都在上海大剧院,交响乐团也是实际的,所有参与演唱会的明星全都是数字明星。

后来第二季的时候他们就想:既然都进入数字世界了,为什么还要遵循物理规律?我们的舞台为什么不能搬到我们之前去不了的地方,比如在深海里,在火山上,在太空里?

" 你之所以愿意进入这种故事里,是因为它带给你完全不一样的体验,让你到去不了的地方,做原来做不了的事。这在逻辑上是可行的,就是要等到相关技术、协议、标准、规范真正被大规模解决。"

" 我不知道它什么时候会爆发,这个过程要多长,但是它一定会走到那里去。" 邱肃川相信。

推荐内容