|
文/林三千
数字人的大规模商业化,京东在今晚吹响了号角。
今天傍晚,采用刘强东形象的“采销东哥”AI数字人与观众见面,在京东家电家居、京东超市采销直播间亮相。直播间里,采销东哥AI数字人谈笑自若,讲起自己运动和烹饪的体验,又对直播带货的大屏电视、草莓和玉米滔滔不绝。
直播间的网友质疑就是真人直播,细看采销东哥AI数字人,不仅复原了刘强东语速快和连音多的口头习惯,还复刻了他搓手指、略微仰头的习惯动作和身体姿态,直播中还有非常自然地看手机的动作。说起大屏电视,“采销东哥”对技术参数如数家珍,说到玉米和草莓,又对口味特点和原产地气候了如指掌。数字人仿佛具备了百科全书版的数字大脑,完美胜任了“首席采销”的工作。
京东官方消息显示,“采销东哥”AI数字人是由京东云言犀制作的高逼真大姿态数字人,凭借多角色、个性化的闲时带货能力,言犀数字人已服务了超过4000家品牌直播间。采销东哥AI数字人的此次亮相,更像是一次广而告之:数字人技术已经成熟,足以胜任品类直播的工作。其实,在春节闲时直播中,京东云言犀数字人就曾卖出过4000万元货品,平均提升闲时直播转化率超30%。
实际上,“采销东哥”AI数字人亮相直播背后,还代表着京东在技术普惠、低价战略上的深一度实践,将关键技术开放给生态链上下游,以技术突破赋能业务实际问题,促进产业链提质增效。
刘强东的数字人为何这么“真”
听过刘强东演讲的人一定印象深刻。他讲话很少犹疑,让人觉得自信坚定;同时平易近人,用简单的词汇讲述波澜壮阔的故事。讲完一段,他还会抛出事先准备的金句。这时,观众会突然爆发出脱口秀现场般的笑声和掌声。
这次直播的数字人就还原出刘强东真人的风采:不仅声音惟妙惟肖,说话的语调和习惯也别无二致。也难怪有人在微博上发问:数字人是怎么做到这么“真”的?
京东云言犀技术团队透露,要让数字人逼真,首先需要还原出刘强东的声音。言犀团队原本打算使用他在2017年的一段演讲音频作学习素材,但经过测试发现:当时演讲的语气用于直播带货过于正式。因此,言犀团队又录制了一段刘强东30分钟的闲谈,让他畅聊自己的旅行经历。
这段神采飞扬的声音就成为底本,提取出声学特征后,通过言犀语音大模型合成出人工语音。其实,言犀团队已经可以做到最短使用6秒素材,就能复现一个真人的声音。而更长的声音素材,无疑有助于捕捉更多丰富的细节。
复现出音色以后,还需要捕捉声音的“副语言”。副语言是人们说话的习惯,比如语速、语调、重音、倒吸气。即使音色变化,比如感冒或者电话通话,凭借副语言也能辨认出说话的人。如果没有副语言,声音就会缺乏情绪、显得过于“正确”和冷冰冰。
刘强东讲话也有自己的副语言:语速快、连音多、吐字较轻。例如“跟着”的“着”字经常被一笔带过。“时间”中的“sh”会有更重的鼻音。后鼻音有时会被吞掉,变成前鼻音。他讲话也很少有辅助词,句子间衔接顺畅,只会在寻求认同时用“啊”来衔接。说到重点时,他还会加重重音,让人不自觉地竖起耳朵。
捕捉这些副语言的技术,被称为“风格迁移”:把原本声音的特征迁移到人工合成的声音中。这些副语言原本分布稀疏,大模型不容易捕捉到规律。但言犀团队将声音样本的重音、语调等拆解成音素,让模型能更清晰地注意到它们。在文本层面,NLP(自然语言处理)模型则会根据真人习惯添加口头语,让声音更像真人。
“东哥同款”数字人
让小商家也用得起
给企业管理者做数字人的其实并非少数。2021年,黄仁勋的数字分身就曾亮相GTC,三个月后才被发现是数字人。360的周鸿祎和自己的数字人在乌镇对谈,商汤的汤晓鸥数字人还在舞台上喝水,流畅的大幅动作技惊四座。
让企业管理者的数字人进入带货直播间的,京东还是第一家。原因非常简单:企业管理者的数字人往往要经过“精雕细琢”,5分钟的视频背后可能是一个月的苦工,否则很容易被观众分辨出差异。而这些动用庞大计算资源的数字人,无法承受住成百上千商家同时直播、实时演算。
因此,“采销东哥”AI数字人亮相京东采销直播间,更像是一次宣言:京东的数字人技术已经大规模商用。这些能让刘强东形象以假乱真的数字人,让小商家也都用得起。这成为一场向广大商户的宣告:“我用起来是这个效果,你们用起来也是这个效果。”
要让数字人应用门槛不断降低,言犀团队着实下了一番苦功。首先是建立真人的形象。如果不考虑成本,目前最真实的方法是用光线追踪做3D建模。由于人脸是不规则的平面,需要用上百万个三角形去模拟,建立的模型还需要经过深度学习再做声唇同步,计算量十分庞大。如果简单地降低三角形的数量,又会让表情变得呆板。
言犀团队发明了一种方法:骨骼和肌肉用3D建模,这样用少量三角形就能还原人体的大姿态动作,无论挥舞手臂还是颔首摆头,都惟妙惟肖。人脸则在3D模型上采用2D渲染,能够让人脸保持高分辨率,做出丰富表情也不变形,同时兼顾较低的渲染成本。
数字人直播的成本除了渲染,还有很大一部分带宽成本。观众观看数字人希望越清晰越好,但带宽成本会让商家难以承受。言犀团队发现,人们观看直播会更关注眼睛部分,对头发、肩膀等则没那么关注。因此,言犀数字人采用动态分辨率,在数字人面部做局部高清:即使观众放大,眉毛也如发丝般清晰、眼神依旧透亮。
这些兼顾直播效果和成本的技术,也运用在采销东哥AI数字人上。观看直播的人会发现,他在表达肯定和强调时会轻微颔首,表达坚定时会轻挥手臂、目视远方,轻松交谈时则轻微仰头。这些小动作,在商家日常使用的数字人中也能够复现。
京东云言犀数字人能率先冲过商业化的“起点线”,离不开京东云的技术导向:技术源于产业需求、历练于产业场景、能产生产业价值。从研发开始,这些技术就不是为冲榜而生,不会关在实验室里,而是要去业务场景经受检验。正如刘强东在不久前的内部信中所说:“技术为本,是相信技术终究会改变一切的决心”。
数字人直播
让商家抓住技术红利
数字人直播对京东并非技术秀场,而是锱铢必较的商业场景。截至2024年4月,已经有超过4000个品牌在京东使用数字人直播,用来接替真人完成闲时直播。它们能提升闲时转化率超30%,成本却不到真人直播的1/10。
春节就是典型的闲时直播场景:观众观看时间分散、往往没有明确购买目标。京东云言犀数字人抓住春节时间,累计带货超过4000万元。使用了言犀数字人以后,百威成交转化率提升了48%,珀芙研成交转化率则提升了458%。
可以说,数字人直播已经成为商家低成本营销的必备手段。京东云言犀数字人释放出的技术红利,帮助商家紧跟技术潮流、不被日渐提升的流量成本所淹没。
据电商行业数据,在2023年,直播带货在电商的渗透率约为31.9%,成为零售的普遍形态。直播带货提供了更直观的商品展示:让观众能直接看到商品实物,听主播介绍也比查看商品详情页更通俗易懂。晚归的打工人、早起的宝妈,都可以打开直播间,一边忙碌一边等待自己心仪的商品出现。
然而,直播带货每场开播都有不小的成本,大约每场数万元。这让精打细算的品牌商家头疼不已,有直播电商资深运营直言:“大部分品牌,过去两年的直播都是亏损状态”。不仅成本贵,真人主播还只能应付每天的黄金时间,背后选品、脚本、互动都要其他人配合。这样高昂的成本,使得很多商家被排斥在直播带货之外。
京东云言犀数字人则提供了低成本、一站式的直播带货方式。商家只需提供商品详情页链接,数字人就能自主学习商品特征,完成所有工作流程,让商家“一键开播”。即使商家0配置,数字人也能回答直播间内70%的常见问题;对于观众的推荐需求,数字人的应答准确率也达到90%以上。在前120秒内,观众普遍无法分辩数字人与真人的差异,大大提升了进入直播间观众的留存率。
“对预算有限的品牌来说,数字人直播是高性价比的选择”,大宝京东渠道负责人袁航表示。也有商家说,数字人直播“播了就比不播强”。
“采销东哥”AI数字人亮相采销直播间,无疑是京东对低价主张的一次展示:京东采销直播,是以减少商家营销成本的方式,让消费者拿到便宜好物,让商家赚到合理利润。而以数字人为代表的技术解决业务问题,并把自身的成熟实践成果开放给更多伙伴,则是京东始终遵循的路径。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|