火山语音打造“虚拟数字人”解决方案,未来可将助力多领域应用
数字化浪潮下,金融业的商业模式与服务形态正在重新被定义,价值潜力也在不断被挖掘,“虚拟数字人”日渐成为金融机构打造智能化交互体验的“新宠”。
例如:浦发银行和百信银行相继发布的虚拟数字员工等。不可否认的是,作为金融业数字化转型的创新产物,活跃于金融场景的虚拟数字人不仅迎合了金融业务降本增效的需求,也为用户提供了全新的交互体验,增强了用户黏性。
此次,兴业证券携手火山引擎推出的虚拟数字人便是打响了新年“第一枪”!与此前诸多的虚拟数字人不同的是,此次兴业证券推出的虚拟数字人“小知”,是业内首款以自有员工为原型、集“播报+服务”于一体的真人数字分身。
整体来看,“小知”不仅从外形上深度还原了兴业证券明星投顾的形象,更重要的是其口唇形、微表情与动作也都达到了较高的仿真度与自然度。仅从屏幕上看,这样的自然度几乎与真人无异。
这一切的背后均离不开“火山语音”,在打造小知的过程中运用了多项业界领先的核心技术。作为火山引擎金融虚拟数字人解决方案的技术提供方,火山语音通过使用行业领先的非自回归模型的唇形生成网络,合成与输入文本或语音完全匹配的唇形,准确率高达98.55%;基于创新的Motion Graph技术,能让“小知”可以轻松做到毫秒级动作切换延迟且自然无感知。为了让“小知”的动作更加自然,创新引入了style embedding动作切换技术,能做到毫秒级动作切换延迟,达到动作自然切换无感知。
值得一提的是,“小知”在火山语音业内领先的端到端语音合成技术加持下,还具有开心、悲伤、惊讶、愤怒、恐惧、厌恶、平和等丰富的情感演绎能力,还可通过控制音色的重音、停顿等,赋予“数字人”多样的语气,实现笑声、哭腔等非语言现象建模能力,让AI演绎更贴近真人的同时为用户提供更有温度的服务。
据了解,在火山语音的AI虚拟员工解决方案支持下,火山引擎目前已建立了包括2D、3D卡通和3D超写实在内的虚拟数字人产品矩阵;从场景适配出发,包括“播报型数字人”和“交互型数字人”两种类型。
其中播报型数字人,即输入文本或语音,就可生成自然生动的数字人播报视频;交互数字人作为播报型数字人的形态升级,依托于火山语音长期积累的成熟语音交互技术,可以做到“善听”、“会说”、“能想”,与用户面对面实时交互。交互数字人集成了全双工语音交互链路,前向兼容语音以及文本输入,后向兼容2D与3D数字人表现力,整体端到端交互延迟在500ms左右,性能效果达到业内领先水平。
目前该方案已经具备标准平台的快速交付能力,面向金融、大消费、泛互等行业提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚拟直播”等场景细分解决方案,为用户带来全新的互动服务和便捷体验。而且显然的是,火山语音这样类似助力兴业证券打造虚拟数字人的技术解决方案,未来可以广泛运用到各个领域之中,不止是金融行业。