随着全球化趋势的愈演愈烈,不同文化之间的交流与融合早已变得稀松平常。由于语言文化环境的不同,部分词语的意思在另一门语言中很难通过音译或意译精准表达,因此,语码转换,即在交流中使用两种甚至多种语言或语言变体的现象,在日常生活中出现的频率越来越高。日前,灵伴即时的AI客服进行了再一次升级,通过其独创的语音合成模型实现了机器人同音色的中英文混读功能,扩大AI+客服人机交流范围,应用场景更加深入。
中英文混读的难点
目前,AI智能语音客服同音色下自然流畅的中英文混读仍是一个难点。究其原因主要是中英文混读的原始文本语料较少,语音数据收集较困难,业界现在通常的解决办法是中英文拼接或中英文音色转换。
中英文拼接的方式是把句子中的中文和英文进行拆分,分别进行纯中文和纯英文的合成,最后再把两部分进行拼接输出。虽然这样能保证音色的统一性,但由于中英文在韵律上的不同,合成后的整句话仍然会让人感到“怪怪的”。更加现实的是,这种技术方案要求同一个说话人具备较好的双语能力,而普通人很难大段说英文,因此一般情况下的方案是中英文不同音色的拼接,但这样的合成效果在音色和韵律上都让人更加“难以忍受”。
中英文音色转换也是常用的方式之一,把英文说话人音色转换成中文说话人音色,让原来的中文音色也具备说英文的能力。然而这种技术方案的主要问题是转换过来的中文音色和原音色之间差异明显,再加上韵律的问题,效果依然不尽如人意。
灵伴中英文混读解决方案可以让AI客服从声音和韵律两方面同时达到流畅自然,其表达逼近我们日常口语的中英文混读效果。首先,灵伴语音合成引擎采用“中英文混读上下文语境”模型,不对句子进行拆分而是对整句话做完整处理,这样能有效保证音色和韵律的一致性。其次,既然中英文混读的难题是原始语料收集,就应该从源头解决这个问题。灵伴的自动语料生成让中英文混读文本收集效率大幅提升。最后,中英文整句混读可以大幅降低对说话人语言的要求,说话人不必进行单独英文合成,完整的还原了普通人说中英文的真实场景,让AI客服的日常式中英文表达成为可能。
作为国际语音合成大赛Blizzard Challenge的冠军团队,灵伴在语音合成方面具有业界公认的领先优势,通过此次功能升级,招聘场景中“Java工程师”等职位名称表达、“CBD”等常用英文地址交流,维修场景中“WIFI”等设备专有表达,以及咨询场景中英文的公司名称、人员名称、职位名称等等将再也不是人机交互的难点所在。