弓变声器(著名侦探柯南的变声器)
编者按:明智的未来,有见地的新知识。中国科学院之声与中国科学院自动化研究所联合开设了名为“智慧的话与智慧的话”的科普专栏,向大家介绍人工智能相关的知识和故事,从最新的成果到背后有趣的故事,向大家展示人工智能如何唤醒万物,让世界变得更美好。
在《名侦探柯南》中,最受推崇的黑科技是阿笠博士制造的弓式变声器。为了隐藏自己的身份,柯南会模仿毛利小五郎等人的声音来隐藏自己的身份。有了这个变声器,你可以把声音变成任何人的声音。
为了实现变声器的变声功能,可以使用语音转换技术。广义的语音转换是指对语音的个体特征进行修改,目的是在保留语音中语言内容信息的同时,对语音信号的一个或多个方面进行修改;狭义上是指将源说话人的语音转换为具有目标说话人发音特征的语音。
语音转换系统基本框图。
语音转换研究算法主要包括训练模块和转换模块。
训练模块包括特征分析、特征对齐、模型训练和转换功能。特征对齐模块用于建立两个说话人的语音特征之间的映射规则。有些语音转换要求源语音和目标语音具有相同的语音文本内容。在建立训练语音转换模型之前,由于说话人发音速度的差异,需要在时间尺度上对齐提取的语音特征。常用的方法有基于隐马尔可夫模型的动态时间扭曲和强制对齐算法,而有些语音转换系统不需要并行语料库,需要其他特殊处理。
语音转换模型可以通过估计一个或一组映射函数来建立源语音和目标语音的声学特征之间的映射关系,以最小化转换后的特征和目标特征之间的误差。常用的语音转换模型包括码本映射、高斯混合模型、隐马尔可夫模型和人工神经网络。
一个完整的语音转换系统应该解决以下三个问题:语音信号中有哪些语音特征可以代表说话人的信息,如何估计这些语音特征?如何建立源语者和目标语者语音特征的对应规则?如何从转换后的语音特征中合成转换后的语音信号?
第一个问题是指在语音转换中需要区分的三个方面的语音:语音内容、说话人的性格特征和语音背景信息。说话人的个性是言语转换的重点。
第二个问题是,如果在言语信息的三个方面,根据说话人的性格特征建立源语和目标语的对应关系,排除其他两个方面的干扰。一般来说,假设语音背景信息相同或一致,那么主要干扰信息来自语音内容信息。这就是数据对齐的作用。它是语音转换中非常重要的模块,将直接影响语音转换的结果。
第三个问题可以通过模型训练模块和转换模块来解决,这也是语音转换中比较成熟的技术。
语音转换技术应用广泛,如:
个性化语音合成系统:在语音合成系统中,单词直接合成语音,合成的新语音个性单一,听起来像生硬的机器语言,不自然。如果语音是由语音合成系统生成的,则使用语音转换系统对该语音进行作用,或者合成单元首先通过语音转换系统,然后进行语音合成,然后获得具有特定说话人个性特征的合成语音。语音转换研究涉及大量说话人个性特征的分析和建模,其研究成果对情感、个性化语音等鲜明语音的分析和生成具有重要意义,可以弥补单一语音合成系统中的缺陷,使合成的语音具有丰富的个性化特征,进而获得听觉效果更好的语音。
个性化语音合成系统。
语音翻译系统:语音翻译系统将一种语言的语音翻译成另一种语言的语音,同时保持说话人的身份和说话风格。首先,通过语音识别将系统转换成单词,然后通过机器翻译将其转换成另一种语言。最后,通过语音合成系统和跨语言语音转换系统合成翻译后的句子。
语音翻译系统
说话人语音认证系统:语音转换系统是将语音转换为特定目标说话人的样式,犯罪分子可以通过语音转换系统伪造语音数据,而说话人认证系统只是一个识别真实说话人的系统。
说话人身份转换:语音转换技术可以用于保护重要人物的身份,也可以用于配音。
把……戏称为;给……起绰号
言语和助听器设备:社会上有很多后天原因导致的声道受损患者。他们在说话时,会包含更多的噪音,声音嘶哑,清晰度低,很难识别。通过语音转换系统,我们可以提高他们语音的音质。语音转换系统可以通过合成更容易理解或更典型的语音来帮助有语言障碍的人,它也可以应用于使用电子喉设备的语音辅助设备。类似的方法可以用来提高语音的可懂度,尤其是在嘈杂的环境中,提高未来助听器的性能,从而获得更易识别的语音,这将为这些患者提供极大的便利,改善他们的生活。