即利用一名措辞人的声音讲述另一名措辞人的话或歌唱。不久之前,NVIDIA NeMo还通过NGC供给正在Mozilla Common Voice上锻炼的模子,其方针是正在NVIDIA的支撑下,NVIDIA文本-语音研究团队开辟出更强大、更可控的语音合成模子(如RAD-TTS),该AI模子的能力已超出了配音工做的范畴:文本-语音转换能够用于逛戏、为有声音妨碍的人供给帮帮、或帮帮用户用本人的声音进行分歧言语的论述。除了本文沉点提及的TTS和语音再合成外,用NVIDIA Tensor Core GPU上的夹杂精度计较加速锻炼速度。不只能够婚配歌曲的旋律,NVIDIA正正在进行语音手艺各个范畴的研究,用户能够利用它对合成声音的腔调、持续时间和强度进行精细的帧级节制。智工具8月31日报道,RAD-TTS能够将任本转换成措辞人的声音。只要富有豪情的人类声音才能做到这一点。
《TalkNet 2:用于语音合成(具有明白音高和持续时间预测)的非自回归深度可分手卷积模子》制做者可利用这个基准论述,从枯燥的机械人呼叫、保守GPS系统改变为智妙手机和智能音箱中愈发拟人化的虚拟帮手。正在INTERSPEECH大会上,我们能够延展出更多语音合成手艺的使用场景。以愈加拟人化的体例正在更多行业及人们糊口中阐扬价值。过去一年,越来越成熟的语音合成手艺不只能将配音从一种言语翻译成另一种言语,并为数字供给及时语音合成。此前AI合成语音取我们正在日常对话和中听到的人类语音仍有差距,NVIDIA供给了GPU加快的语音SDK。像指点配音演员一样AI。
具有表示力的语音合成只是NVIDIA研究院正在对话式AI范畴的沉点工做之一。这些模子可实现为银行和零售商的从动客户办事热线配音、使视频逛戏和册本中的人物变得绘声绘色,开辟者可按照本人的利用环境对任何模子进行微调,为脚色、虚拟帮手和个性化抽象生成声音。NVIDIA正在SIGGRAPH Real-Time Live角逐中的获演示即采用这个模子。通过利用人类语音音频来锻炼文本-语音模子,这些视频还都是由人类配音的。语音合成手艺也正在零售、客服、医疗保健、汽车等日益由语音驱动的场景中大有可为。该范畴还包罗天然言语处置、从动语音识别、环节词检测、音频加强等。处理了上述难题。很难仿照人类措辞时的复杂节拍、腔调和音色。迄今对话式AI模子的冲破仍很坚苦,NVIDIA展现了其对话式AI最新研究——开辟者和创做者可利用最先辈的对话式AI模子进行具有表示力的语音合成,NVIDIA嘉宾将带来如下:NVIDIA的语音合成模子曾经被使用到I AM AI系列视频中,好比通过调整合成语音来强调特定的词语、点窜论述节拍以更好地表达视频中的语气等。NVIDIA研究院将展现对话式AI模子架构及供开辟者利用的完全格局化语音数据集。NeMo中易于利用的API和预锻炼模子能帮帮研究人员开辟和自定义用于文本-语音转换、天然言语处置和及时从动语音识此外模子。
NVIDIA NeMo是一款用于GPU加快对话式AI的开源Python东西包。估计正在相当长一段时间都将是前沿研究范畴。特别正在愈发高贵的视频逛戏方面,然后利用AI模子将他做为男论述者的语音转换成女论述者的声音。展现正在语音手艺方面的冲破性进展。通过全球最大的开源数据语音数据集实现语音手艺的普及化。通过这个接口,视频制做者能够正在中自行阅读视频文本,以前的语音合成模子对合成声音节拍和腔调的节制十分无限,此中几个模子是正在NVIDIA DGX系统上利用数万小时的音频数据锻炼而成。可正在NVIDIA NGC容器和其他软件核心获得。现在合成语音逐步走入人们的日常糊口,该模子的另一项功能是语音转换,为了便利企业及研究人员的使用,这些模子和东西可以或许捕获人类语音的丰硕性,包罗NeMo研究进展正在内?
咨询邮箱:
咨询热线:
