OpenAI 发布 Voice Engine 模型:只需 15 秒即可克隆你的声音!
类别 | 精选文章 |
---|---|
ChatGPT | 1. ChatGPT 账号注册教程 2. ChatGPT Plus 升级教程 |
OnlyFans | 1. OnlyFans 注册绑卡订阅教程 |
Patreon | Patreon 注册绑卡订阅教程 |
Fantia | Fantia 注册绑卡订阅教程 |
虚拟信用卡 | WildCard 虚拟信用卡开卡教程 |
概要
OpenAI 悄悄推出了一个新的模型:Voice Engine 模型(语音合成模型),只需要15秒的原声音频样本,即可合成与原声十分相似的、富有情感的人声!
官网给出的原声音频:
下官网给出的合成音频:
输入文本:Some of the most amazing habitats on Earth are found in the rainforest. A rainforest is a place with a lot of precipitation and it has many kinds of animals trees and other plants. Tropical rainforests are usually not too far from the equator and are warm all year.
你能听出上面两段音频的区别吗?反正我听不出来。
媲美原声的 Voice Engine 模型,结合文生视频模型 Sora,视频制作行业即将迎来翻天覆地的变化,人人都是导演的世界即将到来。
(PS:Sora 模型和 Voice Engine 模型都还在小范围推广中,并没有全员推广,但是按照 OpenAI 过往一贯的策略,新模型出来首先给 ChatGPT Plus 用户使用。如果不知道怎么升级 ChatGPT Plus,可以参考这篇教程:ChatGPT Plus 升级保姆教程)
Voice Engine 是什么?
Voice Engine 是由 OpenAI 开发的一款模型,它可以根据文本输入和一个15秒的单一音频样本生成听起来自然、与原始说话者非常相似的语音。这项技术能够创造出富有情感和逼真的声音,即使只有非常短的音频样本作为参考。
Voice Engine 的开发始于2022年底,它已经被用于为 OpenAI 的文本转语音(text-to-speech)API 提供预设声音,以及为 ChatGPT Voice 和 Read Aloud 功能提供支持。该模型的关键在于,它能够利用少量的音频数据生成高质量的合成语音,这使得它在多种应用场景中具有潜在的实用性。
Voice Engine 的早期应用
根据 OpenAI 的博客,Voice Engine 的早期应用有如下几种:
- 提供阅读辅助:Voice Engine 被用于帮助非读者和儿童通过自然听起来、富有情感的声音来获取阅读辅助。教育技术公司 Age of Learning 使用这项技术来生成预编写的配音内容,并与 GPT-4 结合,创建实时、个性化的互动响应,以与学生进行互动。
- 翻译内容:Voice Engine 被用于将视频和播客等内容翻译成多种语言,以便创作者和企业能够以听众的母语和自然听起来的声音触及全球观众。AI 视觉叙事平台 HeyGen 利用 Voice Engine 进行视频翻译,将说话者的声音翻译成多种语言,并保持原始说话者的口音。
- 触及全球社区:Voice Engine 被用于改善偏远地区的基本服务交付。例如,Dimagi 正在为社区卫生工作者构建工具,使用 Voice Engine 和 GPT-4 提供互动反馈,以每种工作者的母语进行交流,包括斯瓦希里语或肯尼亚流行的混合代码语言 Sheng。
- 支持非言语人群:Voice Engine 被用于支持有言语障碍的个体,如通过 Livox 这样的 AI 替代通讯应用程序,为增强和替代通讯(AAC)设备提供动力,使残疾人能够以独特和非机械性的声音进行交流。
- 帮助患者恢复他们的声音:Norman Prince Neurosciences Institute 正在探索 AI 在临床情境中的使用,他们试行了一个项目,为因肿瘤或神经原因导致言语障碍的个人提供 Voice Engine,以帮助他们恢复声音。
这些早期应用展示了 Voice Engine 技术在教育、全球交流、社区服务、辅助技术和医疗恢复等方面的潜力。通过这些应用,Voice Engine 不仅提高了内容的可访问性和包容性,还为那些有特殊需求的个体提供了支持和帮助。随着技术的进一步发展和推广,我们可以期待 Voice Engine 在更多领域发挥重要作用。
Voice Engine 应用场景
显然,Voice Engine 技术的应用场景非常广泛,它可以被用于多个行业和领域,以提供更加自然和个性化的语音交互体验。以下是一些可能的应用场景:
- 教育和学习辅助:Voice Engine 可以为阅读障碍者、学习障碍者或儿童提供个性化的学习材料,通过合成他们熟悉的声音来提高学习效率和参与度。
- 娱乐和媒体:在电影、电视、广播和游戏产业中,Voice Engine 可以用来创建逼真的角色配音或为外语电影提供本地化配音,而不需要原始演员的参与。
- 个性化的虚拟助手:智能设备和虚拟助手可以通过 Voice Engine 技术提供更加自然和个性化的语音反馈,增强用户体验。
- 辅助残障人士:Voice Engine 可以帮助言语障碍者通过合成声音表达自己,提高他们的沟通能力。
- 广告和市场营销:营销人员可以使用 Voice Engine 技术创建吸引人的广告,通过合成特定人群的声音来提高广告的吸引力和效果。
- 客户服务和呼叫中心:企业可以使用 Voice Engine 为客户提供更加自然和个性化的电话服务,提高客户满意度和忠诚度。
- 语言学习:语言学习应用可以利用 Voice Engine 技术提供多种语言的母语发音示例,帮助学习者更好地掌握发音和语调。
- 公共广播和通知:在公共交通、公共场所或紧急情况下,Voice Engine 可以用于生成清晰的语音通知和指示,提高信息传达的效率。
- 内容创作和播客:内容创作者可以使用 Voice Engine 为他们的作品添加高质量的配音,无需专业的录音设备或演员。
- 个性化的有声读物:出版社和作者可以使用 Voice Engine 根据读者的偏好定制有声读物,提供更加个性化的阅读体验。
- 法律和法庭服务:在法律领域,Voice Engine 可以帮助恢复证人或受害者的声音,用于法庭证据的呈现。
- 健康和康复:对于经历语言康复的患者,Voice Engine 可以提供定制的语音训练材料,帮助他们恢复语言能力。
这些应用场景只是 Voice Engine 技术潜在用途的一部分。随着技术的进步和创新,可以预期将出现更多的应用领域和创新用途。
Voice Engine 的潜在问题
Voice Engine 技术虽然具有巨大的潜力和广泛的应用前景,但同时也伴随着一些潜在的问题和挑战,需要在推广和使用过程中予以重视和解决。
- 滥用风险:合成声音技术可能被用于不道德或非法的目的,例如冒充公众人物、名人或政治家进行虚假信息传播,或者用于诈骗和欺诈活动。
- 隐私侵犯:生成与个人声音相似的合成声音可能涉及对个人隐私的侵犯,尤其是在未经本人同意的情况下使用其声音样本。
- 误导性内容:合成声音可能被用于制作看似真实的误导性内容,这可能对公众意见、选举结果或其他重要决策产生影响。
- 版权问题:使用某人的声音样本生成合成声音可能涉及版权和知识产权的问题,需要明确法律框架来规范这种使用。
- 身份冒充:合成声音技术可能被用于身份冒充,这不仅对个人造成伤害,也可能对企业和组织造成声誉和经济损失。
- 社会影响:合成声音的广泛使用可能会改变人们对于真实性和信任的看法,对社会交往和人际关系产生深远影响。
- 技术监管:需要制定有效的监管政策和技术标准来确保合成声音的安全使用,防止滥用,并保护个人和社会免受潜在的负面影响。
- 道德和伦理考量:合成声音技术的使用引发了一系列道德和伦理问题,例如,是否应该允许使用已故人士的声音样本,以及在何种情况下使用合成声音是合适的。
由于以上问题的存在,OpenAI 当前并未大规模推广该技术,只是在小范围内与合作伙伴进行尝试,探索一种更安全的使用方式。
并且为了应对这些潜在问题,OpenAI 采取了一系列措施,包括与政府、媒体、娱乐、教育和民间社会的国际合作伙伴进行沟通,制定使用政策,要求明确的知情同意,实施水印和主动监控等安全措施,以及探索声音认证体验和禁止声音列表等额外的安全措施。这些努力旨在确保合成声音技术的负责任使用,并减少可能的负面影响。