图龙网络科技

问答社区

原创作者: 图龙网络科技 发布时间: 2023-09-23 231.93K 人阅读

沃尔卡拉弗泰一个革命性的人工智能工具,可以同时将视频配音为多种区域语言和唇同步。

太极混元 发布于 1个月前 分类:语言模型

预先要求

  • Nvi无国界电视台
  • Windows用户:安装Linux的Windows子系统。
  • Linux用户:确保您的系统有Nvi无GPU驱动程序。

在你的系统中设置声带

  1. 把这个目录复制下来
  2. 运行Setub.IPynb文件(所有单元格)
  3. 现在打开你的艾克多因文件夹,到SRC子文件夹3.1替换主文件夹。
  4. 确保将以下每个文件中的绝对路径更改为相同的路径:
    • 网络。测试。修剪。声音_克隆。
    • 声音飞行器 是一种由人工智能(AI)提供动力的尖端配音软件,旨在无缝地将英语音频翻译成各种印度地区语言。我们的创新平台提供了一个简化但强大的过程,以多重语言配音视频,同时保留了原来说话人的声音的细微差别。

      配音过程 声音飞行器 采用一种系统的方法,将英语音频转换为区域语言,带一点自然感。为了实现这一最终产品,我们遵循了八个步骤。

      步骤1:音频提取

      • 第一步是从用户的视频内容中提取音频。这是配音过程的基础。
      • 我们是在FFMPEG的帮助下这样做的。从用户视频中提取的WV文件。这是我们的英语原声.

      第二步:语音转录

      • 下一步是将这段音频转换成文本,加上适当的标点符号,以获得最好的翻译文本。
      • 我们用"公开"的耳语从提取的音频中转录语音,因为我们的研究已经得出结论,这是最好的方式转录我们的英语语音。

      步骤3:翻译

      • 在这一步中,我们将我们的英语文本转换为20多个区域语言,以获得我们的语音合成是各种语言的转录。
      • 由于问题陈述涉及非口语翻译,我们可以使用谷歌翻译来实现这一点。

      步骤4:语音合成

      • 我们的下一个步骤是利用基于电子邮件的文本到语音的强大技术。
      • 我们在男性和女性的本土声音之间选择一个合成的声音在所需的区域语言转录脚本。
      • 虽然这个声音听起来可能很自然,但这个最初的合成在本质上有点机械化,所以我们的目标是解决这个问题,同时也使它听起来很自然。
      • 为了实现这个目标,我们计划克隆用户的语音。

      第五步:声音模型创作

      • 我们可以选择一个已经训练好的语音模型,加载一个预先训练好的模型,或者训练我们自己的语音模型,然后继续克隆过程。
      • 培训声音模式:
      • 声音飞行器 使用基于检索的语音转换技术,用户可以很容易地训练自己的语音模型。
      • 语音模型只是用户语音的AI模型,可以用来将他们的语音复制成现有的音频片段。
      • 创建数据集:
      • 为了训练一个语音模型,用户必须准备一个数据集,其中包括大约10-20分钟的用户语音"。WV"文件。
      • 它们可以是单独的文件,每次持续时间为20秒或单个文件。
      • 这些文件必须被命名为"文件.wav",存储在一个文件夹中,该文件夹必须被压缩。
      • 这个压缩的文件是现在需要导入的数据集
      • 一旦数据集被创建,我们就可以导入它并开始创建一个模型。阶段的数量,采样率,批号的大小已经通过大量的实验来确定,所以用户不需要修改。
      • 一旦模型经过培训,用户可以将模型下载为"。压缩文件。
      • 用户也可以选择在软件上保存这个声音,这样就更容易选择相同的声音进行将来的转换。

      步骤6:最终音频生成

      • 现在我们已经有了语音模型,我们可以继续克隆用户的声音,而不是我们为不同语言生成的边缘-tts声音。
      • 这将使不同语言的声音听起来很自然,对用户来说更有个性,从而使它更人性化。
      • 我们对这个步骤使用基于检索的语音转换。

      步骤7:视频集成和字幕生成

      • 下一步是将我们20多种区域语言的音频与我们的视频结合起来,形成输出视频的基础。
      • 这是在FFMPEG的帮助下完成的。
      • 我们还在每种区域语言中嵌入字幕及其视频,以便为消费者提供更清晰的信息。

      步骤8:唇同步集成(致力于此功能)

      • 最后的步骤是将唇同步与每种区域语言的音频集成,以创建最终的最终产品。
      • 我们用Wav2LIP来实现这个目标。
      • 一旦完成了这一工作,最终的一组视频将被呈现出来,并被巧妙地编译成一个"。压缩"文件,每个语言的名称在该具体的视频标题。

      这标志着我们管道的结束。

      输出:20+各种区域语言的语音克隆和唇同步视频。

      最终结果

      声音飞行器 唯一的管道将一个视频作为输入,并将其转换成多个输出视频。这些输出视频不仅是专业地用各种印度地区语言进行配音,而且还以说话人自己的声音为特色,并与唇动作同步。添加字幕进一步提高了用户体验,使内容更容易为广大受众所了解。伴随着 声音飞行器 ,人工智能的力量被用来打破语言障碍,使内容更具有包容性、更有吸引力,并与印度各地不同的受众相关。无论是为了娱乐,教育,还是信息共享,我们的解决方案确保你的信息被所有人听到和理解。

    • 系统镜像代码拉起:git@github.com:HallowSiddharth/VoiceCraftAI.git
    • 使GPU加速和安装张力流,cuda,等等。
    • 按此链接: https://docs.google.com/document/d/1MQ35ZeMZupJQCz4pUmI2Z0j6yD5VaVRWYBtosGNK0p8/edit?pli=1#heading=h.aczyuw2yex2

0个回复

  • 龙族们都在等待回复

提供中小企业建站高端正版精品系统

正品模板 购买协议