跳转至

视频翻译技术实现

郭德纲说英语相声、霉霉讲中文、AI 孙燕姿唱不同的歌,这些都可以通过AI功能快速实现,最快的实现方式是通过商业方案 heygen video translation 实现。同时也可以通过开源方案实现。

老郭说英文相声

开源方案

开源方案实现话需要通过以4到5个步骤完成:

  1. 把语音识别成文本(Whisper)
  2. 把文本从一种语言翻译到一种语言(chatGPT, DeepDL),新版本的 Whisper 已具备该功能
  3. 把说话人的音色和声线提取出来(中文:VITS-Fast-fine-tuning,英文和其他语言:Tortoise TTS 和Bark)
  4. 用说话人的音色把翻译好的文本转成语音(中文:VITS-Fast-fine-tuning,英文和其他语言:Tortoise TTS 和Bark)
  5. 使用生成的语音去驱动嘴型的变化(Wav2Lip)

开源和商业结合方案

1
2
3
4
视频转换:LensGo AI
音频生成:ElevenLabs
口型同步:wav2lip
Deepfake:FaceSwap

视频短片生成方案

1
2
3
4
图像生成:Midjourney
视频生成:Runway + Pika Labs
嘴巴动作:Wav2lip
音频:VoiceAI(用自己的声音朗读)

heygen、rask.ai、wav2lip、video-retalking、elevenlabs SadTalker-Video-Lip-Sync VITS-Fast-fine-tuning

https://synclabs.so/(wav2lip付费产品)

捐赠本站(Donate)

weixin_pay
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))