Skip to content

Latest commit

 

History

History
376 lines (309 loc) · 19.6 KB

README.zh.md

File metadata and controls

376 lines (309 loc) · 19.6 KB

Voice-Pro: 终极AI语音转换和多语言翻译工具 🔊

🌍 한국어English中文简体中文繁體日本語DeutschEspañolPortuguês

GitHub Release

🎙️ 强大的AI驱动Web应用程序,用于YouTube视频处理、语音识别、翻译和多语言支持的文本到语音转换

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。

  • 🔊 顶级语音识别:WhisperFaster-WhisperWhisper-Timestamped
  • 🎤 零样本声音克隆:F5-TTSE2-TTSCosyVoice
  • 📢 多语言文本转语音:Edge-TTSkokoro
  • 🎥 YouTube处理和音频提取:yt-dlp
  • 🌍 100多种语言即时翻译:Deep-Translator
  • 🔇 专业级人声分离:UVR5
  • 🔥 AI翻唱制作:RVC

作为ElevenLabs的强大替代方案,Voice-Pro为播客主持人、开发者和创作者提供高级语音解决方案。

⚠️ 注意事项

  • Voice-Pro已更新至v2.x版本(Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
  • 🆓 免费试用版支持最长60秒的媒体处理
  • 🔥 新增AI翻唱功能
  • 🎤 新增CosyVoicekokoro支持
  • ⏳ 首次运行时需下载CozyVoice2-0.5B (9GB),根据网络速度可能需要1小时以上
  • 🎧 声音克隆用的语音样本将持续更新
  • 提示:
    • 从 v1.x 升级到 v2.x:不可能。因此,建议删除 installer_files 文件夹并运行最新版本的 start.bat。
    • 从 v2.x 升级到 v2.x:可能。下载最新代码后,运行 update.bat。
    • 首次用户:请参考以下安装方法。
    • 问题解决:在大多数情况下,删除 installer_files 文件夹并依次运行 configure.bat 和 start.bat 即可解决问题。

🚄 演示

配音工作室标签页:转录、翻译和TTS

voice-pro-demo-v1.6.7-1080p.mp4

工作室标签页的综合媒体处理工作流程演示:从YouTube视频下载到AI语音分离、Whisper自动字幕、多语言翻译,再到使用F5-TTS进行专业配音的一站式媒体转换过程。

F5-TTS-Multi标签页:播客制作

f5-tts-demo-elon-zuckerberg-1115-3.mp4

F5-TTS的创新AI声音克隆技术演示:精确模仿马克·扎克伯格和埃隆·马斯克的真实声音,创建全新内容的高级语音转换技术展示。

AI翻唱标签页

321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4

制作特朗普版本的IU《Cupid》、金光石《想念的人》、《士兵的信》。

实时翻译标签页:实时识别和翻译

voice-pro-demo-v1.5.7-h264-1080p-live.mp4

实时多语言翻译功能演示:即时捕获BBC新闻内容,生成实时字幕,并立即翻译成其他语言的创新多语言媒体处理过程。

⭐ 主要功能

1. 配音工作室

  • YouTube视频下载和音频提取
  • 使用MDX-NetDemucs进行语音分离
  • 支持100多种语言的语音识别和翻译

2. 语音技术

  • 语音转文本: WhisperFaster-WhisperWhisper-Timestamped
  • 文本转语音:
    • Edge-TTS:支持100多种语言,400多种声音
    • E2-TTSF5-TTSCosyVoice:零样本克隆
    • kokoro:在HuggingFace TTS Arena中排名第二
  • 🔥 AI翻唱(语音转语音): 使用UVR5移除人声,使用RVC进行变声

3. 实时翻译

  • 即时语音识别
  • 实时多语言翻译
  • 可自定义音频输入

🤖 网页界面

配音工作室标签页

  • 集成中心:YouTube下载、降噪、字幕、翻译、TTS
  • 支持所有ffmpeg兼容格式
  • 输出选项:WAV、FLAC、MP3
  • 支持100多种语言的字幕和识别
  • 可调节TTS的速度、音量、音调

多语言语音转换和字幕生成网页界面

Whisper字幕标签页

  • 专用字幕:90多种语言
  • 视频集成字幕显示
  • 单词级高亮和降噪选项

翻译标签页

  • 100多种语言翻译
  • 支持字幕文件(ASS、SSA、SRT等)
  • 实时语音识别和翻译

实时语音识别和翻译网页界面

语音生成标签页

  • 选项:Edge-TTSF5-TTSCosyVoicekokoro
  • 使用名人声音制作播客和多语言支持

使用语音克隆技术制作播客的网页界面

🔥 AI翻唱标签页

使用语音克隆技术制作播客的网页界面

🎤✨ 参考声音

  • 请在Issues页面上请求想添加的声音。Issues

English


Andrew Bustamante

Andrew Huberman

Avi Loeb

Ben Shapiro

Brett Johnson

Brian Keating

Coffeezilla

Dan Carlin

David Buss

David Fravor

David Kipping

Dennis Whyte

Donald Hoffman

Donald Trump

Douglas Murray

Duncan Trussell

Elon Musk

Garry Nolan

Jack Barsky

James Sexton

Jeff Bezos

Joe Rogan

John Mearsheimer

Jordan Peterson

Kanye 'Ye' West

Mark Zuckerberg

Michael Levin

Michael Saylor

Michio Kaku

MrBeast

Nick Lane

Paul Rosolie

Ryan Graves

Sam Altman

Sam Harris

Stephen Wolfram

Tucker Carlson

Vitalik Buterin

Yuval Harari

Chinese


迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean


BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese


綾瀬はるか (Ayase Haruka)

💻 系统要求

  • 操作系统: Windows 10/11(64位)※不支持Linux/Mac
  • 显卡: 支持CUDA 12.4的NVIDIA显卡(推荐)
  • 显存: 4GB以上(推荐8GB以上)
  • 内存: 4GB以上
  • 存储: 20GB以上可用空间
  • 网络: 必需

📀 安装

使用configure.batstart.bat轻松安装Voice-Pro。

1. 准备包

  • GitHub Release下载最新发布版本(Source code (zip)
git clone https://github.com/abus-aikorea/voice-pro.git

2. 安装和运行

  1. 🚀 configure.bat
    • 安装git、ffmpeg、CUDA(使用NVIDIA GPU时)
    • 首次运行一次;需要网络,可能需要1小时以上
    • 不要关闭命令窗口
  2. 🚀 start.bat
    • 运行Voice-Pro网页界面
    • 首次运行时安装依赖(可能需要1小时以上)
    • 如果出现问题,删除installer_files后重新运行

3. 更新

  • 🚀 update.bat:更新Python环境(比重新安装更快)

4. 卸载

  • 运行uninstall.bat或删除文件夹(便携式安装)

❓使用技巧

浏览器没有自动启动时

  • 关闭Windows命令窗口,重新运行start.bat,或
  • 直接启动浏览器,在地址栏输入Windows命令窗口显示的地址(例如**http://127.0.0.1:7892**)

出现CUDA内存不足错误时

  • 在Windows任务管理器-性能标签中检查GPU内存状态
  • 将降噪级别设置为0或1。降噪级别2需要8GB以上的GPU内存
  • 将计算类型设置为int类型。float类型质量更好但需要更多GPU内存

如何提高字幕质量?

  • 字幕质量通常随着使用更大的Whisper模型而提高,但并不总是如此。large > medium > small > base > tiny
  • 在计算类型中,float类型性能更好。int类型通过模型量化降低GPU使用量并提高速度,但性能较差
  • 提高降噪级别可以更多地去除背景音,只将剩余的语音用于语音识别。但不总是能保证更好的结果

📢 注意事项

Windows Defender可能会显示不受信任应用程序的警告,并阻止Voice-Pro继续运行。 如果SmartScreen安全级别设置为"警告",请点击"更多信息"后点击"仍要运行"。 如果SmartScreen设置为"阻止"级别,则没有可以运行安装的按钮。在这种情况下,打开start.bat文件的属性,勾选"解除阻止",应用更改后重新运行start.bat文件。

如果Windows Defender错误地将批处理文件识别为特洛伊木马,这通常被称为"误报"。要解决这个问题,可以采取以下步骤:

  1. 文件例外处理:可以在Windows Defender中设置特定文件或进程跳过安全检查。请按照以下步骤操作:

    • 点击"开始"按钮,进入"设置"
    • 点击"更新和安全"
    • 选择"Windows安全中心",进入"病毒和威胁防护"
    • 点击"管理病毒和威胁防护设置"
    • 在"病毒和威胁防护设置"中选择"添加或删除排除项"
    • 选择"文件或文件夹",找到相关批处理文件并添加为例外
  2. 暂时禁用Windows Defender:这可以作为临时解决方案。但使用此方法时,请注意计算机可能会暴露于其他威胁中。

  3. 向防病毒软件报告问题:如果您确信该文件不是特洛伊木马,可以向Microsoft报告为误报。Microsoft会审查后采取必要的措施。

🚨 通知

  • 此存储库提供 Voice-Pro 的免费试用版
  • Voice-Pro 的免费试用版允许您处理长达 60 秒的媒体。
  • Voice-Pro 的正式版本可通过 ABUS 官方网站 (https://abuskorea.imweb.me) 购买。
Trial Version ☕Contributor Version Subscription Version
Media Length Limit 60 seconds Unlimited Unlimited
Translation Service Google Translate (Open Source) Google Translate (Open Source) Azure Translate (Microsoft)
Text-to-Speech Service Edge TTS (Open Source) Edge TTS (Open Source) Azure TTS (Microsoft)

☕ 贡献

  • 如果您想参与并帮助我们进行此项目,请随时创建一个 Issues
  • 如果出现问题,请提交一个 Pull requests 以改进此项目。
  • 欢迎任何类型的贡献。
  • 有关购买、商业伙伴关系、技术调整、投资和其他相关事宜的咨询,请通过电子邮件 ([email protected]) 与我们联系。
  • 如果您喜欢这个项目,请给这个存储库加星标。我们将非常感谢。 ⭐⭐⭐
  • 您可以在这里通过捐赠支持 Voice-Pro:

"Buy Me A Coffee"

📬 联系方式

👍 YouTube

🙏 鸣谢

©️ 版权信息

by ABUS