Проект для синтеза речи с использованием модели fish-speech/xtts. Позволяет преобразовывать текст в речи с клонированием голоса.
- Клоинрование голоса из WAV-файла
- Поддержка русского языка
- Высокое качество синтеза
- Простой API
- Ubuntu/Debian
- Python 3.11 - 3.11.9
- Библиотека TTS
- Образец голоса (WAV, 16kHz, moho)
- Минимум 4GB RAM
- Клонируйте проект:
git clone [email protected]:5ekastanx/Voice-Synthesis.git cd Voice-Synthesis
Если у вас установлена другая версия Python, выполните следующие шаги:
-
Деактивируйте текущее виртуальное окружение (если есть):
deactivate
-
Добавьте репозиторий Python и обновите систему:
sudo add-apt-repository ppa:deadsnakes/ppa sudo apt update
-
Установите Python 3.11:
sudo apt install python3.11 python3.11-venv
-
Создайте новое виртуальное окружение:
python3.11 -m venv new_venv
-
Активируйте окружение:
source new_venv/bin/activate -
Установите TTS:
pip install TTS
Voice-Synthesis/
├── main.py # Основной скрипт
├── voice_samples/ # Образцы голоса
│ └── aliya.wav # Пример образца
└── output/ # Выходные файлы
└── output.wav
-
Поместите WAV-файл с образцом голоса в
voice_samples/ -
Запустите синтез:
text = "Ваш текст для синтеза" synthesize( text=text, speaker_wav=speaker_wav ) -
Запустите скрипт:
python main.py
- CUDA out of memory: Уменьшите размер текста
- Искажение голоса: Проверьте частоту дискретизации (16kHz)
- FileNotFoundError: Проверьте пути к файлам