tg-me.com/Python_Community_ru/2546
Last Update:
🗣 OuteTTS 1.0 — это современный инструмент с открытым исходным кодом для синтеза речи (Text-to-Speech), который фокусируется на высоком качестве озвучивания, клонировании голосов и поддержке множества языков. Основные функции:
🔊 Ключевые возможности:
Высокая производительность:
Способен создавать аудио длительностью до 42 секунд (~8192 токена) за один раз.
Тем не менее, для достижения наилучших результатов рекомендуется ограничивать объем до ~7000 токенов.
- Поддержка клонирования голоса:
Использует образец голоса длиной, например, 10 секунд. В этом случае контекст для синтеза уменьшается: доступно около 32 секунд активного контента (из 42).
- 20 языков:
Поддерживает озвучивание на 20 различных языках, что делает его универсальным решением для мультиязычных проектов.
🛠️ Под капотом:
Хотя в описании не так много деталей о модели, из репозитория на GitHub можно понять, что:
Используются современные архитектуры трансформеров для TTS.
Поддерживается реалистичное клонирование голоса по короткому фрагменту.
Скорость генерации и качество аудио соответствуют лучшим TTS-системам с открытым кодом.
Установка:
git clone https://github.com/edwko/OuteTTS.git
cd OuteTTS
pip install -r requirements.txt
python
from outetts import OuteTTS
tts = OuteTTS(
reference_speaker_path="reference_audio/igor_voice.wav",
language="ru" # поддерживаются и другие языки, например: "en", "ja"
)
text = "Привет, Python разработчик! Я твой кастомный голосовой ассистент."
audio = tts.generate(text)
with open("output.wav", "wb") as f:
f.write(audio)
📥 Ссылка на репозиторий (https://github.com/edwko/OuteTTS)
@Python_Community_ru
BY Python Community

Share with your friend now:
tg-me.com/Python_Community_ru/2546