Python Community | Telegram Webview: Python_Community

Python Community

🗣 OuteTTS 1.0 — это современный инструмент с открытым исходным кодом для синтеза речи (Text-to-Speech), который фокусируется на высоком качестве озвучивания, клонировании голосов и поддержке множества языков. Основные функции:

🔊 Ключевые возможности:
Высокая производительность:
Способен создавать аудио длительностью до 42 секунд (~8192 токена) за один раз.

Тем не менее, для достижения наилучших результатов рекомендуется ограничивать объем до ~7000 токенов.

- Поддержка клонирования голоса:
Использует образец голоса длиной, например, 10 секунд. В этом случае контекст для синтеза уменьшается: доступно около 32 секунд активного контента (из 42).

- 20 языков:
Поддерживает озвучивание на 20 различных языках, что делает его универсальным решением для мультиязычных проектов.

🛠️ Под капотом:
Хотя в описании не так много деталей о модели, из репозитория на GitHub можно понять, что:

Используются современные архитектуры трансформеров для TTS.

Поддерживается реалистичное клонирование голоса по короткому фрагменту.

Скорость генерации и качество аудио соответствуют лучшим TTS-системам с открытым кодом.

Установка:
git clone https://github.com/edwko/OuteTTS.git
cd OuteTTS
pip install -r requirements.txt

python
from outetts import OuteTTS

tts = OuteTTS(
reference_speaker_path="reference_audio/igor_voice.wav",
language="ru" # поддерживаются и другие языки, например: "en", "ja"
)

text = "Привет, Python разработчик! Я твой кастомный голосовой ассистент."
audio = tts.generate(text)

with open("output.wav", "wb") as f:
f.write(audio)

📥 Ссылка на репозиторий (https://github.com/edwko/OuteTTS)
@Python_Community_ru

GitHub

GitHub - edwko/OuteTTS: Interface for OuteTTS models.

Interface for OuteTTS models. Contribute to edwko/OuteTTS development by creating an account on GitHub.

www.tg-me.com/us/Python Community/com.Python_Community_ru/2546

968 viewsApr 9 at 12:12