Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️

Шпаргалка: как генерировать текст с LLM

Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?

Давайте разберём основные методы:

🔵

Жадный поиск (Greedy Search) — выбираем слово с наивысшей вероятностью и продолжаем. Проблема: тексты становятся предсказуемыми и повторяются.

🔵

Случайный отбор (Sampling) — выбираем слова случайно с учётом вероятностей. Регулируется параметром temperature:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.

🔵

Лучевой поиск (Beam Search) — выбираем k лучших вариантов, продолжаем развивать их и выбираем последовательность с наибольшей вероятностью. Это баланс между качеством и скоростью.

🔵

Контрастный поиск (Contrastive Search) — улучшенный вариант, который оценивает гладкость и разнообразие текста. Слова с высокой вероятностью, но слишком похожие на предыдущие, могут быть наказаны и заменены более разнообразными.

💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

www.tg-me.com/us/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6285

1.88K viewsMar 31 at 07:05

tg-me.com/dsproglib/6285

Create: 2025-03-31
Last Update: 2025-07-10 15:09:15

✍️ Шпаргалка: как генерировать текст с LLM

Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?

Давайте разберём основные методы:

🔵 Жадный поиск (Greedy Search) — выбираем слово с наивысшей вероятностью и продолжаем. Проблема: тексты становятся предсказуемыми и повторяются.

🔵 Случайный отбор (Sampling) — выбираем слова случайно с учётом вероятностей. Регулируется параметром temperature:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.

🔵 Лучевой поиск (Beam Search) — выбираем k лучших вариантов, продолжаем развивать их и выбираем последовательность с наибольшей вероятностью. Это баланс между качеством и скоростью.

🔵 Контрастный поиск (Contrastive Search) — улучшенный вариант, который оценивает гладкость и разнообразие текста. Слова с высокой вероятностью, но слишком похожие на предыдущие, могут быть наказаны и заменены более разнообразными.

💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search

Библиотека дата-сайентиста #буст

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Telegram Auto-Delete Messages in Any Chat

How To Find Channels On Telegram?

✍️ Шпаргалка: как генерировать текст с LLMГенерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова