Warning: preg_grep(): Compilation failed: quantifier does not follow a repeatable item at offset 142 in /var/www/tg-me/post.php on line 75 Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/962 -
📱Как кросс-валидация применяется к большим нейросетям (например, GPT-подобным моделям) с миллионами или миллиардами параметров
Полноценная k-фолд кросс-валидация в контексте таких моделей обычно непрактична из-за колоссальных затрат времени и вычислительных ресурсов. Однако есть ряд подходов, позволяющих сбалансировать проверку качества модели и реалистичность обучения:
❗️Возможные стратегии
1. Уменьшенное значение k (Reduced k)
Часто используют просто отложенную выборку (hold-out) или 2-фолд кросс-валидацию. Иногда применяют случайные разбиения несколько раз вместо традиционных 5-10 фолдов.
2. Чекпойнты и частичное повторное использование весов
Хотя обучение на каждом фолде требует разных данных, можно: 🟠дообучать модель с уже натренированными весами, 🟠использовать подходы transfer learning или fine-tuning.
Это не полностью корректно, но снижает затраты.
3. Параллельное и распределённое обучение
Если есть достаточное количество ресурсов (кластер, TPU/облачные GPU), фолды можно обучать параллельно.
4. Субсэмплирование данных
При очень больших датасетах можно делать случайную подвыборку на каждом фолде. Это сохраняет распределение, но уменьшает общий объём обучающих данных.
📱Как кросс-валидация применяется к большим нейросетям (например, GPT-подобным моделям) с миллионами или миллиардами параметров
Полноценная k-фолд кросс-валидация в контексте таких моделей обычно непрактична из-за колоссальных затрат времени и вычислительных ресурсов. Однако есть ряд подходов, позволяющих сбалансировать проверку качества модели и реалистичность обучения:
❗️Возможные стратегии
1. Уменьшенное значение k (Reduced k)
Часто используют просто отложенную выборку (hold-out) или 2-фолд кросс-валидацию. Иногда применяют случайные разбиения несколько раз вместо традиционных 5-10 фолдов.
2. Чекпойнты и частичное повторное использование весов
Хотя обучение на каждом фолде требует разных данных, можно: 🟠дообучать модель с уже натренированными весами, 🟠использовать подходы transfer learning или fine-tuning.
Это не полностью корректно, но снижает затраты.
3. Параллельное и распределённое обучение
Если есть достаточное количество ресурсов (кластер, TPU/облачные GPU), фолды можно обучать параллельно.
4. Субсэмплирование данных
При очень больших датасетах можно делать случайную подвыборку на каждом фолде. Это сохраняет распределение, но уменьшает общий объём обучающих данных.
Some messages aren’t supposed to last forever. There are some Telegram groups and conversations where it’s best if messages are automatically deleted in a day or a week. Here’s how to auto-delete messages in any Telegram chat. You can enable the auto-delete feature on a per-chat basis. It works for both one-on-one conversations and group chats. Previously, you needed to use the Secret Chat feature to automatically delete messages after a set time. At the time of writing, you can choose to automatically delete messages after a day or a week. Telegram starts the timer once they are sent, not after they are read. This won’t affect the messages that were sent before enabling the feature.
Библиотека собеса по Data Science | вопросы с собеседований from us