Warning: preg_grep(): Compilation failed: quantifier does not follow a repeatable item at offset 165 in /var/www/tg-me/post.php on line 75
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение | Telegram Webview: dsproglib/6548 -
Telegram Group & Telegram Channel
👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6548
Create:
Last Update:

👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6548

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Unlimited members in Telegram group now

Telegram has made it easier for its users to communicate, as it has introduced a feature that allows more than 200,000 users in a group chat. However, if the users in a group chat move past 200,000, it changes into "Broadcast Group", but the feature comes with a restriction. Groups with close to 200k members can be converted to a Broadcast Group that allows unlimited members. Only admins can post in Broadcast Groups, but everyone can read along and participate in group Voice Chats," Telegram added.

Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA