✅ How to: работать с 11 типами переменных в данныхВ анализе данных и машинном обучении важно понимать, с какими типами переменных вы имеете дело — это помогает правильно интерпретировать данные, строить модели и избегать ошибок.
👇 Разберём 11 ключевых типов переменных.
➡️ Независимые и зависимые переменные:
🔵Независимые переменные (или предикторы/фичи) — это признаки, которые используются в качестве входных данных для предсказания результата.
🔵 Зависимая переменная — это результат, который предсказывается. Её также называют целевой переменной, ответом или выходной переменной.
🔵 Пример: предсказываем уровень дохода (зависимая переменная) по возрасту, образованию и стажу (независимые переменные).
➡️ Спутывающие и коррелированные переменные:
🔵 Спутывающие переменные влияют и на независимую, и на зависимую переменную, искажают причинно-следственные связи.
🔵 Коррелированные переменные могут быть связаны между собой, но это не означает наличие причинной связи.
🔵 Важно: «Корреляция ≠ причинность».
🔵 Пример: продажи мороженого и кондиционеров растут одновременно не из-за связи между ними, а из-за жары (спутывающая переменная).
➡️ Контрольные переменные:
🔵 Не являются объектом исследования, но учитываются, чтобы избежать искажения результатов.
🔵 Пример: при исследовании влияния образования на доход контролируют возраст и регион.
➡️ Латентные (скрытые) переменные:
🔵 Не наблюдаются напрямую, но влияют на данные. Выводятся опосредованно через другие признаки.
🔵 Пример: кластеры пользователей (предпочтения, поведение) — латентны, но можно выявить с помощью кластеризации.
➡️ Переменные взаимодействия:
🔵 Отражают влияние комбинации двух или более переменных.
🔵 Пример: взаимодействие плотности населения и дохода может выявить различия в потреблении по регионам.
➡️ Стационарные и нестационарные переменные:
🔵 Стационарные: статистики (среднее, дисперсия) не меняются со временем.
🔵 Нестационарные: имеют тренды, сезонность, нарушают предположения многих моделей.
🔵 Пример: цены акций — нестационарны, их нужно преобразовать перед анализом (например, логарифм, разности).
➡️ Отставшие переменные:
🔵 Переменные, которые представляют собой значения с предыдущих временных точек.
🔵 Продажи в прошлом месяце — отставшая переменная для прогноза продаж в следующем.
➡️ Утечка переменных:
🔵 Эти переменные предоставляют информацию о целевой переменной, которая была бы недоступна во время предсказания. Это приводит к чрезмерно оптимистичной производительности модели на обучающих данных, но она плохо обобщается на новые данные.
🔵 Пример: дата оформления страховки появляется в обучении, но при предсказании она ещё неизвестна.
Библиотека дата-сайентиста #буст