
Разведочный анализ данных (EDA — Exploratory Data Analysis) я воспринимал как этап, когда нужно ознакомиться с новыми данными или источником, что было актуально только на начальной стадии проекта. Однако сейчас я делаю разведочный анализ каждый раз, когда возникает задача построить модель или провести анализ эксперимента, даже если раньше, я уже работал с этим набором данных. Это не просто полезно, EDA остаётся критически важным. Дальше я постараюсь пояснить почему.
1. Мир меняется — и данные тоже
Даже если структура данных не меняется, реальность, которую они отражают, подвержена постоянным изменениям. Поведение пользователей, рыночные условия, сезонные факторы, изменения в политике ценообразования или маркетинговых стратегиях — всё это влияет на данные. EDA помогает отследить эти изменения и адаптировать модели и бизнес-решения под новые реалии.
2. Ошибки и выбросы: когда аномалия становится нормой
Один из ключевых этапов EDA — выявление выбросов и аномалий. Однако со временем то, что раньше считалось выбросом, может стать частью новой нормы. Выбросы могут сигнализировать как об ошибках в данных (например, сбои интеграции), так и о новых паттернах поведения пользователей или рыночных изменениях.
Важно: нужно пытаться смотреть на данные и пытаться их понять каждый раз как в первый раз. EDA помогает не просто находить выбросы, но и вовремя понять, когда “выброс” перестаёт быть ошибкой и начинает отражать новую реальность. Это особенно критично в контексте concept drift — изменения распределения данных во времени, которое может привести к деградации модели. Т.е. то, что на графиках до сих пор отражается как выброс, но мы уже видим, что это регулярно происходит.
3. Накопление шумов и отклонений
Даже самые чистые источники данных со временем начинают “засоряться”: появляется больше недостающих значений, несогласованностей, дубликатов. Причины могут быть как техническими (изменения в API, ошибки ETL-процессов), так и организационными (изменения в политике сбора данных).
Регулярный EDA позволяет не только обнаруживать такие отклонения, и нужно их “поймать” и оценить их влияние на качество анализа и моделей.
4. EDA как часть мониторинга качества данных
Я считаю, что EDA должен входить в циклические процессы мониторинга. Системы мониторинга моделей часто отслеживают метрики качества, но не всегда дают представление о причинах деградации. EDA позволяет посмотреть “внутрь” данных, выявить изменения в распределениях, сегментах пользователей или источниках ошибок. Нужно определить несколько ключевых или наиболее спорных показателей и можно вынести их в даш, которым будешь пользоваться уже ты, а не пользователь модели.
5. Информированное переобучение моделей
Многие команды следуют практике регулярного переобучения моделей. Однако, здесь, без EDA это может превратиться в автоматическую, но слепую процедуру. Да мы подстроим модель, но, возможно, модель не просто нужно переобучить, возможно возникли ошибки?
Это ключевые вещи, но есть и более специфичные, например:
6. EDA как инструмент проверки гипотез перед causal inference-анализом или до интерпретации A|B теста.
7. Новые закономерности и потенциальные точки роста или новые сегменты.
8. Инсайты для бизнеса. Бизнес, часто, мониторит определенные показатели на панелях индикаторов и в этом случае разведочный анализ становится одним из инструментов поиска упущенной информации.
Вывод
Я работаю с одними и теми же данными в одной и той же компании и EDA — это не разовая задача, а непрерывный процесс, необходимый для:
- отслеживания изменений в данных и бизнес-среде;
- мониторинга качества данных и моделей;
- принятия обоснованных решений на основе данных;
- построения корректных причинно-следственных выводов;
- адаптации под новые тенденции и возможности.