Аналитика данных - это прикладная сфера исследований, которая в базе своей имеет 2 основных компоненты - математика и разработка. Казалось бы, до тех пор, пока не придуманы новые математические теории или языки программирования, в этой области не должно происходить кардинальных изменений. Однако это совсем не так. Аналитика данных развивается, появляются новые способы извлечения знаний из данных, новые подходы и методология. Мы попытались структурировать основные тренды и готовы познакомить вас с ними.
Развитие и применение генеративного ИИ
Генеративно-состязательные нейросети и готовые архитектуры типа ChatGPT методологически упрощают процесс взаимодействия с высокими технологиями. Принцип «не знаешь, как решить задачу - решай с помощью нейросетки» становится все более применим к аналитике данных. Действительно, здорово иметь универсальный и маштабируемый инструмент в арсенале бизнеса, но надо помнить, что бездумное применение технологии сопряжено с рисками. Поэтому смотри следующий тренд
Управление модельными рисками
Разрешу себе вольность объединить в модельных рисках 2 компоненты - математическую и этическую. Сегодня многие известные бизнесмены (особенно стоящие на передовой технологического развития типа Билла Гейтса или Илона Маска) говорят о необходимости контроля этических вопросов развития искусственного интеллекта. Безусловно, это важно, но пока мы ограничиваем существование нейросети цифровым пространством, пока режим ее функционирования целиком находится в руках оператора, а сфера применения четко ограничена задачей, на мой взгляд, этические риски немного переоценены, в то время как математические риски - напротив, недооцениваются компаниями, внедряющими модели в процессы. Модель - это потенциальная угроза не человеку, а прежде всего корректности работы процессов и бизнес-метрикам. Это инструмент качественного позитивного влияния на бизнес, но в случае ошибок - источник потерь. Причем выраженных в конкретных денежных единицах. Поэтому внедряя ИИ, необходимо внедрять системы управления модельными рисками, оценивать вероятность возникновения ошибки, степень ее влияния на бизнес, подбирать стратегии минимизации влияния ошибок на бизнес- и финансовый результат.
Интерпретируемость
Опять же тренд, связанный с предыдущим пунктом. Чтобы понять как минимизировать влияние ошибок модели на процессы компании, необходимо понимать, как модель работает. Хотя бы на уровне отчетности. Лучше - на уровне логики.
Единая инфраструктура работы с данными
DWH, системы моделирования, системы принятия решений, мониторинга и управления рисками, отчетность - все эти системы не просто должны существовать в контуре компании или в доступных облаках, эти системы должны быть интегрированы в единый контур. Системы должны обмениваться как исходными данными, так и реализовывать единую стратегию компании. Поменяв настройки в системе принятия решений, система мониторинга рисков должна перестраивать свою работу, управление рисками напрямую должно корректировать настройки системы принятия решений, все изменения должны отображаться в DWH и мониторинге и т.д. Эффект он дата аналитики синергетичен только тогда, когда замкнут цикл работы с данными.
Максимальная утилизация данных
Данные должны работать. Если штат data science не успевает покрыть обработкой весь накопленный массив данных, меняйте процессы. Думайте, что можно автоматизировать. Тренд экологичности работает не только в вопросах очистки мирового океана, но и в вопросах извлечения информации из сырых данных.
Обмен данными
Решив задачу максимальной утилизации данных и настроив процесс работы с данными эффективно, можно переходить к обмену данными. Причем как к внутреннему обмену, так и к внешнему
Документирование данных
Обязательно необходимо понимать механизм потоков данных, поэтому в единой инфраструктуре работы с данными обязательно должен быть блок метаданных с описанием потоков. Это упростит разработку и вообще очень удобно с позиции отлавливания ошибок.
Снижение порога входа в аналитику данных
Аналитика данных может быть без кодинга. Современные платформы позволяют внедрить в единую инфраструктуру работы с данными платформы, которые в веб-интерфейсе позволяют настроить обработку данных любой сложности. При выборе платформы хорошо обратить внимание, чтобы была возможность выгрузки получившихся результатов в виде кода. Лучше на понятном дата аналитикам языке программирования типа Python. Таким образом не только бывшие потребители данных смогут выполнить функцию разработки, но и в последующем разработчики смогут улучшить, кастомизировать построенные процессы
Ключевые решения принимает человек, аналитика данных помогает, но не заменяет людей
На последок даже не тренд, а здравый смысл. Любой инструмент работы с данными - это инструмент в руках человека, специалиста, которому вы доверяете. Ни одна платформа не заменяет специалиста, она помогает ему быстрее и правильнее принимать решения исходя из имеющихся возможностей и рисков.