Рабочая область «Шаблоны»: удобство и экономия времениПодробнее →

Взгляд на историю развития AutoML подхода

Прогнозное моделирование — это процесс создания математической модели, которая используется для прогнозирования или предсказания вероятности наступления будущих событий или значений на основе имеющихся данных и известных взаимосвязей. Оно используется в различных областях, включая бизнес, финансы, маркетинг, экономику, науку и другие.

Прогнозное моделирование требует обработки и анализа данных, выбора и настройки подходящих алгоритмов и методов машинного обучения, обучения модели на исторических данных и оценки ее качества на новых данных. Цель состоит в том, чтобы создать модель, которая будет давать точные и надежные прогнозы на основе имеющихся данных.

Прогнозные модели могут применяться для различных задач, таких как прогнозирование продаж, спроса на товары, финансовых показателей, цен на рынке, клиентского поведения и других. Они могут быть использованы для принятия решений, планирования, оптимизации бизнес-процессов и предоставления стратегических рекомендаций.

Процесс прогнозного моделирования претерпел значительное изменение со временем, в основном благодаря цифровой революции. Одним из ключевых факторов, возможным благодаря цифровой революции, является возможность обрабатывать и хранить большие объемы данных. С появлением мощных вычислительных систем и технологий хранения данных стало возможным работать с огромными наборами информации, которые ранее были недоступны или труднообрабатываемыми.

В связи с ограничениями технологий и доступности обработки данных, ранее, для каждого шага в процессе моделирования требовались разные программы и инструменты, которые выполняли специфические функции. Вот некоторые из них:

  1. Программы для подготовки выборки: В начале процесса моделирования требовалось провести предварительную обработку данных, включающую удаление выбросов, заполнение пропущенных значений, масштабирование и преобразование переменных. Для этих целей использовались и используются до сих пор различные программы, такие как Microsoft Excel, Python с библиотеками Pandas и NumPy, или специализированные инструменты для предобработки данных.
  2. Программы для выбора и инженерии признаков: Создание новых признаков или выбор наиболее значимых признаков из исходных данных также требовали использования специализированных программ. Это могли быть инструменты машинного обучения, такие как scikit-learn или TensorFlow, или специализированные инструменты для инженерии признаков, например, Featuretools или tsfresh, но чаще признаки создавались вручную по формулам или программным кодом. Генерация признаков представляет собой ключевой аспект в области машинного обучения, привлекающий особое внимание аналитиков данных. Большое количество научных публикаций посвящено этой теме, свидетельствуя о ее важности и актуальности. Задача разработки программных решений для генерации признаков является популярным объектом исследований, так как она имеет значительное влияние на качество и результативность процесса машинного обучения.
  3. Программы по работе с переменными: Для преобразования значений переменных и уменьшения дисперсии, а также для измерения корреляции между переменными, использовались различные программы и инструменты статистического анализа данных, такие как SPSS, SAS.Эти программы предоставляли функциональность для преобразования переменных, таких как стандартизация, нормализация, бинирование и другие методы, которые помогали уменьшить дисперсию, сгладить выбросы и подготовить данные для более удобного анализа. Они также предлагали различные методы для измерения межпеременной корреляции, включая корреляцию Пирсона, корреляцию Спирмена и другие.
  4. Программы для построения моделей: Для создания прогнозных моделей использовались различные алгоритмы машинного обучения, такие как логистическая регрессия, случайный лес, градиентный бустинг и другие. Раньше пользователи часто использовали специализированные программы SPSS Statistic, Loginom, MathCad или библиотеки, такие как scikit-learn, XGBoost, TensorFlow или R для обучения и настройки моделей. В эти программы подавались файлы, полученные с предыдущих этапов.
  5. Программы для оценки и сравнения моделей: После обучения моделей требовалось оценить их качество и сравнить результаты. Для этого использовались метрики оценки моделей, такие как средняя квадратическая ошибка (Mean Squared Error), коэффициент детерминации (R-squared), точность и полнота (Precision и Recall) и другие. Раньше пользователи обычно программировали вычисление этих метрик или использовали специализированные программы для анализа моделей и сравнения результатов.

Таким образом, пользователю приходилось работать с несколькими программами и передавать данные между ними. Это означало, что процесс моделирования был достаточно разрозненным, сложным и трудоемким процессом, который требовал дополнительных усилий для настройки окружения и обмена данными между программами, а также специализированных знаний по программированию и умений в различных программных средах. Кроме того, следует отметить, что эти процессы требовали значительных вычислительных ресурсов, забирали всю доступную мощность и не оставляли возможности для параллельного выполнения других задач.

Однако с развитием автоматизированного машинного обучения (AutoML) произошли значительные изменения. Современные платформы и инструменты AutoML интегрируют различные шаги процесса моделирования в единую систему.

Они предлагают удобные пользовательские интерфейсы и интуитивно понятные рабочие процессы, позволяющие пользователям выполнять все необходимые шаги моделирования без необходимости использования отдельных программ для каждого этапа.

Так, например, производители программного обеспечения, которые предлагали десктопные статистические пакеты, начинают внедрять модуль AutoML в свои системы аналитики (Alteryx, KNIME и др.); большие серверные провайдеры предлагают использовать их вычислительные мощности и облачный хостинг для ML-разработки (Amazon, Yandex, Google и др.); а также появились решения, предлагающие AutoML в облаке (Vertex AI, ANTAVIRA и др.). У каждого производителя свой взгляд и свое определение AutoML.

Сейчас пользователи могут проводить работу по построению прогнозных моделей в облаке, используя одну платформу или инструмент AutoML в соответствии с собственным видением процессов прогнозного моделирования и финансовыми возможностями.

Это позволяет сократить время и усилия, которые раньше требовались для настройки и передачи данных между разными программами, а также не задействовать собственные вычислительные мощности.

Благодаря интеграции всех этапов моделирования в одном инструменте пользователи могут более эффективно работать, экспериментировать с различными настройками и получать результаты прогнозного моделирования более удобным и интегрированным способом.

Одной из таких разработок является платформа ANTAVIRA, созданная командой аналитиков данных и программистов, которые занимались прогнозным моделированием с использованием всего вышеперечисленного инструментария.

В рамках данной платформы разработан свой собственный подход к процессу автоматизации машинного обучения, который, по мнению разработчиков, содержит необходимый функционал, позволяющий автоматизировать рутинные задачи и уменьшить количество ручной работы, а также повысить качество построения моделей. AutoML в платформе ANTAVIRA достигается за счет объединения в единую цепочку всех этапов моделирования для множества искомых переменных и их настройку при помощи «одного окна». При этом созданная технология предоставляет возможность запускать одновременно неограниченное количество расчетов с одними или разными настройками на желаемое количество искомых переменных, не предъявляя требования по ограничению объема выборки. Кроме того, разработчики сделали упор на экономическую составляющую, что позволяет уменьшить собственные затраты.