Добавлена новая функция: кластеризацияПодробнее →

Моделирование

Для обучения моделей машинного обучения и выполнения предсказаний вероятности на основе данных в платформе ANTAVIRA реализован модуль линейного моделирования, который включает в себя следующие алгоритмы машинного обучения:

  • Логистическая регрессия;
  • Линейная регрессия;
  • Дерево решений;
  • Лес решений.

В модуле линейного моделирования помимо выбора алгоритма машинного обучения Вам также предлагается настроить:

  1. Выполнение градиентного спуска при необходимости, включающее выбор типа спуска (подъем; спуск), правил отбора переменных (Логарифм правдоподобия; Ошибка 1,2 рода; Ошибка 1 рода; Ошибка 2 рода; AUC) и настройку количества итераций.
  2. Отбор переменных по IV/IG (В разработке) для того, чтобы платформа отбирала в моделирование только те переменные, значимость на целевую функцию которых превышает заданное Вами значение.
  3. Обучаемое значение (В разработке) (в случае если на этапе обработки значений переменных Вы выбрали способ, связанный с преобразованием признаков в категориальные: группировка, кластеризация, бинирование).

Логистическая Регрессия

При построении модели машинного обучения с использованием логистической регрессии Вам предлагается настроить следующие параметры:

  1. Максимальное количество переменных;
  2. Максимальное количество итераций;
  3. Значение регуляризации;
  4. Минимальный порог IV вхождения переменных в модель;
  5. Алгоритм оптимизации;
  6. Критерий остановки в поиске коэффициентов регрессии;
  7. Градиентный спуск.

Линейная Регрессия

При построении модели машинного обучения с использованием линейной регрессии Вам предлагается настроить следующие параметры:

  1. Максимальное количество переменных;
  2. Минимальный порог IV вхождения переменных в модель;
  3. Тип коэффициентов регрессии;
  4. Градиентный спуск.

Дерево Решений

При построении модели машинного обучения с использованием дерева решений Вам предлагается настроить следующие параметры:

  1. Максимальная глубина дерева;
  2. Функция для измерения качества разделения;
  3. Минимальный порог IV вхождения переменных в модель;
  4. Максимальное количество переменных;
  5. Минимальное количество выборок, необходимое для разделения внутреннего узла;
  6. Минимальное количество отчетов, которое должно находиться в листовом узле;
  7. Градиентный спуск.

Лес Решений

При построении модели машинного обучения с использованием леса решений Вам предлагается настроить следующие параметры:

  1. Количество деревьев в лесу;
  2. Максимальная глубина дерева;
  3. Минимальное количество отчетов, которое должно находиться в листовом узле;
  4. Функция для измерения качества разделения;
  5. Максимальное количество переменных;
  6. Минимальный порог IV вхождения переменных в модель;
  7. Градиентный спуск.

В этом разделе: