Алгоритмы

Количество алгоритмов, поддерживаемых модулем машинного обучения SberMobile, постоянно увеличивается. Текущий набор алгоритмов представлен ниже.

Алгоритмы для задач регрессии:

Алгоритм

Описание

Линейная регрессия

Множественная линейная регрессия с L2-регуляризацией, отбором признаков и возможностью исключать коллинеарные признаки. Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Регрессия опорных векторов (SVR)

Реализация метода опорных векторов (SVM) для регрессии. Поддерживает несколько известных ядер. Входные значения могут быть нормализованы и стандартизированы по необходимости. Поддерживает числовые и категориальные признаки. Поддерживает экземпляры набора данных с весами.

Дерево Решений с REP

«Быстрое дерево решений» с отсечением ветвей по приведенной погрешности (Reduced Error Pruning). Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Случайный лес

Лес случайных деревьев. Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Многослойный перцептрон

Реализация нейронной сети прямого распространения, которая обучается с использованием обратного распространения ошибки. Функция активации узлов во всех скрытых слоях является сигмоидой. Узлы в выходном слое являются невыпрямляющими линейными элементами. Входные значения могут быть нормализованы по необходимости. Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Стохастический градиентный спуск

Применяет стохастический градиентный спуск для обучения различных линейных моделей (бинарная классификация методом опорных векторов, бинарная логическая регрессия, квадратичная функция потерь, функция потерь Хьюбера и линейная регрессия эпсилон-нечувствительной функции потерь). Замещает все отсутствующие значения и преобразует категориальные признаки в бинарные. Алгоритм также нормализует все признаки таким образом, что коэффициенты на выходе основаны на нормализованных данных. Является дообучаемым.

Алгоритмы для задач классификации:

Алгоритм

Описание

Логистическая регрессия

Многоклассовая логистическая регрессия с гребневой (ridge) регуляризацией. Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Метод опорных векторов (SVM)

Реализация алгоритма последовательной минимальной оптимизации для метода опорных векторов. Значения признаков могут быть нормализованы или стандартизированы по необходимости. Многоклассовые задачи решаются с использованием попарной классификации. Поддерживает числовые и категориальные признаки. Поддерживает экземпляры набора данных с весами.

Дерево Решений с REP

«Быстрое дерево решений» с отсечением ветвей по приведенной погрешности (Reduced Error Pruning). Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Случайный лес

Лес случайных деревьев. Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Многослойный перцептрон

Реализация нейронной сети прямого распространения. Функцией активации всех узлов является сигмоида. Входные признаки могут быть нормализованы по необходимости. Поддерживает числовые, категориальные признаки и признаки даты. Поддерживает экземпляры набора данных с весами.

Наивный байесовский классификатор

Наивный байесовский классификатор с использованием классов оценки. Поддерживает числовые икатегориальные признаки. Поддерживает экземпляры набора данных с весами.

Стохастический градиентный спуск

Применяет стохастический градиентный спуск для обучения различным линейным моделям (бинарная классификация методом опорных векторов, бинарная логическая регрессия, квадратичная функция потерь, функция потерь Хьюбера и линейная регрессия эпсилон-нечувствительной функции потерь). Замещает все отсутствующие значения и преобразует категориальные признаки в бинарные. Алгоритм также нормализует все признаки таким образом, что коэффициенты на выходе основаны на нормализованных данных. Является дообучаемым.

Дерево Хёфдинга

Дерево Хёфдинга (VFDT) является инкрементным индукционным алгоритмом обучения дерева решений, способным обучаться на массивных потоках данных при условии, что распределение, по которому распределены образцы данных, остается неизменным во времени. Деревья Хёфдинга используют тот факт, что часто бывает достаточно малой выборки для выбора оптимального признака расщепления. Является дообучаемым.

Многоклассовый дообучаемый классификатор

Метаклассификатор для обработки многоклассовых наборов данных при помощи двухклассового классификатора. Этот классификатор также способен применять выходные коды с исправлением ошибок для большей точности. Базовый классификатор должен быть дообучаемым. Является дообучаемым.

Алгоритмы для задач обнаружения аномалий:

Алгоритм

Описание

Одноклассовый метод опорных векторов

Реализация одноклассового метода опорных векторов для обнаружения аномалий. Поддерживает числовые, категориальные признаки и признаки даты.

Метаалгоритмы:

Алгоритм

Описание

Алгоритм с предварительной фильтрацией

Реализация выбираемого классификатора на данных, которые прошли через выбираемый фильтр. Поддерживает экземпляры набора данных с весами. Является дообучаемым в случае, если базовый алгоритм является дообучаемым.

Многоклассовый дообучаемый классификатор

Метаклассификатор для обработки многоклассовых наборов данных при помощи двухклассового классификатора. Этот классификатор также способен применять выходные коды с исправлением ошибок для большей точности. Базовый классификатор должен быть дообучаемым. Является дообучаемым.

Дообучаемые алгоритмы:

Алгоритм

Описание

Алгоритм с предварительной фильтрацией

Реализация выбираемого классификатора на данных, которые прошли через выбираемый фильтр. Поддерживает экземпляры набора данных с весами. Является дообучаемым в случае, если базовый алгоритм является дообучаемым.

Дерево Хёфдинга

Дерево Хёфдинга (VFDT) является инкрементным индукционным алгоритмом обучения дерева решений, способным обучаться на массивных потоках данных при условии, что распределение, по которому распределены образцы данных, остается неизменным во времени. Деревья Хёфдинга используют тот факт, что часто бывает достаточно малой выборки для выбора оптимального признака расщепления. Является дообучаемым.

Многоклассовый дообучаемый классификатор

Метаклассификатор для обработки многоклассовых наборов данных при помощи двухклассового классификатора. Этот классификатор также способен применять выходные коды с исправлением ошибок для большей точности. Базовый классификатор должен быть дообучаемым. Является дообучаемым

Стохастический градиентный спуск

Применяет стохастический градиентный спуск для обучения различным линейным моделям (бинарная классификация методом опорных векторов, бинарная логическая регрессия, квадратичная функция потерь, функция потерь Хьюбера и линейная регрессия эпсилон-нечувствительной функции потерь). Замещает все отсутствующие значения и преобразует категориальные признаки в бинарные. Алгоритм также нормализует все признаки таким образом, что коэффициенты на выходе основаны на нормализованных данных. Является дообучаемым.

Каждый алгоритм имеет свой набор гиперпараметров. Для более подробной информации см. Гиперпараметры алгоритмов.