Гиперпараметры алгоритмов

Гиперпарамерты являются параметрами алгоритма машинного обучения, которые устанавливаются до начала процесса обучения.

Параметры, общие для всех алгоритмов:

Описание поля

Имя поля

Размер пакета данных. Предпочтительное количество экземпляров данных для обработки в случае пакетного режима предсказания. Большее или меньшее количество экземпляров может быть предоставлено, но данное число даёт алгоритмам возможность задать предпочтительный размер пакета данных.

batchSize

Число десятичных знаков. Число десятичных знаков, которое будет использовано для отображения численных результатов в информации, возвращаемой функцией "Обучить".

numDecimalPlaces

Параметры, специфичные для алгоритма:

Линейная регрессия

Описание поля

Имя поля

Метод отбора признаков. Определяет метод, используемый для отбора признаков для линейной регрессии. Доступны следующие методы: без отбора признаков, отбор признаков с помощью метода M5 (прохождение по атрибутам, удаляя атрибут с наименьшим стандартизованным коэффициентом, до тех пор, пока не перестанет наблюдаться улучшение в оценке ошибки, задаваемой информационным критерием Акаике) и жадный метод отбора, основанный на информационной метрике Акаике.

attributeSelectionMethod

Исключать коллинеарные признаки. Определяет, исключать ли коллинеарные признаки.

eliminateCollinearAttributes

Minimal. Если включено, то средние значения и стандартные отклонения будут отброшены для сохранения памяти. Также, информация об обученном модуле, возвращаемая функцией "Обучить", будет сокращена.

minimal

Параметр регуляризации. Значение параметра регуляризации.

ridge

Отображать дополнительные статистические данные. Определяет, следует ли отображать дополнительные статистические данные (такие как стандартное отклонение коэффициентов и t-статистика) в информации об обученном модуле для регрессионного анализа.

outputAdditionalStats

Многослойный перцептрон

Описание поля

Имя поля

Максимальное количество итераций. Максимальное количество итераций, которые будут выполнены.

maxIts

Параметр регуляризации. Значение параметра регуляризации.

ridge

Использовать метод сопряженных градиентов. Использовать метод сопряжённых градиентов вместо BFGS - быстрее для задач с большим количеством параметров.

useConjugateGradientDescent

Многослойный перцептрон

Описание поля

Имя поля

Затухание. Эта настройка (decay) будет уменьшать скорость обучения: начальная скорость обучения будет поделена на номер эпохи для определения того, какой должна быть текущая скорость обучения. Это может помочь предотвратить расхождение нейронной сети от заданной выходной величины, а также улучшить качество работы нейросети в целом.

decay

Скрытые слои. Задает скрытые слои нейросети. Этот параметр должен состоять из списка целых чисел (одно число для каждого скрытого слоя), разделенных запятой. Если скрытых слоев нет, поместите сюда одно число 0. Также имеются несколько символов подстановки: 'a' = (признаки + классы)/2, 'i' = признаки, 'o' = классы, 't' = признаки + классы.

hiddenLayers

Скорость обучения. Определяет, насколько обновляются весовые коэффициенты.

learningRate

Моментный параметр. Моментный параметр, который применяется к коэффициентам во время обновления.

momentum

Фильтр из категориального типа в двоичный. Фильтр для преобразования массива данных. Может улучшить качество работы, если массив данных содержит категориальные данные.

nominalToBinaryFilter

Выполнить нормализацию признаков. Включает нормализацию признаков, что может улучшить качество работы нейросети. Категориальные признаки также будут нормализованы (после преобразования их фильтром из категориального типа в двоичный, если этот фильтр включен) так, чтобы значения категориальных признаков лежали в пределах от -1 до 1.

normalizeAttributes

Выполнить нормализацию значений зависимой переменной. Включает нормализацию зависимой переменной, если она является численной. Это может улучшить качество работы нейросети. Нормализация выполняется от -1 до 1. Выходной результат преобразуется обратно к оригинальному масштабу.

normalizeLabelValues

Перезапуск. Если нейронная сеть не сходится к ответу, данная настройка перезапустит процесс обучения с меньшей скоростью обучения. Если нейронная сеть расходится, а перезапуск не разрешен, то процесс обучения завершится неудачей, и будет выведено сообщение об ошибке.

reset

Случайное начальное число. Начальное число, используемое для инициализации генератора случайных чисел. Случайные числа используются для задания первоначальных весовых коэффициентов, а также для перемешивания обучающих данных.

seed

Время обучения. Количество эпох для обучения. Если контрольная выборка не ноль, то обучение может быть прекращено раньше.

trainingTime

Размер контрольной выборки. Процентная доля контрольной выборки. Обучение будет продолжаться до тех пор, пока не будет наблюдаться последовательного ухудшения ошибки на контрольной выборке, либо пока не будет достигнуто установленное время обучения. Если этот параметр установлен на ноль, контрольная выборка использоваться не будет. В этом случае нейросеть будет обучаться заданное количество эпох.

validationSetSize

Порог валидации. Используется для прекращения контрольного тестирования. Значение указывает сколько раз подряд ошибка на контрольной выборке может ухудшаться, пока обучение не будет прекращено.

validationThreshold

Наивный байесовский классификатор

Описание поля

Field Name

Использовать оценку ядра. Использовать оценку ядра для численных признаков вместо нормального распределения.

useKernelEstimator

Использовать управляемую дискретизацию. Использовать управляемую дискретизацию для конвертации численных признаков в категориальные.

useSupervisedDiscretization

Одноклассовый метод опорных векторов

Описание поля

Имя поля

Не осуществлять замену отсутствующих значений. Определяет, следует ли отключить автоматическую замену отсутствующих значений. Предупреждение: отключайте автозамену только в том случае, если данные не содержат отсутствующих значений.

doNotReplaceMissingValues

Ядро. Ядро, которое будет использовано.

svmKernel

Параметры ядра. Параметры выбранного ядра.

svmKernelParameters

Выполнить нормализацию. Определяет, следует ли выполнять нормализацию данных..

normalize

Ню. Значение параметра ню.

nu

Случайное начальное число. Начальное число, используемое для инициализации генератора случайных чисел.

seed

Сжатие. Определяет, следует ли использовать эвристику сжатия.

shrinking

Параметр допустимого отклонения. Параметр допустимого отклонения для критерия завершения.

toleranceParameter

Случайный лес

Описание поля

Имя поля

Процентное отношение размера подмножества данных. Процентное отношение размера подмножества данных к размеру обучающего набора данных.

bagSizePercent

Разрывать связи в случайном порядке. Разрывать связи в случайном порядке, когда несколько признаков выглядят одинаково значимыми.

breakTiesRandomly

Вычислять "out-of-bag" ошибку. Определяет, следует ли вычислять "out-of-bag" ошибку.

calcOutOfBag

Вычислять значимость признаков. Вычислять значимость признаков посредством уменьшения усредненного коэффициента Джини.

computeAttributeImportance

Максимальная глубина дерева. Максимальная глубина дерева (0, если не ограничена).

maxDepth

Число нитей выполнения. Число нитей выполнения для создания ансамбля.

numExecutionSlots

Количество признаков. Устанавливает количество случайно выбранных признаков (features). Если 0, используется int(log_2(num_predictors) + 1).

numFeatures

Количество итераций. Количество итераций, которые будут выполнены.

numIterations

Отображать статистические данные "out-of-bag". Определяет, следует ли отображать статистические данные по сложности, когда осуществляется оценка "out-of-bag".

outputOutOfBagComplexityStats

Отображать информацию о классификаторах. Определяет, следует ли отображать информацию об отдельных классификаторах в информации об обученном модуле

outputClassifiers

Случайное начальное число. Начальное число, используемое для инициализации генератора случайных чисел.

seed

Дерево решений с REP

Описание поля

Имя поля

Предварительная оценка. Предварительная оценка для зависимой переменной.

initialCount

Максимальная глубина дерева. Максимальная глубина дерева (-1, если не ограничена).

maxDepth

Минимальное количество экземпляров данных. Минимальный суммарный вес экземпляров данных в листе.

minNum

Минимальная доля от дисперсии. Минимальная доля от дисперсии по всем данным, которая должна присутствовать в узле для осуществления расщепления (только для задач регрессии).

minVarianceProp

Без отсечения ветвей. Определяет, следует ли осуществлять отсечение ветвей.

noPruning

Количество частей данных. Определяет количество данных, используемых для отсечения ветвей. Одна часть данных используется для отсечения ветвей, остальные для создания правил.

numFolds

Случайное начальное число. Начальное число для случайного перемешивания данных.

seed

Распределить предварительную оценку. Распределить предварительную оценку по всем значениям классов вместо того, чтобы использовать заданную предварительную оценку для одного класса.

spreadInitialCount

Метод опорных векторов (SVM)

Описание поля

Имя поля

C. Параметр сложности C.

c

Тип фильтра. Определяет способ преобразования данных.

filterType

Ядро. Ядро, которое будет использовано.

kernel

Параметры ядра. Параметры выбранного ядра.

kernelParameters

Эпсилон. Эпсилон для погрешности округления.

epsilon

Параметр допустимого отклонения. Параметр допустимого отклонения

toleranceParameter

Построить калибровочные модели. Определяет, следует ли подгонять калибровочные модели к результатам метода опорных векторов (для надлежащих оценок вероятности).

buildClibrationModels

Калибратор. Определяет, какой калибровочный метод использовать. Отображается только если установлен параметр buildClibrationModels.

calibrator

Параметры калибратора. Параметры калибратора. Отображается только если установлен параметр buildClibrationModels.

calibratorParameters

Количество частей данных.  Количество частей данных для перекрестной проверки, используемое для создания обучающего набора данных для калибровочной модели (-1 означает использование всего обучающего набора данных). Отображается только если установлен параметр buildClibrationModels.

calibNumFolds

Случайное начальное число. Случайное начальное число для перекрестной проверки, используемое для создания обучающего набора данных для калибровочной модели. Отображается только если установлен параметр buildClibrationModels.

calibRandomSeed

Регрессия опорных векторов (SVR)

Описание поля

Имя поля

C. Параметр сложности C.

c

Тип фильтра. Определяет способ преобразования данных.

filterType

Ядро. Ядро, которое будет использовано.

kernel

Параметры ядра. Параметры выбранного ядра.)

kernelParameters

Оптимизатор. Обучающий алгоритм.

regOptimizer

Параметры оптимизатора. Параметры оптимизатора

regOptimizerParameters

Наивный байесовский классификатор

Описание поля

Имя поля

Использовать оценку ядра. Использовать оценку ядра для численных признаков вместо нормального распределения.

useKernelEstimator

Использовать управляемую дискретизацию. Использовать управляемую дискретизацию для конвертации численных признаков в категориальные.

useSupervisedDiscretization

Стохастический градиентный спуск

Описание поля

Имя поля

Не осуществлять нормализацию. Определяет, следует ли отключить нормализацию.

doNotNormalize

Не осуществлять замену отсутствующих значений. Определяет, следует ли отключить глобальную замену отсутствующих значений.

doNotReplaceMissingValues

Количество эпох. Количество эпох для обучения (в пакетном режиме обучения). Общее количество итераций равно количеству эпох, умноженному на количество экземпляров данных.

epochs

Лямбда. Коэффициент регуляризации.

lambda

Скорость обучения. Определяет скорость обучения. Если нормализация выключена, то значение скорости обучения должно быть уменьшено (например, установлено на значение 0.0001).

learningRate

Функция потерь. Функция потерь, которая будет оптимизироваться.

lossFunction

Эпсилон. Параметр эпсилон для эпсилон-нечувствительной функции потерь и функции потерь Хьюбера. Ошибка с абсолютным значением меньшим, чем это пороговое значение (эпсилон), даёт ноль для эпсилон-нечувствительной функции потерь. Для функции потерь Хьюбера эпсилон - это граница между квадратичной и линейной частями функции потерь.

epsilon

Случайное начальное число. Начальное число, используемое для инициализации генератора случайных чисел.

seed

Алгоритм с предварительной фильтрацией

Описание поля

Имя поля

Алгоритм. Базовый алгоритм, который будет использоваться.

algorithm

Гиперпараметры базового алгоритма. Определяет параметры выбранного алгоритма.

baseAlgorithmParameters

Фильтр. Фильтр, который будет использоваться.

filter

Параметры фильтра. Определяет параметры выбранного фильтра.

filterParameters

Случайное начальное число. Начальное число, используемое для инициализации генератора случайных чисел.

seed

Дерево хёфдинга

Описание поля

Имя поля

Грейс-период. Количество экземпляров данных (или суммарный вес экземпляров данных), которые должны быть "увидены" листом между попытками расщепления.

gracePeriod

Порог Хёфдинга. Порог, ниже которого расщепление будет разрывать связи.

hoeffdingTieThreshold

Принцип предсказания. Определяет, какой принцип предсказания будет использован.

leafPredictionStrategy

Порог для предсказания наивным байесовским классификатором. Количество экземпляров данных (вес), которые должен "увидеть" лист до того, как (адаптивному) наивному байесовскому классификатору будет позволено делать предсказания.

naiveBayesPredictionThreshold

Отображать модели по листам. Определяет, следует ли отображать информацию о моделях по листам в информации об обученном модуле (применимо только к "наивным байесовским" листам).

outputLeafModels

Допустимая ошибка при расщеплении. Допустимая ошибка при принятии решения о расщеплении. Чем ближе это значение к нулю, тем больше времени занимает принятие решения.

splitConfidence

Критерий расщепления. Определяет, какой критерий расщепления будет использован.

splitCriterion

Минимальная доля веса по информационному выигрышу. Минимальная доля веса, требуемая по меньшей мере двум ветвям для расщепления по информационному выигрышу.

minimumFractionOfWeightInfoGain

Многоклассовый дообучаемый классификатор

Описание поля

Имя поля

Базовый алгоритм. Базовый алгоритм, который будет использоваться.

baseAlgorithm

Гиперпараметры базового алгоритма. Определяет параметры выбранного алгоритма.

baseAlgorithmParameters

Метод. Определяет метод, который будет использоваться для приведения мультиклассовой задачи к нескольким бинарным.

method

Декодирование логарифмической функции потерь. Определяет, применять ли декодирование логарифмической функции потерь для случайных и исчепывающих кодов.

logLossDecoding

Множитель ширины. Устанавливает множитель ширины при использовании случайных кодов. Количество кодов равно этому числу, умноженному на количество классов.

randomWidthFactor

Использовать попарное сопряжение. Определяет, следует ли использовать попарное сопряжение.

usePairwiseCoupling

Случайное начальное число. Начальное число, используемое для инициализации генератора случайных чисел.

seed

Параметры ядра

Параметры, общие для всех ядер:

Описание поля

Имя поля

Размер кэша. Размер кэша (простое число), 0 для полного кэша, -1 для того, чтобы отключить его.

kernelCacheSize

Параметры, специфичные для ядра:

Распределение пирсона типа VII

Описание поля

Имя поля

Омега. Значение омега.

kernelOmega

Сигма. Значение сигма.

kernelSigma

Полиномиальные и  нормализованные полиномиальные ядра

Описание поля

Имя поля

Показатель степени. Значение показателя степени.

kernelExponent

Использовать младший разряд. Определяет, использовать ли младший разряд.

kernelUseLowerOrder

Радиальная базисная функция

Описание поля

Имя поля

Гамма. Значение гамма.

kernelGamma

Параметры ядра, используемые алгоритмом одноклассового метода опорных векторов

Параметры, общие для всех ядер:

Описание поля

Имя поля

Размер кэша. Размер кэша в MБ.

kernelSvmCacheSize

Полиномиальное ядро

Описание поля

Имя поля

Коэффициент0. Независимый коэффициент функции ядра.

kernelSvmCoefficient0

Показатель степени. Значение показателя степени.

kernelSvmDegree

Гамма. Коэффициент гамма. Если 0, то используется значение 1/max_index.

kernelSvmGamma

Радиальная базисная функция

Описание поля

Имя поля

Gamma. Коэффициент гамма. Если 0, то используется значение 1/max_index.

kernelSvmGamma

Сигмоида

Описание поля

Имя поля

Коэффициент0. Независимый коэффициент функции ядра.

kernelSvmCoefficient0

Гамма. Коэффициент гамма.

kernelSvmGamma

Параметры оптимизатора

Параметры, общие для всех оптимизаторов:

Описание поля

Имя поля

Эпсилон. Эпсилон для погрешности округления.

epsilon

Параметр эпсилон. Параметр эпсилон для эпсилон-нечувствительной функции потерь.

epsilonParameter

Случайное начальное число. Начальное число, используемое для инициализации генератора случайных чисел.

seed

Параметры улучшенного regsmo

Описание поля

Имя поля

Допустимое отклонение. Параметр допустимого отклонения (tolerance parameter), используемый для проверки критерия остановки (b_up меньше, чем b_low + 2*tol).

tolerance

Использовать вариант 1. Определяет, использовать первый вариант из статьи, указанной ниже, либо второй вариант.

S.K. Shevade, S.S. Keerthi, C. Bhattacharyya, K.R.K. Murthy: Improvements to the SMO Algorithm for SVM Regression. In: IEEE Transactions on Neural Networks, 1999

useVariant1

Кластерные параметры

Параметры для кластерных алгоритмов.

Простые K-средние

Описание поля

Имя поля

Засевка случайных чисел. Начальное значение затравки для генератора случайных чисел, используемого в алгоритме.

seed

Количество кластеров. Количество кластеров, которые будут сгенерированы алгоритмом.

numClusters

Количество слотов выполнения. Количество параллельных исполнений, которые может выполнить алгоритм.

numExecutionSlots

Максимальное количество итераций. Максимальное количество итераций, которое может выполнить алгоритм.

maxIterations

Более быстрые расчеты расстояний. Флаг, указывающий, следует ли использовать более быстрые методы вычисления расстояний.

fasterDistanceCalc

Не заменять пропущенные значения. Флаг, указывающий, не следует ли заменять пропущенные значения в данных.

dontReplaceMissingValues

Отображать стандартные отклонения. Флаг, указывающий, следует ли отображать стандартные отклонения.

displayStdDevs

Расстояние до козырька T1. Метрика расстояния, используемая на первом этапе кластеризации пологов.

canopyT1

Расстояние пологов T2. Метрика расстояния, используемая на втором этапе кластеризации пологов.

canopyT2

Скорость периодической обрезки полога. Скорость обрезки пологого дерева в каждом периодическом цикле обрезки.

canopyPeriodicPruningRate

Минимальная плотность полога. Минимальная плотность дерева пологов.

canopyMinimumCanopyDensity

Максимальное количество навесов в памяти. Максимальное количество навесов, которое может храниться в памяти в данный момент времени.

canopyMaxNumCanopiesToHoldInMemory

Иерархическая кластеризация

Описание поля

Имя поля

Количество кластеров. Количество кластеров, которые будут сгенерированы алгоритмом.

numClusters

Расстояние - длина ветви. Флаг, указывающий, следует ли представлять расстояние между кластерами как длину соединяющей их ветви.

distanceIsBranchLength

Выводить иерархию в формате Ньюика. Флаг, указывающий, следует ли печатать иерархию в формате Ньюика.

printNewick

Кластеризация на основе плотности

Описание поля

Имя поля

Количество кластеров. Количество кластеров, которые будут сгенерированы алгоритмом.

numClusters

Минимальное стандартное отклонение. Минимальное стандартное отклонение кластеров, которые будут сгенерированы алгоритмом.

minStdDev

Фильтрованный предиктор

Описание поля

Имя поля

Базовый алгоритм. Базовый алгоритм, используемый для фильтрации данных.

baseAlgorithm

Гиперпараметры базового алгоритма. Гиперпараметры базового алгоритма.

baseAlgorithmHyperparameters

Фильтр. Тип фильтра, который будет применен к данным, замена отсутствующих значений или удаление отсутствующих значений.

filterType

Параметры фильтра. В случае, если для фильтра выбрана замена отсутствующих значений, выберите, игнорировать ли поле метки. Если True, поле метки будет временно отменено перед применением фильтра.

filterParameters

Засевка случайного числа. Начальное начальное значение для генератора случайных чисел, используемого в алгоритме.

randomNumberSeed