Аргументы функций обучаемого модуля
Типы полей, поддерживаемые функциями обучаемого модуля, включают: Integer, Long, Float, Double, Boolean, String, и Date.
Поле типа Integer, Long, Float, или Double, не имеющее допустимых значений, представляет собой числовой признак.
Для задач регрессии поле с зависимой переменной должно быть одного из четырех числовых типов. Заметим, что независимо от типа поля с зависимой переменной, предсказываемые значения будут типа Double.
Поле любого поддерживаемого типа (включая числовые), которое имеет допустимые значения, а также поле типа Boolean, представляет собой категориальный признак.
Для задач классификации колонка с зависимой переменной должна содержать категориальные данные. Лучший способ представления категориального признака или поля с зависимой переменной - использовать поле типа String с допустимыми значениями, которые содержат все возможные классы. Заметим, что назависимо от типа поля с зависимой переменной, предсказываемый класс будет типа String (с допустимыми значениями, которые включают все возможные классы).
Если задача определена как классификация, и поле с зависимой переменной не имеет допустимых значений, обучаемый модуль будет пытаться преобразовать значения в поле с зависимой переменной в категориальные, используя все уникальные значения как допустимые. Однако предполагается, что тестовая выборка не будет содержать значений, которых не было в обучающей выборке (т.е. тестовая выборка не должна содержать класс, которого не было в обучающей выборке).
Поле типа Date представляет собой признак соответствующего типа (Date).
Значения Null обрабатываются как отсутствующие. Кроме того, при невозможности предсказания для определенного экземпляра данных, функция Operate вернет Null в качестве предсказания.
Формат таблицы данных, переданной функции Train, сохраняется как ссылка для валидации формата. Таким образом, таблица данных, переданная функции Operate или Evaluate, должна иметь абсолютно такой же формат, как и таблица данных, используемая для обучения (включая допустимые значения, возможность содержать значения Null и пр.). Несоответствие форматов приведет к ошибке. |
Таблицы данных, переданные функциям Train, Evaluate или Cross Validate, должны содержать как минимум один экземпляр. Количество экземпляров также не может быть меньше, чем количество частей данных для перекрестной проверки.