Проблема переобучения модели и метод регуляризации

Материал из Техническое зрение
Перейти к: навигация, поиск

Другой способ интерпретации обсуждаемого вида критерия связан с распространенным в области распознавания образов понятием переобучения и методами регуляризации некорректных задач.

Рассмотрим простейшую задачу "наилучшего" приближения экспериментальной функции одной переменной, про которую известны только ее значения $y_{i}$ в $N$ "обучающих точках" $x_{i}$, cтепенной функцией порядка $n$ (рис. 3). Стандартный метод наименьших квадратов состоит в решении минимизационной задачи

$$ \sum \limits_{i=1}^{N} {e(f(x_{i}),y_{i})}= \sum \limits_{i=1}^{N} (a_{0}+a_{1}x_{i}+ a_{2}x_{i}^2+{\ldots}+a_{n}x_{i}^{n}-y_{i})^{2} \rightarrow \min \limits_{a} $$

где через $e(z,y)=(z-y)^{2}$ обозначена квадратичная функция ошибки, $\textbf{a}=\langle a_{0}, a_{1},{\ldots}, a_{n} \rangle$. Решение этой задачи известно для любого фиксированного $n<N$. Но как следует выбирать $n$ (то есть сложность модели аппроксимации)? Оказывается, даже самым точным образом приближая функцию на обучающих точках экспериментальной кривой (в пределе ошибка может вообще стать равной нулю, как на рис. 3$\textit{б}$), мы в итоге получим (методом наименьших квадратов) такое решение, которое будет достаточно плохо аппроксимировать вновь поступающие данные, не входившие в обучающую выборку. Дело в том, что решение с минимальной ошибкой оказывается неоправданно сложным - аппроксимирующая функция старательно отрабатывает все случайные флуктуации измерений и не в состоянии отследить основную форму тренда. Такая ситуация называется $\textit{переобучением}$.

6-3-3.jpg

Иллюстрация понятия переобучения: $\textit{а}$ - исходное множество экспериментальных измерений; $\textit{б}$ - максимально точный аппроксиматор сильно ошибается на новых измерениях

6-3-4.jpg

Иллюстрация метода регуляризации: $\textit{в}$ - регуляризованный аппроксиматор меньше ошибается на новых измерениях; $\textit{г}$ - слишком сильно регуляризованный аппроксиматор

Перейдем теперь к регуляризации рассматриваемой задачи. Известно, что статистически лучшее приближение можно получить, решая подобную минимизационную задачу с добавленным штрафом за сложность аппроксимирующей функции, например, с квадратичным штрафом $E(\textbf{a})$ пропорциональным $\vert \vert $ $\textbf{a}$ $\vert \vert ^{2}$:

$$ E(\textbf{a}) + \sum_{i=1}^N e(f(X_i), y_i) = \alpha \vert\vert \textbf{a} \vert\vert^2 + \sum_{i=1}^N (a_0 + a_1 x_i + a_2 x_i^2 + \ldots + a_n x_i^n - y_i)^2 \rightarrow \min\limits_{\textbf{a}} . $$

Этот метод называется регуляризацией и позволяет получать устойчивые решения не только для задач аппроксимации данных, но и для задач распознавания образов. Как видно из рис. 4, различный выбор параметра $\alpha $ позволяет здесь управлять сложностью описания данных и соответственно - устойчивостью и точностью получаемого решения.

Следует отметить, что проблема переобучения находится также в центре внимания теории распознавания образов (теории машинного обучения). Здесь $\textit{переобученными классификаторами}$ называются такие распознающие алгоритмы, которые обеспечивают малую ошибку на обучающем наборе, но часто ошибаются на независимых тестовых данных. В ходе решения проблемы переобучения в конце $1960$-х - начале $1970$-х годов советскими математиками В.Н. Вапником и А.Я. Червоненкисом были заложены основы теории восстановления зависимостей по эмпирическим данным, которая сегодня чаще называется $\textit{теорей вычислительного обучения}$ (computational learning theory, COLT). В $1980$-е годы эта теория получила широкую мировую известность, и в настоящее время продолжает активно развиваться, в том числе и в России.

В рамках данной теории множество всех объектов считается вероятностным пространством с некоторой, вообще говоря, неизвестной вероятностной мерой. Обучающие объекты выбираются случайно и независимо согласно этой мере. Фиксируется некоторое $\textit{семейство алгоритмов}$. Процесс обучения заключается в построении алгоритма, принадлежащего данному семейству и доставляющего минимум $\textit{эмпирическому риску}$ на заданной $\textit{обучающей выборке}$. Обобщающая способность алгоритма характеризуется вероятностью ошибочной классификации. В общем случае неизвестно, какой именно алгоритм будет построен в результате обучения. Поэтому водится требование $\textit{равномерной сходимости}$ частоты к вероятности: частота ошибок должна не сильно отклоняться от их вероятности одновременно для всех алгоритмов семейства. Стремление этого отклонения к нулю с ростом длины выборки принимается за определение $\textit{обучаемости семейства алгоритмов}$.

Главным результатом теории Вапника--Червоненкиса являются количественные оценки, связывающие $\textit{обобщающую способность}$ алгоритмов с $\textit{объемом обучающей выборки}$ и $\textit{сложностью }$семейства алгоритмов. Эти оценки дают достаточные условия обучаемости. При этом сложность семейства алгоритмов (сложность классификатора) оценивается так называемой $\textit{размерностью Вапника - Червоненкиса}$ (VC-размерностью). Пусть $J$ - семейство функций из $R^{n}$ в $R$, описывающее модель регрессии вида $\textbf{y}=f(\textbf{x},\textbf{a})$. Размерность Вапника--Червоненкиса (VC) семейства $J$ есть такое целое число $h$, что существует группа из $h$ точек в $R^{n}$, которая может быть разделена функцией из данного семейства, и не существует группы из ($h+1$) векторов, которыми можно их разделить.

Созданный Вапником и Червоненкисом метод $\textit{структурной минимизации риска}$ является одним из основных источников описываемого ниже критериального морфологического подхода.


Полезные ссылки

  1. ☝ К началу
  2. ☜ Критерии, используемые в морфологическом анализе изображений
Личные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты