Обнаружение человека в естественной обстановке

Материал из Техническое зрение
Перейти к: навигация, поиск

Задача обнаружения человека на изображении является объектом исследований, проводимых в большом количестве научных и исследовательских групп по всему миру. Такой интерес к этой задаче обусловлен широким спектром возможных применений, включающих в себя системы безопасности и ограничения доступа, человеко-машинный интерфейс, системы обеспечения безопасности на дорогах, средства обеспечения телеконференций и видеокомпрессии, исследования характера движения людей в различных ситуациях (спорт, специальная подготовка) и т. д.

Методы решения задачи обнаружения человека можно условно разделить на несколько классов:

- 2D без использования предопределенной модели человеческого тела;

- 2D с использованием заданной модели человеческого тела;

- 3D c использованием информации от нескольких источников изображения (камер) для формирования пространственной модели сцены.

Естественно, что эта классификация очень условна и в конкретных реализациях процедур обнаружения человека могут использоваться методы, принадлежащие различным классам. Необходимо отметить, что рассматриваемые алгоритмы и методы отличаются от так называемых детекторов движения. Эти алгоритмы и методы должны реагировать исключительно на факт присутствия человека в наблюдаемом кадре (зоне контроля) или на проявление человеческой активности.

Содержание

Обнаружение человеческой фигуры без использования предопределенной модели.

Наиболее распространенный способ обнаружения человека на изображениях представляет собой анализ элементарных движений (локальных изменений в последовательности кадров) для выделения человеческой фигуры из фона.

Считается, что человеческая активность связана с выполнением большого числа периодических движений, и даже в состоянии покоя человек осуществляет спонтанные движения, что позволяет отличить человека (животное в общем случае) от фона. В литературе этот метод иногда называют методом "получения изображения человека без поиска элементов человеческого тела", при этом используется разбиение исходного изображения на множество квадратных непересекающихся областей и выделение области, занимаемой человеческой фигурой. В каждом элементе разбиения анализируются элементарные движения, и после соответствующей нормализации формируется вектор, описывающий движение в момент времени $t$. Для обнаружения движения используют изменчивость оптического потока (рис. 25), число изменившихся пикселов, изменение числа границ (локальных перепадов яркости).


7-5-25.jpg

Обнаружение периодической активности с использованием низкоуровневых признаков движения


Для систем, подобным вышеперечисленным, характерно использование специальных классификаторов для формирования области, занимаемой человеческой фигурой, на основании анализа векторов движения. В качестве классификаторов используются:

- системы вывода на базе дерева решений;

- системы, использующие метод ближайшего соседа;

- корреляционные системы и т. д.

Другим подходом к решению задачи обнаружения человека по информации, получаемой с 2D-изображения, является анализ статических кадров. При этом в качестве исходной информации для выделения областей возможного нахождения человеческой фигуры вместо элементарных движений используются такие производные характеристики изображения, как границы, текстуры, результаты свертки изображения с банками фильтров и т. д. Например, в качестве элементарных признаков используются коэффициенты вейвлет-преобразования, полученные при обработке отдельных участков изображения. В процессе обучения по выборке изображений выделяется небольшая часть коэффициентов (наиболее общая), характеризующих целевой объект (человеческую фигуру), с учетом допустимой изменчивости в размерах и позах. В качестве решающего устройства используется SVM-классификатор, обучаемый по массиву изображений реальных сцен. На этапе поиска изображения человека используется скользящее окно переменного размера. Над частью сцены, попавшей в окно, выполняются операции нормализации, свертки с вейвлет-функцией и классификации. При этом SVM-классификатор принимает решение о присутствие заданного объекта (человека) в текущем окне.

7-5-26.jpg

Обнаружение фигуры человека по изображениям спереди и сзади. Признаки - вертикальные, горизонтальные и диагональные вейвлет-коэффициенты. Слева - результаты обнаружения, полученные с использованием SVM-классификатора

7-5-27.jpg

Результат выделения главных компонент контуров человеческих фигур, представленных в виде $B$-сплайна. Показана вариация контуров фигур по собственным векторам


Еще одним направлением, задействованным при анализе статических кадров, являются алгоритмы, использующие статистический анализ для построения моделей границ или всей фигуры человека, достаточно достоверных для отделения их от фона. Для построения модели границ (формы) человеческой фигуры используются массивы изображений человеческих фигур с отмеченными на них характерными точками. Используя методы анализа главных компонент, получают компактное описание выбранной системы признаков, представленное системой векторов пониженной размерности, т. е. в исходном пространстве признаков формируется базис, в котором основная дисперсия направлена вдоль нескольких первых осей базиса. Представление модели человеческой фигуры в виде главных компонент кроме компактности обладает еще определенными обобщающими свойствами, позволяющими правильно классифицировать деформированные и искаженные фигуры. Пример построения обобщенной модели человеческой фигуры представлен на рис. 27.

При формировании обучающего множества для метода главных компонент вместо набора характерных точек также используются размытые бинарные образы, полученные в результате выделения силуэтов людей на изображениях сцен.

7-5-28.jpg

Использование метода анализа главных компонент по множеству изображений человеческих фигур ($30 \times 50$ пикселов), показаны собственные векторы ($0$ - среднее значение, $1$, $2$, и $25$)

7-5-29.jpg

Выделение человеческой фигуры с использованием пространственно-цветовой кластеризации


Для выделения человеческой фигуры на изображениях с заранее запомненным фоном или по последовательности кадров, снимаемых с фиксированной камеры, применяются алгоритмы, осуществляющие обработку изменения цвета пикселов изображения. Пикселы группируются в соответствии с некоторой системой кластеров, организованных в 5D-пространстве, представляющем объединение цветовых $\langle$R, G, B$\rangle$ и пространственных $\langle x, y\rangle $ координат.

Для групп кластеров на последовательных изображениях ищется наиболее достоверная пара, и с учетом пространственного объединения изменившихся пикселов, после пространственной фильтрации на основании модели движения выделяется область, соответствующая человеческой фигуре.


Обнаружение человеческой фигуры с использованием заданной модели человеческого тела.

Алгоритмы данного типа используют априорное знание о представлении изображения человеческой фигуры в 2D-проекции для сегментации изображения, выделения фигуры и отдельных частей тела. В связи с тем, что при произвольных движениях возникают проблемы, связанные с искажениями информации

7-5-30.jpg

2D-проволочная модель фигуры с ленточным покрытием

из-за взаимных перекрытий, изменений ракурса и частичным выходом за границы кадра, многие системы ограничивают допустимую изменчивость в пределах заранее сформулированной модели поведения человека в кадре. Предварительное выделение человеческой фигуры обычно осуществляется с помощью процедуры вычитания фона в условиях стационарной или медленно изменяющейся фоновой обстановки и фиксированного положения камеры. Модель человеческой фигуры обычно представляется в виде проволочной модели с ленточным (рис. 30) или дисковым покрытием.


Выделение силуэта начинается с выделения частей тела в последовательности - ноги, тело, голова, руки. Ноги и тело чаще всего являются наиболее стабильными элементами изображения и за редким исключением наименее подвижными (или имеют ограниченный тип движения), поэтому они наиболее удобны для первоначальной привязки модели тела.

Пример использования ленточной модели для сегментации и выделения человеческого тела приведен на рис. 31. Модель человеческого тела составлена из пяти U-образных лент, туловища, системы точек связи и центров масс, и ряда структурных ограничений таких, как определение опорных элементов. В дополнение к модели тела используется система описаний изображений специфических поз, например, вид человека на коленях, бегущий человек и т. д.


В то же время могут использоваться модели описывающие характер движения человека во временн ой развертке. На рис. 32 представлены характеристики движения в 3D-пространстве XYT, на основании которых выделяются и отслеживаются силуэты людей на стационарном фоне.



Левое изображение показывает различные срезы в трехмерном XYT-пространстве, содержащие характерные образы.

Система для обнаружения человека на изображении "Pfinder" обнаруживает и сопровождает силуэт, используя "капельную" модель тела. Каждая "капля" статистически описывается системой пространственных $\langle x, y\rangle$ и цветовых $\langle \textrm{Y}, \textrm{U}, \textrm{V}\rangle$ параметров, имеющих нормальное распределение, и соответствует какой-либо части человеческой фигуры (руки, голова, ноги, рубашка, штаны). Также создается статистическая модель сцены, в которой каждому пикселу присваивается определенная вероятность, исходя из предположения о нормальности распределения в пространстве цветов. Модель сцены используется для определения областей, в которых значения пикселов отличаются от ожидаемых.

7-5-31.jpg

Исходное изображение, ленточная аппроксимация и выделение частей тела

7-5-32.jpg

Один кадр из последовательности с изображением движущихся людей

7-5-33.jpg

Обнаружение и трассировка силуэта с помощью капельной модели человека системой "Pfinder"


Выделение и сегментация человеческого тела происходит в процессе построения капельной модели с использованием эвристического анализа для замещения элементов изображения "каплями", соответствующими отдельным частям тела (рис. 33).


Кроме 2D-моделей человеческого тела многие алгоритмы обнаружения человека и сегментации тела используют заранее сформированную 3D-модель. В отличие от аналогичных моделей, используемых в компьютерной графике, для обнаружения и сегментации человеческой фигуры используются более схематичные и упрощенные 3D-модели. В качестве моделей могут быть использованы проволочные или шарнирные модели, модели составленные из цилиндров различных длин и диаметров, или триангулированные модели поверхности тела.


Использование 3D-моделей позволяет более точно определить позу, соответствующую данной 2D-проекции. При выборе подходящей позы учитываются естественные ограничения, накладываемые человеческим телом на возможные положения частей тела. Для выбора подходящей позы используются поисковые алгоритмы, учитывающие допустимые движения при установлении связанности по последовательности кадров. В качестве условия окончания поиска принимается состояние модели, имеющее минимальное отличие соответствующей 2D-проекции от исходного изображения. Методы обнаружения человеческой фигуры имеют существенный недостаток, связанный с большими затратами вычислительных ресурсов на выбор положения, допустимой позы и согласования модели с исходным изображением.

Обнаружение человеческой фигуры на стереоизображениях.

Использование многокамерных и, в частности, бинокулярных стереосистем для обнаружения человеческой фигуры на сложной сцене позволяет получить дополнительную информацию о пространственном расположении объектов на сцене и повысить точность выделения человеческой фигуры по сравнению 2D-алгоритмами. Дополнительная информация о пространственной структуре сцены, во-первых, позволяет уменьшить зависимость от изменения освещенности сцены и упростить анализ изображений, связанный с учетом взаимного перекрытия объектов. Во-вторых, совместная обработка изображений, поступающих с нескольких камер, позволяет оценить реальное соотношение размеров обнаруженных объектов и, следовательно, обеспечить надежную классификацию. На рис. 35 изображена структурная схема системы стереозрения. Стереосистема формирует два изображения одного и того же объекта, полученные с различных точек наблюдения (камер). Оценивая разность между изображениями, полученными с левой и правой камер, можно построить карту разрывности, значения которой пропорциональны расстоянию соответствующих точек сцены от плоскости изображения. На рис. 36 показана карта разрывности, сформированная из стереоизображения. Для определения связанности объектов карта разрывности квантуется на несколько уровней, и элементы карты, принадлежащие одному уровню и имеющие пространственную близость, объединяются в один кластер (считается, что они принадлежат одному объекту). Сегментация объектов сцены, выполненная таким образом, не зависит от условий освещенности, текстуры поверхности, затенений и перекрытия объектов.


Усовершенствованием способа выделения объектов, основанного на стереозрении, является совместная обработка информации о движении и структуре сцены, позволяющая строить эффективные и надежные алгоритмы обнаружения подвижных объектов, в том числе и людей. В подобных системах использование информации о движении позволяет упростить процедуру удаления фона, которая при использовании только стереоинформации требует достаточно сложных вычислений.


Использование информации от системы бинокулярного зрения позволяет объединить обнаруженные на изображениях области движения в соответствии с их 3D-координатами. Кроме того, использование информации о характере движения позволяет различать однородные области изображения (имеющие одинаковые текстуры, цвет) по направлениям и скоростям движения. Пример работы системы обнаружения человеческих фигур по последовательности стереокадров приведен на рис. 37.



7-5-34.jpg

3D-модели человеческих фигур "ELLEN" и "DARIU"

7-5-35.jpg

Геометрия стереозрения и формирование изображения


7-5-36.jpg

Сегментация на основе карт разрывностей: $\textit{a}$ - изображение, полученное от левой камеры, $\textit{б}$ - карта разрывностей, $\textit{в}$ - результат сегментации, $\textit{г}$ - результат обнаружения объектов

7-5-37.jpg

Обнаружение движущихся людей в помещении. Слева - $2$ кадра из видеопоследовательности от одной камеры, в центре - результат вычитания фона, справа - результат процедуры обнаружения людей


Полезные ссылки

  1. ☝ К началу
  2. ☜ Видеонаблюдение и системы безопасности
Личные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты