Сопоставление с использованием пирамиды изображений

Материал из Техническое зрение
Перейти к: навигация, поиск

Изображение сцены может быть представлено в различных пространственных масштабах. При этом крупные детали сцены лучше видны на изображениях с мелким (грубым) разрешением. Мелкие детали сцены проявляются только на изображениях с высоким разрешением. Изображение, представленное в нескольких масштабах, в дальнейшем называется $\textit{пирамидой}$. Принцип построения пирамиды изображений показан на рис. 3.

Использование пирамидальной структуры данных при сопоставлении изображений имеет две основные цели:

  1. сокращение времени обработки изображений;
  2. определение более точных начальных приближений для обработки нижних уровней по результатам обработки верхних уровней.

Пирамида изображений представляет собой последовательность $N$ изображений, причем каждое последующее изображение получается из предыдущего путем фильтрации и прореживания в два раза по схеме:

Исходное изображение $f_{N-1}(x,y)$

$\downarrow$

Высокочастотная фильтрация с ядром $h(u,v)$

$g(x,y)=\int\int f_{N-1}(x-u,y-v)h(u,v)dudv$

$\downarrow$

Уменьшение размеров в 2 раза

$f_{N}(x,y)=g(2x,2y).$

Фильтрация изображений необходима для подавления высокочастотных шумов. В качестве ядра $h(u,v)$ используется функция Гаусса. По этой причине пирамида называется гауссовской. Согласно теореме Котельникова сжатие в гауссовской пирамиде происходит с минимальной потерей информации.

Изображение $f_{N}(x,y)$ представляет собой уменьшенную копию исходного изображения $f_{1}(x,y)$. Размер пиксела изображения уровня $N$ равен

$$ p_{N} = 2^{N-1}. $$

Для координат пикселов изображений двух произвольных уровней пирамиды с номерами $n$ и $m$ справедливы соотношения

$$ 2^{n-1}x_{n} = 2^{m-1}x_{m} , \quad 2^{n-1}y_{n} = 2^{m-1}y_{m}. $$

На рис. 4 показан пример пирамиды из четырех уровней для левого изображения тестовой стереопары.

4-2-4.jpg

Пирамида из четырех уровней для тестового изображения

Рассмотрим, как изменяется область поиска $R$ при использовании пирамиды изображений. На $N$-м уровне площадь области поиска сокращается в $(2^{N-1})^{2}$ раз: $$ \begin{gather}\tag{1} R_N =\left\{ {\langle x,y\rangle:\frac{x_{\min } }{2^{N-1}}\le x\le \frac{x_{\max } }{2^{N-1}}, \frac{y_{\min } }{2^{N-1}}\le y\le \frac{y_{\max } }{2^{N-1}}} \right\} \end{gather} $$ Пусть на $n$-м уровне найдено стереосоответствие в точке $\langle x^*, y^*\rangle_{N}\in R_{N}$.

Эту точку можно рассматривать в качестве центра области поиска на $(N-1)$-м уровне: $$ \begin{gather}\tag{2} R_{N-1} = \left\{ {\langle x,y\rangle : 2x^\ast -\Delta_x \le x\le 2x^\ast +\Delta_x , 2y^\ast -\Delta_y \le y\le 2y^\ast +\Delta_y } \right\}, \end{gather} $$ где $\Delta_{x}$, $\Delta_{y}$ - константы, характеризующие размер области поиска, например, $\Delta_{x}=2$, $\Delta_{y}=1$.

Время работы алгоритма стереоотождествления пропорционально количеству пикселов в области поиска. Без применения пирамиды изображений время работы равно $$ T_{1} = \alpha S(R ) = \alpha (x_{\max }-x_{\min}+1)(y_{\max}-y_{\min}+1). $$ При использовании пирамиды изображений время работы алгоритма равно $$ T_2 =\alpha \sum\limits_{i=1}^N {S(R_i )} =\alpha \frac{(x_{\max } -x_{\min } +1)(y_{\max } -y_{\min } +1)}{(2^{N-1})^2}+\alpha (N-1)(2\Delta_x +1)(2\Delta_y +1). $$ Отсюда видно, что чем больше область поиска и чем больше уровней содержится в пирамиде, тем быстрее работает алгоритм стереоотождествления. При следующих значениях констант: $x_{\max}-x_{\min}+1 = 100$, $y_{\max}-y_{\min}+1=5$, $N=4$, $\Delta_{x}=2$, $\Delta_{y}=1$ применение пирамиды стереопар дает выигрыш во времени $$ T_{1} / T_{2 } \approx 5. $$

Для каждого эталона, выбранного на левом изображении, на всех уровнях пирамиды решается задача стереоотождествления

$$ \langle x_r^\ast ,y_r^\ast \rangle_i =\mathop {\arg \max }\limits_{x_r, y_r \in R_i } K(x_r, y_r), \quad i = N ,\ldots, 1 $$

Область $R_{N}$ определяется выражением (6), области $R_{i}$ ($i=N-1,\ldots ,1$) - выражением (7) с использованием начального приближения $\langle x_{r}^{\ast }$, $y_{r}^{\ast }\rangle_{i}$. На самом нижнем уровне (который представляют собой исходные изображения) получаются значения $\langle x_{r}^{\ast }$, $y_{r}^{\ast }\rangle_{1}$, которые определяют положение образа, соответствующего эталону.

Задача стереоотождествления решается путем последовательного перебора значений параметров сдвига из допустимого диапазона. На верхнем уровне (т.е. на изображении с самым низким разрешением) для ограничения области поиска используется эпиполярная геометрия и априорное оценивание диапазона высот рельефа. На более детальных уровнях используется начальное приближение, полученное с предыдущих уровней.

На рис. 5 показан процесс построения ЦМР по пирамиде. Для каждого уровня пирамиды показана ЦМР, полученная к данному моменту. Наглядно видна постепенная детализация ЦМР, связанная с постепенным уменьшением размера пиксела, и как следствие этого с уточнением диспаратностей.

4-2-5.jpg

Вычисление ЦМР с помощью иерархического корреляционного стереотождествления по четырехуровневой пирамиде изображений с использованием: $\textit{а}$ - только 4-го уровня пирамиды; $\textit{б}$ - 4 и 3-го уровней; $\textit{в}$ - 4, 3, 2 уровней; $\textit{г}$ - 4, 3, 2, 1 уровней

На рис. 7 показана ЦМР в виде поверхности, вычисленная по пирамиде стереопар. Видно, что применение пирамиды позволяет избежать основных недостатков обычного корреляционного стереоотождествления (рис. 6).

4-2-6.jpg

Пример ЦМР, получаемой классическим корреляционным методом

4-2-7.jpg

ЦМР, вычисленная с помощью пирамиды изображений

Полезные ссылки

  1. ☝ К началу
  2. ☜ Сравнение и привязка изображений. Стереоотождествление
Личные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты