Методы представления и экранизации трехмерных данных с помощью изображений: часть 2

Авторы: 
Алексей Игнатенко

Критерии сравнения алгоритмов представления и экранизации по изображениям

Прежде чем рассмотреть различные методы экранизации и представления на основе изображений, необходимо ввести критерии их анализа и сравнения.

Мы будем использовать следующий набор критериев:

  • Способы получения модели. Например, использование аппаратных сканеров, специальной аппаратуры.
  • Объем и возможность сжатия.
  • Класс представляемых объектов. Различные методы могут хорошо работать на ограниченных объектах, другие - на сценах типа комнат (закрытых) или уличных сценах (открытых). Также некоторые методы рассчитаны на описание отражающих и пропускающих свойств сложных материалов (бликующих и т.п.), другие же ограничивают класс представимых объектов диффузными материалами.
  • Аппаратная поддержка экранизации. Если представление использует специальные алгоритмы экранизации, то важной характеристикой является возможность использования современных графических ускорителей для интерактивной экранизации.
  • Качество экранизации / представления. Некоторые методы ориентированы на высококачественную экранизации, другие, наоборот, жертвуют качеством экранизации в угоду высокой степени сжатия.
  • Поддержка многомасштабности. Возможна ли многомасштабная экранизация для данного метода?
  • Возможность редактирования. Поддерживает ли данное представление возможности ручного изменения форм объектов или их отражающих свойств?
  • Области использования. Области науки и/или промышленности, где данное представление может применяться.

Основные классы методов представления и экранизации

Мы будем классифицировать методы моделирования и экранизации по изображениям по трем категориям [1]: экранизация без геометрии, экранизация с неявным использованием геометрии и экранизация с явно заданной геометрией. Эти категории, показанные на рисунке 1, должны рассматриваться скорее как непрерывный спектр, чем дискретный набор методов.

На правом спектра находится традиционная экранизация с поддержкой текстурированной геометрии. Действительно, текстурирование относится к методам экранизации на основе изображений. Этот подход базируется на точной геометрии и небольшом количестве изображений, используемых для создания текстур [2].

Рисунок 1. Спектр методов экранизации по изображениям

Далее по спектру располагаются методы, использующие геометрию в дискретном представлении: карты глубины (карты дальности)[3, 4, 5], многослойные карты глубины [5], деревья многослойных карт глубины [6]. Такие методы используют принцип репроекции для синтеза новых изображений. Трехмерные координаты каждой точки исходного изображения восстанавливаются по известной глубине (дальности) и затем проецируются на новую видовую плоскость.

Методы следующей категории не требуют явных геометрических моделей. Вместо этого обычно требуется соответствие особенностей (например, точек или линий) на изображениях исходного набора. Для генерации таких соответствий используются технологии компьютерного зрения.

На краю спектра располагаются методы, использующие изображения без соответствующей геометрии. Методы, использующие световые поля, строят новые виды с помощью фильтрации и интерполяции плотного набора исходных изображений. Такие методы имеют тенденцию к передискретизации данных для борьбы с алиасингом (aliasing - ступенчатость) в выходных изображениях. Это также ведет к усложнению процесса получения фотографий, дублированию данных и повышенным требованиям к объему памяти.

Можно видеть, что по мере уменьшения количества и точности геометрии увеличиваются требования к количеству изображений, необходимых для качественного синтеза. Сколько изображений достаточно для получения корректного изображения для заданной области перемещения наблюдателя? Существует ли оптимальный баланс между наличием и точностью геометрии и количеством исходных изображений? Этот вопрос чрезвычайно важен, т.к. геометрию обычно трудно или невозможно получить из исходных данных, а чрезмерно большое количество фотографий, необходимое для работы метода, затрудняет получение и хранение данных.

Анализировать методы экранизации на основе изображений удобно с помощью понятия пленоптик-функции [7].

Пленоптик-функция определяется как интенсивность светового излучения, проходящего через некоторую точку пространства (x, y, z), в данном направлениb (θ, φ), при данной длины световой волны λ и в заданное время t. В общем случае функция определена для всех значений своих аргументов.

P7 = P (X, Y, Z, θ, φ, λ, t)

Обычно рассмотрение производится для статических моделей, с цветом в модели RGB. Это позволяет сократить число параметров до пяти:

P5 = P (X, Y, Z, θ, φ)

Набор входных изображений может рассматриваться как конечный набор значений пленоптик-функции для некоторой области аргументов. Задача алгоритма экранизации - получить значения функции при заданных параметрах, в общем случае отличных от исходных. Это позволит построить изображение данных для произвольного положения камеры.

Реконструкция неизвестных значений пленоптик-функций может вестись как с восстановлением трехмерной геометрической информации (полным или частичным), так и без него (с помощью интерполяции между изображениями).

Представления без соответствующей геометрии

Одним из самых первых подходов в экранизации без геометрии, были так называемые MovieMaps [8]. В этой статье 1980-го года описывается система, в которой создается база данных фотографий городских улиц, получаемых с периодическими интервалами. База данных сохранялась на видеодиск. Затем виртуальная навигация по городу осуществлялась с помощью поиска в базе данных фотографий положения камеры, наиболее близкое к желаемому положению виртуального водителя.

В терминах пленоптик-функции можно сказать, что MovieMaps представляют собой набор неструктурированных выборок пятимерной функции, причем во время реконструкции не производится интерполяции или экстраполяции, а выбирается ближайшее изображение.

К недостаткам этой системы можно отнести большие объемы данных - для качественной оцифровки одной улицы могут потребоваться сотни фотографий. Кроме того, критичным недостатком является то, что, по сути, реконструкции неизвестных значений пленоптик-функции не происходит, т.е. вместо синтеза неизвестного вида берется ближайший из базы данных. Это приводит к дискретности анимации и ослаблению эффекта трехмерной навигации.

Для систем без возможности перемещения наблюдателя (разрешено только вращение) часто используются цилиндрические панорамные изображения [9, 10, 11, 12]. Их выбор обусловлен несколькими факторами. Во-первых, развиты алгоритмы создания панорамных изображений. Такие изо-бражения могут создаваться как с использованием специальных панорамных камер [13, 14], так и с помощью алгоритмов склейки фотографий, полученных обычной камерой. Во-вторых, цилиндрическая панорама (в отличие, от сферической, например), имеет радиальную форму только по одной координате, что значительно упрощает алгоритмы деформации, используемые для экранизации панорамы.

Панорама представляет собой репараметризацию пятимерной пленоптик-функции до двумерной функции: P2 = P (θ, φ) за счет фиксации параметров, отвечающих за положение наблюдателя x, y, z и вариации углов поворота θ, φ

Экранизация панорамы выполняется с помощью планарной репроекции - процедуры обратной деформации, похожей на ту, которая используется в текстурировании. Для данной точки (x, y) на видовой плоскости можно напрямую получить координаты (u, v) в цилиндрическом изображении. Обычно алгоритмы экранизации панорам позволяют выполнять операции поворота вокруг вертикальной оси, изменение масштаба изображения, наклон камеры вверх или вниз. Изменение масштаба достигается путем изменения угла раствора виртуальной камеры, которая используется в формуле репроекции.

Возможна реализация алгоритма экранизации панорам с помощью графических библиотек, например, OpenGL. В этом случае изображение наносится на цилиндр как текстура, а перспективная камера ставится в его центр.

Рисунок 2. Цилиндрическая панорама

Основное ограничение систем, основанных на панорамах (цилиндрических, сферических или кубических) - это ограничение передвижений пользователя одним положением - тем, откуда были получены изображения. Хотя наблюдатель может поворачиваться, он не может двигаться, т.к. это приводит к изменениям видимости объектов.

Расширением технологии цилиндрических панорам являются так называемые концентрические мозаики [15, 16, 17, 18]. Они позволяют ограничен-ное передвижение внутри круговой области, с корректным воспроизведением эффектов параллакса и освещения. Для получения такого представления необходимо специальное оборудования - набор камер, расположенных на вращающейся штанге. Концентрическая мозаика получается путем комбинации панорамных изображений, получаемых каждой камерой при ее движении вдоль радиального пути, причем для каждого положения камеры из всего получаемого изображения используется только небольшая вертикальная полоска (щелевое изображение - slit image).

Рисунок 3. Получение и экранизация концентрической мозаики. а) генерация мозаики из набора щелевых изображений камер, вращающихся по радиу-сам б) синтез изображения для положения наблюдателя P: каждый столбец изобра-жения выбирается из соответствующего изображения мозаики

Таким образом, с каждым столбцом полученных панорамных изобра-жений ассоциируется радиус и угол поворота камеры. Это эквивалентно 3D- параметризации пленоптик-функции P3 = P (r, θ, φ). Такая параметризация совмещает небольшой объем данных с возможностью ограниченного перемещения.

Во время экранизации наблюдатель может перемещаться внутри круговой области, покрываемой мозаиками. Изображение генерируется путем выборки соответствующих столбцов из исходных изображений (см. рис. 3). Каждому столбцу целевого изображения ставится в соответствие вертикальная плоскость, проходящая через него. Затем для каждой такой плоскости находится наиболее близкий столбец, выбранный из доступных мозаичных изображений и записывается на место столбца в целевом изображении.

Необходимо заметить, что такая процедура неявно предполагает, что все поверхности, запечатленные на изображениях, находятся бесконечно далеко (поскольку при прямолинейном движении не учитывается увеличение и уменьшение объектов за счет перспективной проекции). Поскольку это условие не сохраняется в большинстве реальных примеров, этот алгоритм вносит искажения в получаемые изображения. Другим недостатком является отсутствие вертикального параллакса, - это связано с тем, что все исходные камеры находятся на одной высоте. Однако горизонтальный параллакс сам по себе создает хороший эффект для восприятия трехмерной структуры окружения.

Подходы, основанные на трехмерной параметризации, обычно допускают перемещение пользователя только в одной плоскости или ограничивают его каким-либо иным образом. Для возможности реализации большей свободы перемещения требуется введение как минимум одного дополнительного параметра, что неизбежно повлечет за собой увеличение объема хранимых данных.

Наиболее известной технологией, основанной на четырехмерной пара-метризации пленоптик-функции, являются световые поля (light fields) [19, 20, 21, 22, 23, 24, 25]. В этом случае представление представляет собой базу данных изображений некоторого объекта, полученных с разных положений камеры. Для создания такой базы данных используется равномерная ортогональная сетка, в узлах которой находятся камеры. Такая сетка задает видовую плоскость с координатами точек (u, v). В каждом узле сетки делается фотография объекта, используя направление камеры, определяемое точкой на параллельной плоскости (s, t), расположенной за объектом. Таким образом, цвет по любому направлению луча, проходящий через область объекта, кодируется четырьмя параметрами (u, v, s, t), т.е. используется четырехмерная параметризация пленоптик-функции P4 = P (u, v, s, t).

Рисунок 4. Получение и экранизация представлений на основе световых полей

Экранизация такого представления заключается в построении луча, выходящего из каждой точки видовой плоскости целевой камеры (которая должна располагаться за пределами параллелепипеда, определяемого плоскостями uv и st). Затем в базе данных производится поиск нужного изображения по координате (ur, vr) пересечения плоскости с лучом. Точка в этом изображении определятся через координату пересечения луча со второй плоскостью st.

Световые поля позволяют экранизировать объекты со сложными материалами (сильно бликующие и т.п.). Однако эта технология требует большого количества исходных изображений для получения качественного выходного изображения. Также технологии световых полей эффективны только для представления относительно небольших объектов и не работают для задач навигации и подобных.

Другим примером технологии, использующей четырехмерную параметризацию, является метод пленоптик-склейки (plenoptic stitching) [20]. Эта технология позволяет перемещаться внутри некоторой замкнутой области произвольной формы и размеров. Для получения набора исходных изображений используется так называемая всенаправленная камера [26, 27, 28], которая позволяет автоматически получать панорамные изображения. Камеру перемещают по некоторой сетке, причем положение камеры отслеживается и сохраняется вместе с видеопоследовательностью. Пересечения путей вдоль сетки образуют специальные сегменты, которые на этапе предобработки выделяются и сохраняются. Получаемые таким образом выборки плепоптик-функции параметризуются через положение (x, y) наблюдателя и координаты (u, v) на некоторой поверхности, заключающей в себе область перемещений камеры. Таким образом, в этом методе используется четырехмерная параметризация пленоптик-функции P4 = P (x, y, u, v), адаптированная для задачи интерактивной навигации (в отличие световых полей).

Рисунок 5. Пленоптик-склейка: получение и алгоритм экранизации

Новые виды создаются с помощью с помощью деформации и комбинации столбцов пикселей, полученных с исходных изображений. Плоскости (показанные на рис. 5), определяемые для текущего положения камеры и для каждого столбца целевого изображения используются, чтобы выбирать столбцы пикселей из двух панорамных изображений, расположенных спереди и сзади текущего видового объема. Если такая плоскость не пересекает центр панорамного изображения, информация интерполируется из двух соседних.

К недостаткам такого подхода можно отнести достаточно большой объем хранимых данных, отсутствие вертикального параллакса, небольшое разрешение получаемых изображений.

Таким образом, из описанных выше методов можно видеть, что представления и алгоритмы экранизации, которые используют только изображения, позволяют получать реалистичный 3D-эффект перемещения наблюдателя либо используя большое количество изображений, либо ограничивая область перемещения наблюдателя. Для уменьшения количества изображения и улучшения качества экранизации нужно использовать дополнительную информацию о геометрической структуре моделей.

Представления с неявной геометрией

Технологии, использующие неявную геометрию, полагаются на небольшое число исходных изображений, но при этом используют дополнительную информацию о соответствиях (matches) пикселей на различных изображениях. Термин неявная геометрия означает, что 3D положения точек не восстанавливаются, а целевое изображение реконструируется с помощью манипуляции с соответствиями на изображениях.

Такой подход позволяет увеличить дистанцию между изображениями, на которой возможна реконструкция произвольных значений пленоптик-функции.

Алгоритм интерполяции вида (view interpolation) [29, 30, 31] позволяет реконструировать вид с произвольного положения камеры. Для его работы необходим плотный оптический поток (dense optical flow [32]) между двумя соседними изображениями. Однако для хороших результатов исходные камеры должны находиться рядом, чтобы во время перемещения не происходило многочисленных изменений видимости (появление, пропадание объектов). Изменения видимости составляют серьезную проблему для методов, основанных на неявной геометрии, так как они не могут быть описаны непрерывной фунцией оптического потока.

Рисунок 6. Интерполяция вида. Слева - исходное изображение. Справа - целевое. В центре - сгенерированные изображения

Недостатком такого метода является то, что на практике получение оптического потока может быть очень трудной задачей, в частности для реальных изображений. Для ее решения применяются технологии машинного зрения, такие как плотное стерео (dense stereo) [15], которые известны своей неустойчивостью.

Недостатком такого метода является то, что на практике получение оптического потока может быть очень трудной задачей, в частности для реальных изображений. Для ее решения применяются технологии машинного зрения, такие как плотное стерео (dense stereo) [33], которые известны своей неустойчивостью.

Другой подход, известный как видовой морфинг (view morphing) [31] не требует известного оптического потока и позволяет восстанавливать произвольные промежуточные изображения на линии, соединяющей центры проекции исходных изображений. Каждое промежуточное изображение является линейной комбинацией двух соседних. При этом на этапе предобработки изображения проходят процесс ректификации [34], после которого соответствующие эпиполярные линии становятся горизонтальными. Соответственно, на этапе постобработки происходит процесс де-ректификации изображений.

Рисунок 7. Видовой морфинг. В центре - сгенерированное изображение

Его недостатком является ограниченные возможности перемещения, а также трудности с изменениями видимости, аналогично предыдущему методу.

Эти методы, по сути, используя набор из двухмерных выборок пленоптик-функции (изображений), интерполируют ее, достраивая до непрерывной в области между известными значениями.

В работе [10] приводится метод, названный пленоптик-моделированием. В качестве выборок пленоптик-функции используются цилиндрические панорамы, расположенные на небольшом расстоянии друг от друга (не более полутора метров). С использованием алгоритмов плотного стерео вычисляется диспаритет каждой точки панорамы, который используется при создании промежуточного изображения.

Аналогичные подходы предлагаются в [32, 35, 36].

Представления с дискретной геометрией

Алгоритмы, попадающие в этот класс, используют представления, которые содержат явную 3D информацию в дискретной форме, обычно такую как глубина каждого пикселя изображения вдоль направления взгляда. Под дискретностью здесь понимается то, что такие представления не содержат информации о том, как достраивать значения до поверхности (в отличие от граничных полигональных представлений, например). Поэтому обычные полигональные представления не попадают в этот класс.

Методы, использующие технологии трехмерной деформации (3D warping) [37] , требуют наличия информации о расстоянии до объекта в каждой точке исходного изображения. Такая информация обычно представляется в виде так называемых изображений с глубиной (image with depth) [38, 39, 40, 41, 4, 42, 43]. Изображение с глубиной - это пара (id, K), где id - изображение, а K - модель камеры, связанной с id. С каждым пикселем изображения ассоциировано скалярное значение, задающее расстояние (в Евклидовом пространстве) между точкой на видовой плоскости камеры и соответствующей точкой объекта.

Примечательным свойством представления является то, что современные дистанционные сканеры позволяют напрямую получать данные в виде карт глубины, а наиболее дорогие модели получают и цветовую информацию об объекте. Следовательно, такое представление максимально подходит для работы со сложными реальными данными, а задача состоит в разработке метода экранизации.

Рисунок 8. Построение карты глубины и пример модели. (a) Построение карты глубины. (б) Модель башни Chum Sung Dae (Южная Корея)

Следует заметить, что пара (изображение, карта глубины) однозначно определяет дискретное приближение поверхности в трехмерном пространстве, при этом качество приближения зависит от разрешения изображения и выбранного положения камеры.

Алгоритм экранизации тем или иным способом выполняет репроекцию каждой точки исходного изображения с глубиной на целевое изображение. Алгоритм прямой трехмерной деформации сопоставляет каждому пикселю исходного изображения с глубиной пиксель целевого изображения, используя параметры модели камеры K.

Рисунок 9. Процесс репроекции

Наиболее важной проблемой таких методов является появление пустот (<дырок>) в синтезированном изображении, полученном методом деформации. Дырки появляются из-за различной частоты дискретизации исходных изображений и целевого изображения, а также в тех местах, где части сцены должны быть видны в целевом изображении, но не видны в исходных.

Для решения проблемы дырок, возникающих из-за различной частоты дискретизации, используются алгоритмы обратной деформации (inverse warping) [44], которые сопоставляют каждому пикселю целевого изображения пиксель в исходном изображении. Однако такие методы работают достаточно медленно, поэтому вместо них в задаче интерактивной экранизации чаще используются алгоритмы сплаттинга (splatting) [45]. Эти алгоритмы замещают целевой пиксель, координаты которого получены в результате прямой деформации изображения, на специальный сплат (splat - пятно), который, перекрываясь с соседними сплатами, закрывает дырки. В терминах цифровой обработки сигналов сплаттинг эквивалентен фильтрации передискретизованного сигнала низкочастотным фильтром.

Для увеличения скорости экранизации процесс 3D-деформации может быть разбит на относительно простой этап пре-деформации и этап отображения текстуры, который может быть выполнен с помощью обычных аппаратных ускорителей [3, 46].

Для борьбы с проблемой дырок, возникающих из-за того, что части сцены невидимы в исходных картах глубины, в [47, 5] было предложено но-вое представление, так называемое Многослойное Изображение с Глубиной (LDI - Layered Depth Image).

Рисунок 10. Многослойное изображение с глубиной

Отличие многослойных изображений с глубиной от простых заключается в том, что одно изображение позволяет хранить информацию не только о видимой с данной исходной камеры части поверхности объекта, а полную информацию об объекте. В сущности, LDI - это трехмерная структура данных, представляющая собой прямоугольную матрицу, каждым элементом которой является список точек. Каждая точка содержит глубину (расстояние до видовой плоскости) и атрибуты, в простейшем случае - цвет.

Для описания всего объекта можно использовать единственное многослойное изображение, однако в [4] предложен способ, использующий шесть перспективных LDI с единым центром проекции. Такая структура позволяет проводить визуализацию как методами деформации [37, 3], так и просто использовать хранимую информацию как облако точек и визуализировать его напрямую с помощью графической библиотеки (например, OpenGL [48, 49]).

С использованием LDI-подобных структур связаны некоторые ограничения на визуализацию, обусловленные тем, что все точки в изображении ориентированы на одну базовую плоскость. Кроме того, LDI не могут быть напрямую получены с устройств ввода и для создания такой структуры необходимо использовать дополнительные алгоритмы, например, деформировать изображения с глубиной по методу трехмерной деформации таким образом, чтобы плоскость результирующего изображения совпадала с базовой плоскостью LDI. Отметим, что процесс формирования LDI происходит до непосредственно визуализации, и поэтому его эффективность не отражается на скорости визуализации.

Однако LDI не позволяет напрямую визуализировать объект с различными степенями детализации. В работе [6] была предпринята попытка создать многомасштабное представление на основе LDI с использованием так называемого дерева LDI (LDI tree).

Сущность метода состоит в следующем: вместо одного LDI формируется восьмеричное дерево, в каждом узле которого находится свой LDI и ссылки на другие узлы, в которых находится LDI меньшего размера (в единицах сцены), но того же разрешения. Также для каждого узла есть ограничивающий параллелепипед.

Все LDI в дереве имеют одинаковое разрешение. Высота дерева зависит от разрешения LDI. Чем меньше разрешение LDI, тем больше высота дерева.

Каждый LDI в дереве содержит информацию только о той части сцены, которая содержится в его ограничивающем параллелепипеде. Ограничивающие параллелепипеды узлов следующего уровня дерева получаются дроблением ограничивающего параллелепипеда текущего уровня на восемь равных частей.

Рисунок 11. Октарное дерево из LDI. В каждом узле дерева находится отдельный LDI

Дерево LDI позволяет решать проблему визуализации очень больших структур данных, т.к. при визуализации нет необходимости обрабатывать потомков узла, если сам узел обеспечивает достаточную степень детализации. Авторы используют следующий критерий степени детализации: считается, что LDI обеспечивает достаточный уровень детализации, если "отпечаток" (footprint, splat) [45] его пиксела на результирующем изображении покрывает не более одного пиксела экрана.

С другой стороны, использование того же подхода позволяет дополнить данные низкого разрешения искусственно восстановленными дополнительными уровнями дерева, создавая эффект фильтрации получаемого изображения.

Визуализация производится с помощью обхода дерева от корня к листьям и рисования LDI методом прямой деформации. При этом обработка всех узлов дерева не требуется, и обход ветви дерева завершается на первом LDI, обеспечивающем достаточную точность.

Представления с полигональной геометрией

Текстурирование широко используется в компьютерной графике для генерации фотореалистичных изображений моделей реальных объектов. Текстурированные модели могут быть получены как синтетически, с использованием одного из пакетов моделирования, так и с помощью процедуры реконструкции поверхности из дискретного представления, получаемого с помощью аппаратных дальномерных устройств или методам машинного зрения. Однако весьма сложной задачей является передача визуальных эффектов, таких как блики, отражения, полупрозрачность и т.п., с использованием одной текстурированной модели.

Для того, чтобы передать описанные эффекты в реконструированном архитектурном окружении, был предложен метод видозависимого текстури-рования [50, 51]. Этот метод состоит из алгоритмов реконструкции грубой аппроксимации геометрии сцены с последующей экранизацией, причем фотографии архитектурных объектов используются как текстуры, накладываясь на объекты с помощью проективного текстурирования. Несколько фотографий одной и той же части сцены с разных точек зрения комбинируются в разных пропорциях в зависимости от положения наблюдателя. Это позволяет передавать искомые визуальные эффекты с достаточным качеством.

К сожалению, методы машинного зрения недостаточно устойчивы на практике, поэтому описанные методы работают на достаточно узком классе входных фотографий.

Другой подход, основанный на видозависимом текстурировании, применяется для интерактивной экранизации поверхностей высокой оптической сложности, таких как автомобильные лаки и краски. Для таких поверхностей свойства материала задаются в виде табличной функции ДФОС (Двухлучевая Функция Отражающей Способности [52]), которая задает количество света, отражаемого в заданном направлении при освещении заданной точки объекта с различных направлений. Геометрическая модель задана в полигональном представлении. Для произвольной ДФОС расчет цвета каждой точки (или каждой вершины) поверхности слишком сложен для интерактивной экранизации модели. Алгоритм, описанный в [53], вместо вычисления цвета поверхности в каждой точке, интерактивно генерирует специальное изображение, которое в виде текстуры накладывается на поверхность объекта с помощью сферического отображения (spherical mapping). Текстура представляет собой изображение полусферы единичного радиуса, покрытой заданным материалом и помещенной в заданные условия освещения. Изображение создается путем вычисления освещения на вершинах специальной сетки, которая имеет большую плотность в райнах ожидаемого появления бликов (высокочастотных особенностей ДФОС). Затем вычисленный цвет интерполируется внутри треугольников.

Такие изображения создаются для каждого источника света, а затем суммируются для создания финальной текстуры. Свойства сферического отображения позволяют наложить текстуру на объект таким образом, что для каждой точки объекта выбирается такой пиксель изображения полусферы, что направление нормалей к поверхности объекта и направление нормалей к полусфере в данной точке совпадают. Это позволяет получить корректный результат для трехмерных ДФОС и бесконечно удаленных источников света. Алгоритм, основанный на использовании изображений, позволяет ограничить сложность вычисления ДФОС количеством вершин сетки, составляющей изображение полусферы.

Если видозависимое текстурирование применяется в основном для архитектурных сцен, то методы отображения световых полей (light field mapping) [54, 55] предназначены для передачи сложных свойств материалов небольших объектов. Концептуально эта технология схожа с технологией световых полей, однако в процессе параметризации пленоптик-функции принимает участие полигональная модель объекта, которая считается известной. База данных фотографий объекта сжимается, выборки из нее наносятся на объект как проективные текстуры. Преимуществом этой технологии является то, что для передачи даже весьма сложных материалов требуется относительно небольшое число изображений (несколько десятков) и для экранизации могут быть использованы современные аппаратные ускорители (с поддержкой мультитекстурирования).

В статье [56] описывается метод экранизации с помощью так называемых неструктурированных световых полей (unstructured light field). Это гибкий подход, основанный на использовании так называемой замещающей геометрии (proxy geometry) для описания формы объекта и набора фотографий объекта. Точность замещающей геометрии и количество требуемых фотографий для качественного описания объекта находятся в обратной зависимости: чем больше (зарегистрированных) фотографий объекта доступно, тем менее точная геометрия необходима (крайний случай - очень большое количество фотографий и описывающий объем объекта в качестве замещающей геометрии). Аналогично, если известна точная геометрия модели, то требуется небольшое число фотографий (вырожденный случай - обычная полигональная модель с текстурой). Синтез изображений производится с помощью проекции фотографий на замещающую геометрию и расчета вклада каждой фотографии в текстуру в каждой области поверхности замещающего объекта. Такой подход унифицирует различные подходы, начиная с видового морфинга и заканчивая видозависимым текстурированием. Однако универсальность подхода приводит к потере эффективности, по сравнению с конкретными алгоритмами. Анализ взаимозависимости количества изображений и точности геометрии приводится в [57].

Результаты анализа

Представления на основе изображений являются жизнеспособной альтернативой традиционному полигональному представлению и их использование может решать задачи, недоступные классическим полигональным алгоритмам. В частности, задачи экранизации объектов реального мира, геометрия которых неизвестна или очень сложна, а также качественная экранизация объектов высокой фотометрической сложности.

Спектр методов представления с использованием изображений чрезвычайно широк. Экранизация без геометрии предъявляет очень высокие требования к количеству входных изображений и организации базы данных, однако позволяет экранизировать произвольные объекты, часто не делая предположения об их геометрии. С другой стороны, представления, использующие явную геометрию, занимают меньший объем данных. При этом им свойственны собственные недостатки. Получение явной геометрии часто бывает затруднительной процедурой, использующей неустойчивые методы машинного зрения, что ограничивает практическое применение таких представлений. Часто хорошие результаты показывают гибридные методы [58, 59], такие как отображение световых полей или неструктурированные световые поля.

С точки зрения практической применимости методов, основанных на изображениях, наиболее вероятными кандидатами на широкое применение выглядят методы, использующие дискретную геометрию (карты глубины, множества точек и т.п.), а также гибридные методы. Такие подходы находятся на <стыке> методов, полагающихся на геометрию и методов, интенсивно использующих изображения. Для получения дискретной геометрии не требуется проводить сложный процесс реконструкции поверхности или объема модели, такие данные могут быть получены с помощью аппаратных устройств или методов машинного зрения. С другой стороны, гибридные методы (например, совместно использующие дискретные и полигональные представления) позволяют получать более высокое качество синтезированного изображения (т.к. обычно при большом приближении полигональные модели дают более качественное изображение, чем дискретные).

Литература

  1. Kang, S.B., R. Szeliski, and P. Anandan. The geometry-image representa-tion tradeoff for rendering. Procedings of nternational Conference on Im-age Processing. 2000. Vancouver, Canada.
  2. Rademacher., P. View-dependent geometry. Procedings of SIGGRAPH. p. 439-446. 1999.
  3. Oliveira, M.M., Relief Texture Mapping. Ph.D. Dissertation. UNC Com-puter Science Technical Report TR00-009, University of North Carolina, March 3, 2000.
  4. Oliveira, M.M. and G. Bishop. Image-Based Objects. Procedings of ACM Symposium on Interactive 3D Graphics. p. 191-198. 1999.
  5. Shade, J. and et al. Layered Depth Images. Procedings of SIGGRAPH 1998. p. 231-242.
  6. Chang, C.-F., G. Bishop, and A. Lastra. LDI Tree: A Hierarchical Represen-tation for Image-Based Rendering. Procedings of SIGGRAPH 1999. p. 291- 298. 1999.
  7. Adelson, E. and J. Bergen, The Plenoptic Function and the Elements of Early Vision. Computational Models of Visual Processing. 1991: MIT Press, Cambrige, MA. 3-20.
  8. Lippman, A. Movie-Maps: An Application of the Optical Videodisc to Com-puter Graphics. Procedings of SIGGRAPH 1980. p. 32-43. 1980.
  9. Kang, S.B. and P.K. Desikan. Virtual navigation of complex scenes using clusters of cylindrical panoramic images. Procedings of Graphics Interface. p. 223-232. 1998. Vancouver, Canada.
  10. McMillan, L. and G. Bishop. Plenoptic modeling: An image-based render-ing system. Procedings of SIGGRAPH'95. p. 39-46. 1995.
  11. Peleg, S. and M. Ben-Ezra. Stereo panorama with a single camera. Proced-ings of Computer Vision and Pattern Recognition. 1999.
  12. Zheng, J.Y. and S. Tsuji. Panoramic representation of scenes for route un-derstanding. Procedings of 10th Int. Conf. Pattern Recognition. p. 161-167. 1990.
  13. Globuscope Panoramic Camera. http://www.everent.com/globus/. [cited 2005 August].
  14. Roundshot 220VR. [cited 2005 August]; Available from: http://www.roundshot.com/cameras220VR.html
  15. Peleg, S. and J. Herman. Panoramic Mosaics by Manifold Projection. Pro-cedings of Conference on Computer Vision and Pattern Recognition. p. 338-343. 1997.
  16. Shum, H.-Y. and L.-W. He. Rendering with Concentric Mosaics. Procedings of SIGGRAPH 1999. p. 299-306.
  17. Szeliski, R. and H.-Y. Shum. Creating full view panoramic image mosaics and texture-mapped models. Procedings of SIGGRAPH'97. p. 251-258. 1997.
  18. Szeliski., R., Video mosaics for virtual environments. IEEE Computer Graphics and Applications, 1996. 16(2): p. 22-30.
  19. LightPack: Light Field Authoring and Rendering Package. Stanford Com-puter Graphics Laboratory. [cited 2005 October]; Available from: http://www-graphics.stanford.edu/software/lightpack/.
  20. Aliaga, D. and I. Carlbom. Plenoptic Stitching: A Scalable Method for Re-constructing 3D Interactive Walkthroughs. Procedings of SIGGRAPH 2001. p. 443-450. 2001.
  21. Gortler, S. and et al. The Lumigraph. Procedings of SIGGRAPH 1996. p. 43-54. 1996.
  22. Isaksen, A., L. McMillan, and S. Gortler, Dynamically reparameterized light fields. 1999, Technical Report MITLCS-TR-778.
  23. Levoy, M. and P. Hanrahan. Light Field Rendering. Proceedings. Proced-ings of SIGGRAPH 1996. p. 31-42. 1996.
  24. Sloan, P.P., M.F. Cohen, and S.J. Gortler. Time critical lumigraph render-ing. Procedings of Symposium on Interactive 3D Graphics. p. 17-23. 1997. Providence, RI, USA
  25. Wong, T., P. Heng, S. Or, and W. Ng. Image-based rendering with control-lable illumination. Procedings of Proceedings of the 8-th Eurographics Workshop on Rendering. p. 13-22. 1997. St. Etienne, France.
  26. Kang, S.B. and R. Szeliski. 3-D scene data recovery using omnidirectional multibaseline stereo. Procedings of EEE Computer Society Conference on Computer Vision and Pattern Recognition p. 364-370. 1996. San Francisco, California.
  27. Nalwa, V.S., A true omnidirecional viewer. 1996, Bell Laboratories, Holm-del, NJ, USA.
  28. Nayar, S. Catadioptric Omnidirectional Camera. Procedings of IEEE Com-puter Vision and Pattern Recognition. p. 482-488. 1997.
  29. Avidan, S. and A. Shashua. Novel view synthesis in tensor space. Procedings of Conference on Computer Vision and Pattern Recognition. p. 1034-1040. 1997. San Juan, Puerto Rico.
  30. Katayama, A., K. Tanaka, T. Oshino, and H. Tamura, A viewpoint dependent stereoscopic display using interpolation of multiviewpoint images. Stereo-scopic Displays and Virtual Reality Systems II, Proc. SPIE, ed. S. Fisher, J. Merritt, and B. Bolas. Vol. 2409. 1995. 11-20.
  31. Seitz, S.a.C.D. Photorealistic Scene Reconstruction by Voxel Coloring. Pro-cedings of Computer Vision and Pattern Recognition Conference. p. 1067-1073. 1997.
  32. Faugeras, O., Three-Dimensional Computer Vision: A Geometric Viewpoint. 1993, Cambridge, Massachusetts: MIT Press.
  33. Scharstein., D., Stereo vision for view synthesis. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'96), pages 852-857, San Francisco, California, June 1996.
  34. Hartley, R. and A. Zisserman, Multiple View Geometry in Computer Vision. 2000: Cambridge University Press.
  35. Laveau, S. and O. Faugeras, 3-D scene representation as a collection of im-ages and fundamental matrices. Technical Report 2205, INRIA-Sophia An-tipolis, 1994.
  36. Laveau, S. and O.D. Faugeras. 3-d scene representation as a collection of images . . Procedings of. p. 689-691. 1994. Jerusalem, Israel: IEEE Com-puter Society Press.
  37. McMillan, L., An Image-Based Approach to Three-Dimensional Computer Graphics. Ph.D. Dissertation, UNC Computer Science.
  38. Bayakovski, Y., et al., Depth Image-based Representations and Compres-sion for Static and Animated 3D Objects. IEEE Transactions on Circuits & Systems in Videotechnology. Special Issue on MPEG-4, 2004: p. 1032-1045.
  39. McAllister, D.K., L. Nyland, V. Popescu, A. Lastra, and C. McCue. Real-time rendering of real world environments. Procedings of Eurographics Workshop on Rendering. 1999. Granada, Spain.
  40. Nyland, L., A. Lastra, D. McAllister, V. Popescu, and C. McCue. Capturing, Processing and Rendering Real-World Scenes. Procedings of In Videomet-rics and Optical Methods for 3D Shape Measurement. 2001.
  41. Nyland, L., et al. The Impact of Dense Range Data on Computer Graphics. Procedings of IEEE Multi-View Modeling and Analysis Workshop. p. 23-26. 1999.
  42. Wang, J. and M.M. Oliveira, Improved Scene Reconstruction from Range Images. Computer Graphics Forum, 2002. 21(3).
  43. Y Bayakovski, et al. Depth Image-based Representations for static and ani-mated 3D objects. Procedings of ICIP-2002. p. 25-28. 2002.
  44. Mark, W.R., L. McMillan, and G. Bishop. Post-Rendering 3D Warping. Procedings of Symposium on Interactive 3D Graphics. p. 27-30. 1997. Providence, RI.
  45. Eyles, J., S. Molnar, J. Poulton, T. Greer, A. Lastra, N. England, and L. Westover. Pixelflow: The realization. Procedings of Siggraph/Eurographics Workshop on Graphics Hardware. 1997. Los Angeles, CA, Sug.
  46. Oliveira, M.M., G. Bishop, and D. McAllister. Relief Texture Mapping. Pro-cedings of SIGGRAPH 2000. p. 359-368.
  47. Popescu, V., A. Lastra, D. Aliaga, and M. Oliveira. Efficient Warping for Architectural Walkthroughs Using Layered Depth Images. Procedings of IEEE Visualization'98. p. 211-215.
  48. OpenGL. http://www.opengl.org.
  49. Баяковский, Ю., А. Игнатенко, and А. Фролов, Графическая библиоте-ка OpenGL. 2003, Москва: Издательский отдел факультета Вычисли-тельной Математики и Кибернетики МГУ им. М.В. Ломоносова. 132.
  50. Debevec, P., C. Taylor, and J. Malik. Modeling and Rendering Architecture from Photographs: A hybrid geometry- and image-based approach. Proced-ings of SIGGRAPH 1996. p. 11-20. 1996.
  51. Debevec, P., Y. Yu, and G. Borshukov. Efficient view-dependent image-based rendering with projective texture-mapping, . Procedings of 9th Euro-graphics Workshop on Rendering. p. 105-116. 1998.
  52. Хорн, Б.К.П., Зрение роботов. 1989, Москва: Мир. 487.
  53. Ignatenko, A., B. Barladian, K. Dmitriev, S. Ershov, V. Galaktionov, I. Valiev, and A. Voloboy. A Real-Time 3D Rendering System with BRDF Ma-terials and Natural Lighting. Procedings of Graphicon-2004. p. 159-162. 2004. Moscow, Russia.
  54. Chen, W.-C., R. Grzeszczuk, and J. Bouguet. Light-Field Mapping: Hard-ware Accelerated Visualization of Surface Light Fields. Procedings of SIGGRAPH 2002. p. 447-456.
  55. Wood, D. and et. al. Surface Light Fields for 3D Photography. Procedings of SIGGRAPH 2000. p. 287-296.
  56. Matusik, W., C. Buehler, R. Raskar, S. Gortler, and L. McMillan. Image-Based Visual Hulls. Procedings of SIGGRAPH 2000. p. 369-374. 2000.
  57. Chai, J.-X., X. Tong, S.-C. Chan, and H.-Y. Shum. Plenoptic sampling. Pro-cedings of SIGGRAPH'2000. 2000.
  58. Darsa, L., B. Costa, and A. Varshney, Walkthroughs of complex environ-ments using image-based simplification.
  59. Renato Pajarola, M.S., Yu Meng, Depth-Mesh Objects: Fast Depth-Image Meshing and Warping. . UCI-ICS Technical Report No. 03-02 Department of Information & Computer Science University of California, Irvine, 2003.
Дополнительная информация
Ссылка: 
Алексей Игнатенко. Методы представления и экранизации трехмерных данных с помощью изображений: часть 2. Компьютерная графика и мультимедиа. Выпуск №4(4)/2006. http://cgm.computergraphics.ru/content/view/153
Выпуск: 
Выпуск №4(4)/2006

Комментарии

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Строки и параграфы переносятся автоматически.

Подробнее о форматировании

CAPTCHA
Тест предназначен для отсеивания спама
Fill in the blank