Campo DC | Valor | Idioma |
dc.contributor.advisor | Campos, Teófilo Emídio de | pt_BR |
dc.contributor.author | Dourado Neto, Aloisio | pt_BR |
dc.date.accessioned | 2024-08-13T17:16:33Z | - |
dc.date.available | 2024-08-13T17:16:33Z | - |
dc.date.issued | 2024-08-13 | - |
dc.date.submitted | 2022-10-11 | - |
dc.identifier.citation | DOURADO NETO, Aloísio.Towards complete 3D indoor scene understanding from a single point-of-view. 2022. 175 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/49787 | - |
dc.description | Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. | pt_BR |
dc.description.abstract | A nossa percepção visual é a habilidade de interpretar e inferir informações sobre o ambiente que nos cerca usando a luz refletida que entra em nossos olhos através da córnea e
atinge a retina. Por meio do nosso sistema de visão binocular, nós podemos naturalmente
realizar tarefas como identificar o tipo de ambiente no qual nos encontramos, estimar a
distância dos objetos na cena e ainda identificar quais objetos são estes. Para os humanos, realizar inferências como estas sobre cenas em 3D é algo natural. Entretanto, em
Visão Computacional, este é ainda um problema muito desafiador e com muito espaço
para melhorias, para o qual existem inúmeras aplicações, incluindo robótica, segurança,
computação assistiva, realidade aumentada e reprodução de áudio espacial imersivo.
Visando contribuir para o alcance de uma compreensão automática de cenas mais
efetiva e abrangente, nesta tese, nós elegemos como foco a tarefa de Complementação Semântica de Cenas (em inglês Semantic Scene Completion), por ser uma das mais completas
tarefas relacionadas à compreensão de cenas, já que visa inferir a geometria completa do
campo de visão da cena e os rótulos semânticos de cada um dos voxels do espaço 3D sob
análise, incluindo regiões oclusas. A entrada para esta tarefa é uma imagem RGB-D, que
consiste em uma imagem RGB regular adicionada de um quarto canal contendo um mapa
de profundidade da cena. Tal imagem geralmente é obtida por meio de sensores de luz
estruturada como o Microsoft Kinect, mas pode também ser obtida por câmeras estereoscópicas associadas a um algoritmo de estimação de profundidade. As redes profundas
já atingiram os níveis de acurácia humana em uma série de tarefas da visão computacional. Entretanto, este não é o caso dos modelos de compreensão semântica de cenas. Nós
identificamos quatro principais deficiências nas soluções atuais:
• a parte RGB e outros modos das imagens RGB-D não são completamente explorados;
• algumas técnicas de treinamento amplamente utilizadas em 2D têm sido negligenciadas em 3D;
• nenhum dos trabalhos anteriores que identificamos exploraram o uso de dados não
rotulados por meio de treinamento semi-supervisionado;
• as soluções atuais são limitadas ao campo de visão restrito dos sensores de profundidade. Assim sendo, o objetivo geral deste trabalho é propor, implementar e avaliar novas
ferramentas e modelos que possam elevar o nível das soluções em Complementação Semântica de Cenas, no sentido de uma compreensão ampla da cena. Nossos objetivos
específicos são:
1. avaliar os benefícios das técnicas de adaptação domínio e treinamento semi- supervisionado no contexto de segmentação de imagens em 2D, visando posteriormente
explorar o uso de dados não rotulados em 3D;
2. aplicar as tendências atuais dos protocolos de treinamento de redes 2D profundas,
nas redes 3D de Complementação Semântica de Cenas;
3. propor e avaliar um novo modelo de rede 3D que utilize a informação RGB presente
nas imagens RGB-D e supere os problemas de esparsidade de dados ao projetar
dados em 2D para 3D;
4. propor e avaliar uma rede neural multimodal para explorar os múltiplos modos da
imagem RGB-D;
5. propor e avaliar os benefícios do uso de dados não rotulados no treinamento semisupervisionado de redes 3D.
6. propor e avaliar uma solução para a realização de complementação semântica de
cenas em 3D usando datasets RGB-D convencionais para treinamento.
Os primeiros trabalhos de Visão Computacional remontam aos anos 70. Entretanto,
dado o baixo poder computacional das máquinas da época, as tarefas possíveis de serem realizadas eram muito simples e os resultados eram pobres. Os primeiros resultados
promissores começaram a surgir a partir do ano 2000, com o aumento do poder computacional, com um salto representativo em 2012, com a disponibilização de grandes bases de
dados de imagens para treinamento. No Capítulo 2 detalhamos este histórico da evolução
do campo da Inteligência Artificial e da Visão Computacional, desde os seus pioneiros até
as grandes redes convolucionais profundas atuais. Neste capítulo, também apresentamos
conceitos importantes relativos à visão 3D, estimação de profundidade e codificação de
volumes, importantes para a compreensão de cenas.
A capacidade de realização de inferências sobre cenas em 3D é considerada um dos
problemas fundamentais da Visão Computacional e a tarefa de Segmentação Semântica de
Cenas é uma das mais ambiciosas, no sentido de uma compreensão completa da cena. No Capítulo 3, referente aos trabalhos anteriores, apresentamos a bibliografia estreitamente
relacionada com o nosso trabalho, com destaque para o trabalho seminal em Segmentação
Semântica de Cenas que introduziu uma série de inovações, que são usadas até hoje, tais
como: o uso de convoluções 3D dilatadas para ampliar o campo receptivo e ampliar a
captura de contexto; a codificação F-TSDF para destacar as regiões de maior interesse
da cena; e SUNCG, um dataset sintético de cenas 3D, muito útil no treinamento das
redes. Além disso, o capítulo ainda apresenta trabalhos relativos à compreensão de cenas
panorâmicas e os datasets utilizados neste trabalho.
Considerando que o estado da arte atual para este problema utiliza redes neurais totalmente convolucionais (em inglês Fully Convolutional Network - FCN), que normalmente
requerem quantidades elevadas de dados para treinamento, e considerando também a dificuldade de obtenção de dados totalmente rotulados em 3D, antes de entrar no problema
de Complementação Semântica em 3D propriamente dito, no Capítulo 4, nós exploramos
alternativas para contornar este dificuldade em um problema mais simples: segmentação
semântica em 2D.
Em 2D, nós exploramos o uso de Transferência de Aprendizado (Transfer Learning)
e Adaptação de Domínio (Domain Adaptation) na tarefa de segmentação de pele. Tais
conceitos foram adaptados para 3D e amplamente explorados posteriormente na tarefa de
complementação semântica de cenas.
Tendo em vista que as soluções anteriores de complementação semântica de cenas não
exploravam completamente a informação presente na parte RGB da imagem de entrada,
no Capítulo 5 nós endereçamos o problema da esparsidade ao projetar os dados RGB
para 3D, por meio de uma maneira completamente nova de explorar a informação RGB
presente na imagem RGB-D. A solução consiste em extrair as bordas da imagem RGB
e projetá-las para 3D. Por ser uma informação binária, o volume 3D correspondente às
bordas projetadas pode ser submetido ao algoritmo F-TSDF, para eliminar o problema
de esparsidade. A rede 3D pode então fazer a fusão do volume proveniente do mapa de
profundidade com o volume proveniente das cores. A Utilização das bordas da imagem
RGB, permite detectar objetos que não seriam detectáveis nas soluções anteriores baseadas
exclusivamente no mapa de profundidade, a exemplo de quadros planos ou TVs de tela
plana colocados em paredes. Esta solução recebeu o nome de EdgeNet e atingiu resultados
promissores na época de seu lançamento.
Posteriormente, nós avançamos no uso dos dados RGB por meio das probabilidades
a priori extraídas a partir de uma de rede segmentação semântica 2D. No capítulo 6,
nós apresentamos SPAwN, uma solução multi-multimodal, leve e direta que que explora a
segmentação semântica 2D de uma forma completamente nova. Nos trabalhos anteriores
que exploravam a segmentação semântica 2D, devido ao alto consumo de memória, o procedimento comum era projetar não a saída final da rede, o que consumiria muitos
recursos, mas sim, projetar as features internas da rede 2D. Outras soluções que usavam
a saída da rede, eram obrigadas a aplicar algum tipo de codificação no volume projetado
para reduzir seu tamanho. Ambas as soluções tinham como efeito colateral a redução
do potencial semântico advindo da rede 2D. A nossa solução consiste em alimentar uma
rede de segmentação 2D bimodal com dois modos da imagem RGB-D de entrada: RGB
e as normais de superfície. Após isso, nós submetemos a saída da rede 2D a uma função
Softmax para obter as probabilidades a priori que são projetadas para um volume 3D de
baixa resolução. O terceiro modo de entrada, o mapa de profundidade, é projetado para
um volume 3D de alta resolução que é codificado com F-TSDF.
Os dados a priori foram usados como guia semântico enquanto o volume proveniente
do mapa de profundidade fornece a base estrutural da cena. SPAwN também introduziu
o uso de data augmentation aplicado diretamente aos volumes 3D.
Nós completamos nossas contribuições relativas à melhoria da qualidade das inferências no Capítulo 7, combinado a técnica de Adaptação de Domínio explorada nos estágios
iniciais da nossa pesquisa com a nossa rede 3D multi-modal atingindo resultados impressionantes.
Em relação à cobertura da cena, que hoje é restrita ao campo de visão limitado de
sensores RGB-D convencionais, como o Microsoft Kinect, no Capítulo 8, nós propusemos
uma abordagem para estendê-la para 360◦ usando imagens RGB panorâmicas e mapas
de profundidade obtidos a partir de sofisticados sensores de 360◦ ou a partir de câmeras
panorâmicas de baixo custo, montadas em uma configuração estereoscópica. Os resultados
promissores obtidos com a abordagem proposta foram usados com sucesso em um sistema
de reprodução de áudio espacial imersivo.
Nossos estudos preliminares em 2D foram publicados na 34th SIBGRAPI Conference
on Graphics, Patterns and Images (SIBGRAPI 2021). Nossas contribuições no domínio
3D foram publicadas em 3 conferências de visão computacional de alto nível: International
Conference on Pattern Recognition (ICPR 2020); IEEE/CVF Winter Conference on
Applications of Computer Vision (WACV 2022); e Conference on Computer Vision
Theory and Applications (VISAPP 2020); O sistema de reprodução de áudio espacial
imersivo usando a nossa solução 3D em 360◦
foi publicado na revista Virtual Reality
Journal (VIRE). | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Towards complete 3D indoor scene understanding from a single point-of-view | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | Visão computacional | pt_BR |
dc.subject.keyword | Imagem tridimensional | pt_BR |
dc.subject.keyword | Complementação semântica de cenas | pt_BR |
dc.subject.keyword | Redes neurais convolucionais | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | While reasoning about scenes in 3D is a natural task for humans, it remains a challenging
problem in Computer Vision, despite the great advances we have seen in the last few
decades. Automatic understanding of the complete 3D geometry of an indoor scene and
the semantics of each occupied 3D voxel many applications, such as robotics, surveillance,
assistive computing, augmented reality, and immersive spatial audio reproduction. With
this research project, we intend to contribute to enhancing the current computational
results on scene understanding, both in accuracy and coverage. We focus on the task
of Semantic Scene Completion, one of the most complete tasks related to scene understanding, as it aims to infer the complete 3D geometry and the semantic labels of each
voxel in a scene, including occluded regions. In this thesis, we formulate and access a
series of hypotheses to improve current Before getting into the problem of 3D SSC, we
explored Domain Adaptation methods to address problems related to the scarcity of labeled training data in image segmentation tasks in 2D to further apply to 3D. In the 3D
SSC domain, we introduced and evaluated a completely new way to explore the RGB
information provided in the RGB-D input and complement the depth information. We
showed that this leads to an enhancement in the segmentation of hard-to-detect objects
in the scene. We further advanced in the use of RGB data by using semantic priors
from the 2D image as semantic guidance to the 3D segmentation and completion in a
multi-modal data-augmented 3D FCN. We complete the contributions related to quality
improvement by combining a Domain Adaptation technique accessed in the earlier stages
of the research to our multi-modal network with impressive results. Regarding the scene
coverage, which today is restricted to the limited field of view of regular RGB-D sensors
like Microsoft Kinect, we complete our contributions with a new approach to extend the
current methods to 360◦ using panoramic RGB images and corresponding depth maps
from 360-degree sensors or stereo 3D 360-degree cameras. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|