Visual and textual feature fusion for document analysis

Drumond, Patrícia Medyna Lauritzen de Lucena

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Campos, Teófilo Emídio de	pt_BR
dc.contributor.author	Drumond, Patrícia Medyna Lauritzen de Lucena	pt_BR
dc.date.accessioned	2024-08-13T21:09:19Z	-
dc.date.available	2024-08-13T21:09:19Z	-
dc.date.issued	2024-08-13	-
dc.date.submitted	2024-01-18	-
dc.identifier.citation	DRUMOND, Patricia Medyna Lauritzen de Lucena. Fusão de informações visuais e textuais para análise de documentos. 2024. 55 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.	pt_BR
dc.identifier.uri	http://repositorio2.unb.br/jspui/handle/10482/49829	-
dc.description	Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.	pt_BR
dc.description.abstract	Diariamente é produzido um grande volume de documentos nas organizações industriais, comerciais, governamentais, entre outras. Além disso, com o mercado competitivo na internet, as transações de negócios têm crescido numa velocidade imensa. Esses fatos aumentam cada vez mais a necessidade da automação e extração de informações de documentos. Os documentos podem ter sido originados digitalmente como um arquivo eletrônico ou podem ser uma cópia digitalizada de documento impresso em papel. Esses documentos, geralmente, são ricos de informações visuais e podem estar organizados de diferentes maneiras, desde páginas simples contendo apenas texto, até páginas com layouts de várias colunas de texto e uma ampla variedade de elementos não textuais como figuras e tabelas. Para análise e classificação desses documentos a extração de informações baseadas somente em blocos de texto ou em características visuais nem sempre é eficaz. Em geral, a relação espacial desses elementos e blocos de texto contém informações semânticas cruciais para compreensão de documentos. O processo de automação da análise e extração de informações de documentos é desafiador devido aos vários formatos e layouts dos documentos de negócios, e tem atraído a atenção em áreas de pesquisa como Visão Computacional (CV) e Processamento de Linguagem Natural (NLP). Document Intelligence é um termo recente utilizado para aplicações da Inteligência Artificial que envolve a automatização de leitura, compreensão e análise de documentos visualmente ricos de informação. O primeiro workshop de Document Intelligence (DI’2019) foi realizado no dia 14 de dezembro de 2019 na Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS) em Vancouver, Canadá. Essas aplicações, também conhecidas como Document AI, são geralmente desenvolvidas para resolver tarefas como análise de layout de documentos, extração de informações visuais, resposta-pergunta visuais de documento e classificação de imagem de documentos, etc. Na última década, várias abordagens multimodais unindo técnicas de CV e NLP vêm avançando em tarefas de compreensão de documentos, como por exemplo, análise de layout, segmentação de páginas e classificação de imagens de documentos considerando a junção de pelo menos duas das modalidades de recursos: visuais, textuais e de layout. Existem algumas abordagens que foram propostas para lidar com layouts nas imagens do documento. As abordagens tradicionais baseadas em regras (top-down, bottom-up e híbridas) e as abordagens baseadas em Machine Learning e Deep Learning. No entanto, o surgimento da abordagem Deep Learning, principalmente com as técnicas de pré-treinamento, utilizando Redes Neurais Convolucionais e Arquitetura Transformer tem avançado em pesquisa reduzindo o número de pesquisas com abordagens tradicionais. A tecnologia de Deep Learning usada em Document Intelligence envolve a extração de informações de diferentes tipos de documentos através de ferramentas de extração, como OCR, extração de HTML/XML e PDF. As informações de texto, layout e visuais depois de extraídas são pre-treinadas em redes neurais para realizar as tarefas downstream. O modelo de linguagem BERT (Bidirectional Encoder Representations from Transformers) tem sido usado como backbone para outros modelos de pre-treinamento combinando recursos visuais e textuais para tarefas downstream. Apesar do excelente desempenho dos modelos Transformer existem vários desafios associados à sua aplicabilidade para configurações prática. Os gargalos mais importantes incluem requisitos para grandes quantidades de dados de treinamento e altos custos computacionais associados. Ao contrário desses modelos, nós propomos um método de codificação de layout espacial simples e tradicional baseado em regras, LayoutQT, que combina informações textuais e espaciais de blocos de texto. Nós mostramos que isso permite que um pipeline de NLP padrão seja significativamente aprimorado sem exigir custos de fusão multimodal de médio ou alto nível. O LayoutQT divide a imagem de documento em quadrantes e associa a cada quadrante um token. Na extração de blocos de texto, são inseridos os tokens relativo às posições de início e fim dos blocos de texto. Além disso, foram inseridos tokens relativos às posições centrais de texto. Para avaliar nosso método, nós realizamos experimentos utilizando as redes neurais LSTM e AWD-LSTM em três bases de dados (Tobacco800, RVL-CDIP e VICTOR) disponíveis publicamente, sendo uma para tarefas de segmentação de fluxo de páginas e as outras duas para classificação de imagens de documentos. A base de dados Tobacco800, possui 1.290 imagens de documentos dividida em duas classes (FirstPage e NextPage), utilizada para classificar se a imagem é a primeira página de um documento ou se é uma página de continuidade. RVL-CDIP contém 400.000 imagens de documentos divididos em 16 classes e é utilizada para classificação de documentos. VICTOR é uma base de dados mais robusta contendo 692.966 documentos de processos judiciais do Supremo Tribunal Federal (STF) do Brasil compreendendo 4.603.784 páginas dividida em 6 classes. Essa base de dados faz parte de um projeto com mesmo nome, resultado da parceria entre a UnB, STF e a Finatec Como baseline realizamos os mesmos experimentos sem os tokens de posição. Inicialmente nós escolhemos empiricamente dividir os documentos em 24 quadrantes, sendo 6 linhas por 4 colunas. Em seguida nós alteramos os parâmetros como valores de quadrantes, inserção/exclusão de tokens posicionais e realizamos vários experimentos com números de quadrantes diferentes, menos e mais do que 24. No entanto, os melhores resultados foram obtidos com os 24 quadrantes. Para segmentação de fluxo de páginas de documentos, o método LayoutQT combinando recursos de texto e layout obteve os melhores resultados, obtendo pontuação F1 usando LSTM, AWD-LSTM e BERT modelo, respectivamente de 86,1%, 99,6% e 93,0%. Em contraste, o resultado da baseline obteve F1 de 82,9%, 97,9% e 92,0% no conjunto de dados Tobacco-800. Para classificar documentos no conjunto de dados RVL-CDIP, nossa abordagem proposta também demonstrou desempenho superior, resultando em uma vantagem de 5,5% e 4,4% na métrica de pontuação F1 em comparação com a baseline usando os modelos AWD-LSTM e BERT, respectivamente. Além disso, o resultado da nossa abordagem obtido com o modelo AWD-LSTM foi 1,4% melhor do que com BERT. Por fim, o desempenho do nosso LayoutQT supera o estado da arte proposto por Luz et al. (2022) no conjunto de dados VICTOR para classificação de imagens de documentos, comprovando a eficácia do nosso modelo.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Visual and textual feature fusion for document analysis	pt_BR
dc.title.alternative	Fusão de informações visuais e textuais para análise de documentos	pt_BR
dc.type	Tese	pt_BR
dc.subject.keyword	Visão computacional	pt_BR
dc.subject.keyword	Processamento de linguagem natural (Computação)	pt_BR
dc.subject.keyword	Classificação de imagens	pt_BR
dc.subject.keyword	Classificação de documentos	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	The large volume of documents produced daily in all sectors, such as industry, commerce, and government agencies, has increased the amount of research aimed at automating the process of reading, understanding, and analyzing. Business documents can be born digital, as electronic files, or a digitized form that comes from writing or printed on paper. In addition, these documents often come in various layouts and formats. They can be organized differently, from plain text multi-column layouts and various tables/forms/figures. In many documents, the spatial relationship of text blocks usually contains important semantic information for downstream tasks. The relative position of text blocks plays a crucial role in document understanding. However, embedding layout information in the representation of a page instance is not trivial. In the last decade, Computer Vision (CV) and Natural Language Processing (NLP) pre-training techniques have been advancing in extracting content from document images considering visual, textual, and layout features. Deep learning methods, especially the pre-training technique, represented by the Transformer architecture, have become a new paradigm for solving various downstream tasks. However, a major drawback of such pre-trained models is that they require a high computational cost. Unlike these models, we propose LayoutQT, a simple rule-based spatial layout encoding method, which combines textual and spatial information from text blocks. Given that our focus is on developing a low computational cost solution, we performed the experiments with AWD-LSTM neural network. We show that this enables a standard NLP pipeline to be significantly enhanced without requiring expensive mid or high-level multimodal fusion. We evaluated our method on three datasets (Tobacco800, RVL-CDIP, and VICTOR) for page stream segmentation tasks and document image classification and identified an improvement in the results obtained about the baseline. For document page stream segmentation, the LayoutQT method combining text and layout features was evaluated with the following backbones: LSTM, AWD-LSTM, and BERT, leading to the F1 scores of 86.1%, 99.6% and 93.0%, respectively on the Tobacco-800 dataset. In contrast, the baseline results were F1 82.9%, 97.9% and 92.0%. For classifying documents on the RVL-CDIP dataset, our proposed approach also demonstrated superior performance, resulting in an advantage of 5.5% and 4.4% in the F1 score metric compared to the baseline using AWD-LSTM and BERT models, respectively. Furthermore, the result of our approach obtained with the AWD-LSTM model was 1.4% better than that with BERT. Finally, the performance of our LayoutQT surpasses the stateof-the-art proposed by Luz et al. (2022) on the VICTOR dataset for document image classification, proving the effectiveness of our model.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado