Campo DC | Valor | Idioma |
dc.contributor.advisor | Campos, Teófilo Emídio de | pt_BR |
dc.contributor.author | Drumond, Patrícia Medyna Lauritzen de Lucena | pt_BR |
dc.date.accessioned | 2024-08-13T21:09:19Z | - |
dc.date.available | 2024-08-13T21:09:19Z | - |
dc.date.issued | 2024-08-13 | - |
dc.date.submitted | 2024-01-18 | - |
dc.identifier.citation | DRUMOND, Patricia Medyna Lauritzen de Lucena. Fusão de informações visuais e textuais para análise de documentos. 2024. 55 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/49829 | - |
dc.description | Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024. | pt_BR |
dc.description.abstract | Diariamente é produzido um grande volume de documentos nas organizações industriais, comerciais, governamentais, entre outras. Além disso, com o mercado competitivo
na internet, as transações de negócios têm crescido numa velocidade imensa. Esses fatos aumentam cada vez mais a necessidade da automação e extração de informações de
documentos. Os documentos podem ter sido originados digitalmente como um arquivo
eletrônico ou podem ser uma cópia digitalizada de documento impresso em papel. Esses
documentos, geralmente, são ricos de informações visuais e podem estar organizados de
diferentes maneiras, desde páginas simples contendo apenas texto, até páginas com layouts
de várias colunas de texto e uma ampla variedade de elementos não textuais como figuras
e tabelas. Para análise e classificação desses documentos a extração de informações baseadas somente em blocos de texto ou em características visuais nem sempre é eficaz. Em
geral, a relação espacial desses elementos e blocos de texto contém informações semânticas
cruciais para compreensão de documentos.
O processo de automação da análise e extração de informações de documentos é desafiador devido aos vários formatos e layouts dos documentos de negócios, e tem atraído
a atenção em áreas de pesquisa como Visão Computacional (CV) e Processamento de
Linguagem Natural (NLP). Document Intelligence é um termo recente utilizado para
aplicações da Inteligência Artificial que envolve a automatização de leitura, compreensão e análise de documentos visualmente ricos de informação. O primeiro workshop de
Document Intelligence (DI’2019) foi realizado no dia 14 de dezembro de 2019 na Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS) em Vancouver, Canadá. Essas aplicações, também conhecidas como Document AI, são geralmente
desenvolvidas para resolver tarefas como análise de layout de documentos, extração de informações visuais, resposta-pergunta visuais de documento e classificação de imagem de
documentos, etc.
Na última década, várias abordagens multimodais unindo técnicas de CV e NLP vêm
avançando em tarefas de compreensão de documentos, como por exemplo, análise de
layout, segmentação de páginas e classificação de imagens de documentos considerando
a junção de pelo menos duas das modalidades de recursos: visuais, textuais e de layout.
Existem algumas abordagens que foram propostas para lidar com layouts nas imagens
do documento. As abordagens tradicionais baseadas em regras (top-down, bottom-up
e híbridas) e as abordagens baseadas em Machine Learning e Deep Learning. No entanto, o surgimento da abordagem Deep Learning, principalmente com as técnicas de
pré-treinamento, utilizando Redes Neurais Convolucionais e Arquitetura Transformer tem
avançado em pesquisa reduzindo o número de pesquisas com abordagens tradicionais.
A tecnologia de Deep Learning usada em Document Intelligence envolve a extração de
informações de diferentes tipos de documentos através de ferramentas de extração, como
OCR, extração de HTML/XML e PDF. As informações de texto, layout e visuais depois
de extraídas são pre-treinadas em redes neurais para realizar as tarefas downstream. O
modelo de linguagem BERT (Bidirectional Encoder Representations from Transformers)
tem sido usado como backbone para outros modelos de pre-treinamento combinando recursos visuais e textuais para tarefas downstream. Apesar do excelente desempenho dos
modelos Transformer existem vários desafios associados à sua aplicabilidade para configurações prática. Os gargalos mais importantes incluem requisitos para grandes quantidades
de dados de treinamento e altos custos computacionais associados.
Ao contrário desses modelos, nós propomos um método de codificação de layout espacial simples e tradicional baseado em regras, LayoutQT, que combina informações textuais
e espaciais de blocos de texto. Nós mostramos que isso permite que um pipeline de NLP
padrão seja significativamente aprimorado sem exigir custos de fusão multimodal de médio
ou alto nível. O LayoutQT divide a imagem de documento em quadrantes e associa a cada
quadrante um token. Na extração de blocos de texto, são inseridos os tokens relativo às
posições de início e fim dos blocos de texto. Além disso, foram inseridos tokens relativos
às posições centrais de texto. Para avaliar nosso método, nós realizamos experimentos
utilizando as redes neurais LSTM e AWD-LSTM em três bases de dados (Tobacco800,
RVL-CDIP e VICTOR) disponíveis publicamente, sendo uma para tarefas de segmentação de fluxo de páginas e as outras duas para classificação de imagens de documentos. A
base de dados Tobacco800, possui 1.290 imagens de documentos dividida em duas classes
(FirstPage e NextPage), utilizada para classificar se a imagem é a primeira página de
um documento ou se é uma página de continuidade. RVL-CDIP contém 400.000 imagens
de documentos divididos em 16 classes e é utilizada para classificação de documentos. VICTOR é uma base de dados mais robusta contendo 692.966 documentos de processos
judiciais do Supremo Tribunal Federal (STF) do Brasil compreendendo 4.603.784 páginas
dividida em 6 classes. Essa base de dados faz parte de um projeto com mesmo nome,
resultado da parceria entre a UnB, STF e a Finatec Como baseline realizamos os mesmos
experimentos sem os tokens de posição.
Inicialmente nós escolhemos empiricamente dividir os documentos em 24 quadrantes,
sendo 6 linhas por 4 colunas. Em seguida nós alteramos os parâmetros como valores
de quadrantes, inserção/exclusão de tokens posicionais e realizamos vários experimentos
com números de quadrantes diferentes, menos e mais do que 24. No entanto, os melhores
resultados foram obtidos com os 24 quadrantes. Para segmentação de fluxo de páginas
de documentos, o método LayoutQT combinando recursos de texto e layout obteve os
melhores resultados, obtendo pontuação F1 usando LSTM, AWD-LSTM e BERT modelo, respectivamente de 86,1%, 99,6% e 93,0%. Em contraste, o resultado da baseline
obteve F1 de 82,9%, 97,9% e 92,0% no conjunto de dados Tobacco-800. Para classificar documentos no conjunto de dados RVL-CDIP, nossa abordagem proposta também
demonstrou desempenho superior, resultando em uma vantagem de 5,5% e 4,4% na métrica de pontuação F1 em comparação com a baseline usando os modelos AWD-LSTM
e BERT, respectivamente. Além disso, o resultado da nossa abordagem obtido com o
modelo AWD-LSTM foi 1,4% melhor do que com BERT. Por fim, o desempenho do nosso
LayoutQT supera o estado da arte proposto por Luz et al. (2022) no conjunto de dados
VICTOR para classificação de imagens de documentos, comprovando a eficácia do nosso
modelo. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Visual and textual feature fusion for document analysis | pt_BR |
dc.title.alternative | Fusão de informações visuais e textuais para análise de documentos | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | Visão computacional | pt_BR |
dc.subject.keyword | Processamento de linguagem natural (Computação) | pt_BR |
dc.subject.keyword | Classificação de imagens | pt_BR |
dc.subject.keyword | Classificação de documentos | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The large volume of documents produced daily in all sectors, such as industry, commerce,
and government agencies, has increased the amount of research aimed at automating the
process of reading, understanding, and analyzing. Business documents can be born digital, as electronic files, or a digitized form that comes from writing or printed on paper. In
addition, these documents often come in various layouts and formats. They can be organized differently, from plain text multi-column layouts and various tables/forms/figures.
In many documents, the spatial relationship of text blocks usually contains important
semantic information for downstream tasks. The relative position of text blocks plays a
crucial role in document understanding. However, embedding layout information in the
representation of a page instance is not trivial. In the last decade, Computer Vision (CV)
and Natural Language Processing (NLP) pre-training techniques have been advancing
in extracting content from document images considering visual, textual, and layout features. Deep learning methods, especially the pre-training technique, represented by the
Transformer architecture, have become a new paradigm for solving various downstream
tasks. However, a major drawback of such pre-trained models is that they require a high
computational cost. Unlike these models, we propose LayoutQT, a simple rule-based
spatial layout encoding method, which combines textual and spatial information from
text blocks. Given that our focus is on developing a low computational cost solution, we
performed the experiments with AWD-LSTM neural network. We show that this enables
a standard NLP pipeline to be significantly enhanced without requiring expensive mid or
high-level multimodal fusion. We evaluated our method on three datasets (Tobacco800,
RVL-CDIP, and VICTOR) for page stream segmentation tasks and document image classification and identified an improvement in the results obtained about the baseline. For
document page stream segmentation, the LayoutQT method combining text and layout
features was evaluated with the following backbones: LSTM, AWD-LSTM, and BERT,
leading to the F1 scores of 86.1%, 99.6% and 93.0%, respectively on the Tobacco-800
dataset. In contrast, the baseline results were F1 82.9%, 97.9% and 92.0%. For classifying documents on the RVL-CDIP dataset, our proposed approach also demonstrated
superior performance, resulting in an advantage of 5.5% and 4.4% in the F1 score metric compared to the baseline using AWD-LSTM and BERT models, respectively. Furthermore, the result of our approach obtained with the AWD-LSTM model was 1.4% better
than that with BERT. Finally, the performance of our LayoutQT surpasses the stateof-the-art proposed by Luz et al. (2022) on the VICTOR dataset for document image
classification, proving the effectiveness of our model. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|