Domain-specific datasets for document classification and named entity recognition

Araujo, Pedro Henrique Luz de

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/42415

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2021_PedroHenriqueLuzdeAraujo.pdf		8,45 MB	Adobe PDF	Visualizar/Abrir

Título:	Domain-specific datasets for document classification and named entity recognition
Outros títulos:	Conjuntos de dados de domínio específico para classificação de documento e reconhecimento de entidade nomeada
Autor(es):	Araujo, Pedro Henrique Luz de
Orientador(es):	Campos, Teófilo Emídio de
Assunto:	Processamento de linguagem natural Processamento da língua portuguesa Classificação de texto Modelos de tópicos Reconhecimento de entidade nomeada Classificação multi-modal Transferência de aprendizado
Data de publicação:	22-Nov-2021
Data de defesa:	29-Jul-2021
Referência:	ARAÚJO, Pedro Henrique Luz de. Domain-specific datasets for document classification and named entity recognition. 2021. 123 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2021.
Resumo:	Todos os dias uma quantidade massiva de dados é produzida—grande parte em textos de variados domínios (posts de redes sociais, livros, notícias, relatórios oficiais, proces- sos jurídicos). Dessa rica fonte de informação pode-se obter conhecimento utilizável. No entanto, sua natureza não-estruturada exige processamento para se obter insights e co- nhecimento estruturado. O processamento de linguagem natural (PLN) progrediu muito na última década, mas modelos atuais precisam de muitos exemplos anotados e tendem a não generalizar além dos dados e domínio de treinamento. Embora abordagens de transferência de aprendizado recentes tenham mitigado isso, conjuntos de dados rotulados de domínio específico ainda são necessários para ajuste fino de modelos pré-treinados e para avaliação. Nesse trabalho, propomos três bases de dado de domínio específico com anotação para duas tarefas de PLN: classificação de documento e reconhecimento de entidade nomeada (REN). Para estabelecer uma base de comparação para trabalhos futuros nos domínios de textos jurídicos e da administração pública, para cada conjunto de dados treinamos, avaliamos e comparamos diferentes modelos. Sistemas de REN têm o potencial de extrair conhecimento de documentos jurídicos e obter insumos que podem melhorar a recuperação de informações e subsidiar tomadas de decisão. Com isso em vista, o primeiro conjunto de dados que apresentamos, o LeNER- Br, trata da tarefa de REN em textos jurídicos brasileiros. Diferentemente de outros conjuntos de dados de textos em português, o LeNER-Br é composto inteiramente de textos jurídicos, mais específicamente, acórdãos, instrumentos normativos e leis. Além de rótulos para entidades genéricas (pessoa, local, organização e tempo), o conjunto de dados conta com anotações para entidades específicas do domínio: legislação e jurisprudência. Para estabelecer resultados de classificação como base para comparações com trabalhos futuros, usamos uma arquitetura biLSTM-CRF para treinar um modelos nos dados e avaliar os resultados. Primeiramente, para testar a viabilidade do método em textos em português, realizamos experimentos na base de REN Paramopama, atingindo resultados v que superaram o estado da arte. Feito isso, retreinamos o modelos no LeNER-Br, onde obtivemos escores F1 de 97,04 e 88,82 para classificação de token de legislação e jurispru- dência, respectivamente, e escores de 94,06 e 81,98 quando somente a identificação exata da entidade é considerada correta. Nosso segundo conjunto de dados é o VICTOR, composto por documentos digitaliza- dos do Supremo Tribunal Federal (STF). A base reúne mais de 40 mil recursos extraor- dinários, totalizando cerca de 692 mil documentos, ou 4,6 milhões de páginas. Os dados contêm anotações para duas tarefas: classificação de tipo de documento e identificação de tema de repercussão geral. A primeira trata de classificação por página, em que cada uma pode pertencer a seis classes disjuntas; a segunda trata de classificação por processo e é multi-rótulo: cada processo pode ter mais de um tema de repercussão geral. Para gerar resultados como referência para trabalhos futuros, treinamos uma série de mode- los nos dados: modelos de saco-de-palavras, redes neurais convolucionais e recorrentes e gradient boosted trees. Também avaliamos a possibilidade de aproveitar a natureza se- quencial dos dados para melhorar os resultados de classificação de tipo de documento; para tanto, treinamos um campo aleatório condicional de cadeias lineares nas predições de uma rede convolucional treinada nos dados, método que trouxe melhorias. Finalmente, comparamos um modelo de identificação de tema que utiliza conhecimento específico do domínio para filtrar páginas menos informativas com um modelo regular que utiliza todas as páginas. Ao contrário das expectativas dos especialistas da Corte, constatou-se que é melhor utilizar todas as páginas. Ainda em relação ao conjunto VICTOR, utilizamos alocação latente de Dirichlet para modelar os recursos extraordinários como uma possível medida pra auxiliar na organização dos casos do STF. Avaliamos a qualidade dos tópicos obtidos de duas maneiras: qualita- tivamente, a partir da análise das palavras mais relevantes de cada tópico, e quantitativa- mente, utilizando os vetores de distribuição de tópico como entrada para um classificador de tema de repercussão geral. Inicialmente treinamos modelos de 10 e 30 tópicos para a avaliação qualitativa, ocasião em que identificamos que os tópicos encontrados guardavam relação com matérias de direito. Ficou evidenciado, ainda, a existência de uma tensão entre granularidade e qualidade de tópicos: o modelo de 30 tópicos era capaz de detectar tópicos mais específicos, mas também gerava tópicos que misturavam assuntos distintos. Para a avaliação quantitativa, treinamos modelos adicionais com 100, 300 e 1.000 tópi- cos, que utilizamos como vetores de características para treinar o classificador de temas. Ao se comparar os resultados obtidos com aqueles resultantes de técnicas de represen- tação de texto tradicionais (saco-de-palavras com contagem de palavras e valores tf-idf), verificou-se que os tópicos, embora não superassem as técnicas tradicionais, conseguiam resultados de classificação aceitáveis, fortalecendo a hipótese de que os tópicos encontra- vi dos são relevantes para a administração dos processos. O modelo com 300 tópicos atingiu a melhor performance, conseguindo resultados bons com representações interpretáveis de baixa dimensão. Como último trabalho na base VICTOR, realizamos um estudo com o objetivo de aproveitar as informações visuais dos documentos para melhorar a classificação de tipo de documento. Para tanto, estendemos a versão pequena do VICTOR para incluir as imagens das páginas, guardadas em formato JPEG. Além disso, retomamos a exploração da modelagem sequencial das páginas como fonte de melhoria de resultados de classifi- cação. Primeiramente, treinamos modelos unimodais de classificação de texto e imagem de maneira independente. Como classificador de imagem, utilizamos um modelo ResNet pré-treinado na base ImageNet e fizemos seu ajuste-fino nas imagens do VICTOR. Como classificador de texto, treinamos uma rede neural convolucional com filtros de tamanhos diferentes nos textos do VICTOR. Uma vez treinados os modelos, usamo-los como ex- tratores de características visuais e textuais, as quais são combinadas por um Módulo de Fusão. Tal módulo consegue lidar com modalidades de entrada faltantes por meio de em- beddings aprendíveis. As métricas de classificação obtidas pelo modelo de fusão superaram aquelas dos modelos unimodais. Para extração de informações sequenciais, realizamos ex- perimentos com redes biLSTM e campos aleatórios condicionais de cadeias lineares. Os modelos multimodais sequenciais superaram aqueles sem informação de sequência, sendo que o melhor método realizava conjuntamente o aprendizado sequencial e de fusão de informações visuais e textuais. Finalmente, propomos um conjunto de dados composto por textos do Diário Oficial do Distrito Federal. A motivação de dá por conta de os diários oficiais serem uma rica fonte de informações relevantes para a sociedade—um exame cuidadoso desse tipo de documento pode acarretar a detecção de fraudes e irregularidades e prevenir o mau uso de recursos públicos. Os dados contém tantos textos com anotação de órgão público de origem quanto textos não rotulados. Treinamos, avaliamos e comparamos um modelo estado-da-arte que usa transferência de aprendizado, o ULMFiT, com modelos tradicionais de saco-de- palavras usando Naïve Bayes e SVM como classificadores. O modelo tradicional treinado com SVM mostrou-se competitivo: superou o ULMFiT na métrica de escore F1 médio, apresentando escore F1 ponderado e acurácia ligeiramente abaixo aos de seu oponente. Além disso, seu treino e inferência são bem mais rápidos que os do ULMFiT, por conta do menor custo computacional. Os trabalhos descritos resultaram nas seguintes publicações: • Luz de Araujo, P. H. et al. LeNER-Br: a Dataset for Named Entity Recognition in Brazilian Legal Text [87]. vii • Luz de Araujo, P. H. et al. VICTOR: a dataset for Brazilian legal documents classification. [86] • Luz de Araujo, P. H. et al. Topic Modelling Brazilian Supreme Court Lawsuits [85]. • Luz de Araujo, P. H. et al. Inferring the source of official texts: can SVM beat ULMFiT? [88]. Além das principais contribuições deste trabalho—os conjuntos de dado—inferimos de nossos experimentos as seguintes conclusões, as quais consideramos contribuições empíri- cas: • Um modelo biLSTM-CRF treinado no dados do LeNER-Br é capaz de reconhecer entidades específicas do domínio jurídico com um grau de acerto equivalente ao do reconhecimentos de entidades genéricas sem necessidade de pré-processamento específico ou engenharia de características. • Modelos de saco-de-palavras podem atingir resultados de classificação competitivos com os de modelo de aprendizado profundo, especialmente em cenários com menor abundância de dados, como nos casos do Small VICTOR e dos documentos do Diário Oficial do DF. • Tópicos detectados pelo algoritmo de alocação latente de Dirichlet podem ser usados como um ponto de partida para auxiliar a administração de casos do STF. • Os resultados de classificação de tipo de documento do STF melhorou com cada modalidade de entrada adicional. Treinamos modelos com o objetivo de servir de base de apoio para trabalhos futuros. Dado isso e nossos recursos computacionais limitados, não realizamos buscas extensivas por melhores hiper-parâmetros ao treinar redes neurais. Outra limitação do nosso trabalho é o fato de que nossas anotações não contam com métricas de medidas de concordância entre anotadores. Isso se deu por conta de limitações de recursos humanos, de modo que cada documento não foi anotado por mais de uma pessoa. Nos casos dos documentos do LeNER-BR e do Diário Oficial do DF, buscou-se reforçar a correição e consistência da anotação por meio da cuidadosa revisão de todas as anotações. No caso do STF, uma vez que as anotações foram realizadas por servidores do STF durante a execução do fluxo ordinário de trabalho da Corte, não estamos ciente dos detalhes do processo de anotação. Como trabalho futuros, sugerimos rodar experimentos adicionais com busca abran- gente de hiper-parâmetros para verificar modelos de aprendizado profundo podem alcan- çar melhorias que justifiquem seu alto custo computacional. Seria igualmente interessante o treino ponta-a-ponta do método de aprendizado sequencial multi-modal que propusemos viii para os documentos do VICTOR. Por fim, esperamos que nossos dados sejam usados em trabalhos futuros de transferência de aprendizado, adaptação e generalização de domínio e aprendizado multilíngue.
Abstract:	Every day a massive amount of data is produced—a significant part of it in natural language text ranging from various domains (social media posts, books, news, official reports, legal proceedings). This rich source of information can produce usable knowledge. The challenge is that natural language texts are unstructured: processing is required to obtain insight and structured knowledge from the data. Though natural language processing (NLP) has seen a great deal of progress in the last decade, current models require a large number of annotated examples and tend to not generalise beyond training data and domain. Recent transfer learning approaches can mitigate those needs, but specific-domain labelled datasets are still needed to fine-tune pre-trained models and for evaluation. In this work, we propose three domain-specific datasets with annotated data for two NLP tasks: document classification and named entity recognition (NER). To establish a benchmark for future work on the legal and public administration domains, for each dataset we train, evaluate and compare different models. First, we propose a dataset for NER in legal documents with domain specific entities and train a biLSTM-CRF model on the data. Next, we propose a dataset of documents from Brazil’s Supreme Court annotated with labels for two classification tasks; we train and compare shallow, deep and multimodal models trained on the data with and with- out sequence modelling; and evaluate topics inferred through latent Dirichlet allocation. Finally, we propose a dataset of official gazette texts with labelled and unlabelled data and compare traditional bag-of-words models trained with linear classifiers with a state- of-the-art transfer learning method (ULMFiT).
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas