Skip navigation
Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/48841
Files in This Item:
File Description SizeFormat 
LucasJoseGoncalvesFreitas_DISSERT.pdf4,48 MBAdobe PDFView/Open
Title: Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados
Authors: Freitas, Lucas Jose Gonçalves
Orientador(es):: Rodriques, Thaís Carvalho Valadares
Assunto:: Agenda 2030
Aprendizagem de máquina
Issue Date: 13-Jul-2024
Citation: FREITAS, Lucas Jose Gonçalves. Clusterização de textos aplicada ao tratamento de dados jurídicos desbalanceados. 2023. 96 f., il. Dissertação (Mestrado em Estatística) - Universidade de Brasília, Brasília, 2023.
Abstract: O Supremo Tribunal Federal (STF), instância máxima do sistema judiciário brasileiro, produz, assim como tribunais de outras instâncias, imensa quantidade de dados organizados em forma de texto, por meio de decisões, petições, liminares, recursos e outros documentos legais. Tais documentos são classificados e agrupados por servidores públicos especializados em autuação e catalogação de processos judiciais, que em casos específicos usam ferramentas tecnológicas de apoio. Alguns processos que chegam ao STF, por exemplo, são classificados em um ou mais objetivos de desenvolvimento sustentável (ODS) da Agenda 2030 da Organização das Nações Unidas (ONU). Como se trata de uma tarefa repetitiva e relacionada à detecção de padrões, é possível desenvolver ferramentas baseadas em aprendizagem de máquina para tal finalidade. Neste trabalho, são propostos modelos de Processamento de Linguagem Natural (NLP) para agrupamento de processos, com objetivo de aumentar a base de dados em determinados objetivos de desenvolvimento sustentável (ODS) com poucas entradas naturalmente. A atividade de clusterização ou agrupamento, que tem enorme importância por si só, também é capaz de reunir entradas sem etiqueta em torno de processos já classificados por funcionários do tribunal, permitindo, assim, que novas etiquetas sejam alocadas em processos similares. Os resultados obtidos mostram que os conjuntos aumentados por clusterização podem ser utilizados em fluxos de aprendizagem supervisionada para auxílio na classificação processual, especialmente em contextos com dados desbalanceados.
Abstract: The Federal Supreme Court (STF), the highest instance of the Brazilian judicial system, produces, as well as courts of other instances, an immense amount of data organized in text form, through decisions, petitions, injunctions, appeals and other legal documents. Such do cuments are classified and grouped by public employees specialized in cataloging of judicial processes, which in specific cases use technological support tools. Some processes in the STF, for example, are classified under one or more sustainable development goals (SDGs) of the United Nations (UN) 2030 Agenda. As it is a repetitive task related to pattern recognition, it is possible to develop tools based on machine learning for this purpose. In this work, Natural Language Processing (NLP) models are proposed for clustering processes, in order to increase the database on certain sustainable development goals (SDGs) with few inputs naturally. The activity of clustering, which is of enormous importance in its own right, is also able to gather unlabeled entries around cases already classified by court officials, thus allowing new labels to be allocated to similar cases. The results of the work show that cluster-augmented sets can be used in supervised learning flows to aid in the classification of legal texts, especially in contexts with unbalanced data.
metadata.dc.description.unidade: Instituto de Ciências Exatas (IE)
Departamento de Estatística (IE EST)
Description: Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2023.
metadata.dc.description.ppg: Programa de Pós-Graduação em Estatística
Appears in Collections:Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/48841/statistics">



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.