http://repositorio.unb.br/handle/10482/47825
Arquivo | Tamanho | Formato | |
---|---|---|---|
WagnerMirandaCosta_DISSERT.pdf | 5,32 MB | Adobe PDF | Visualizar/Abrir |
Título: | Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU |
Autor(es): | Costa, Wagner Miranda |
Orientador(es): | Pedrosa, Glauco Vitor |
Assunto: | Processamento de linguagem natural (Computação) Recuperação da informação Representação vetorial de documentos Jurisprudência Word EmbeddingsTribunal de Contas da União (TCU) |
Data de publicação: | 21-Fev-2024 |
Data de defesa: | 21-Dez-2023 |
Referência: | COSTA, Wagner Miranda. Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU. 2023. xiv, 55 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023. |
Resumo: | Jurisprudência se refere ao conjunto de decisões reiteradas sobre determinado assunto, constituindo uma espécie de precedente judicial. No âmbito do Tribunal de Contas da União (TCU), órgão responsável por exercer o controle externo da Administração Pública Federal, a jurisprudência representa as interpretações consolidadas das normas aplicáveis à fiscalização financeira e operacional das contas públicas dos órgãos e entidades da União. Uma vez que a elaboração da jurisprudência é definida a partir de um agrupamento de acórdãos similares, é relevante desenvolver ferramentas automatizadas que auxiliem os especialistas responsáveis por esta atividade. Porém, essa é uma tarefa desafiadora para a área da computação, devido às especificidades do vocabulário presente nos textos dos acórdãos e ao volume massivo de dados a serem processados. Sendo assim, é necessário desenvolver abordagens escaláveis, eficazes e eficientes, e que possuam baixo custo computacional. Este trabalho apresenta o estudo e implementação de algumas abordagens para a representação desses documentos textuais, tanto em nível de palavra quanto em nível de conceito. Como contribuição, foi proposta uma nova abordagem denominada BoC-Th (Bag of Concepts with Thesaurus), que gera histogramas ponderados de conceitos definidos a partir da distância das palavras do documento ao seu respectivo termo similar dentro de um tesauro. Esta abordagem permite enfatizar palavras com maior significado no contexto, gerando, assim, vetores mais discriminativos. Realizaram-se avaliações experimentais comparando a abordagem proposta com as abordagens tradicionais para representação de documentos. O método proposto obteve resultados superiores entre as técnicas avaliadas para recuperação de documentos jurisprudenciais. O BoC-Th aumentou a precisão média em comparação às abordagens tradicionais, incluindo a versão original BoC (Bag of Concepts), ao mesmo tempo que foi mais rápido que as representações tradicionais BoW, BM25 e TF-IDF. A abordagem proposta contribuiu para enriquecer uma área com características peculiares, fornecendo um recurso para recuperação de informações textuais de forma mais precisa e rápida do que outras técnicas baseadas em processamento de linguagem natural. |
Abstract: | Jurisprudence refers to the set of repeated decisions on a given subject, constituting a type of judicial precedent. Within the scope of the Federal Audit Court (TCU), the body responsible for exercising external control of the Federal Public Administration, jurisprudence represents the consolidated interpretations of the rules applicable to the financial and operational supervision of the public accounts of the Union’s bodies and entities. Since the elaboration of jurisprudence is defined based on a grouping of similar rulings, it is important to develop automated tools that assist the specialists responsible for this activity. However, this is a challenging task for the area of computing, due to the specificities of the vocabulary present in the texts of the rulings and the massive volume of data to be processed. Therefore, it is necessary to develop scalable, effective and efficient approaches that have low computational cost. This work presents the study and implementation of some approaches for representing these textual documents, both at the word level and at the concept level. As a contribution, a new approach called BoC-Th (Bag of Concepts with Thesaurus) was proposed, which generates weighted histograms of concepts defined based on the distance of the words in the document to their respective similar term within a thesaurus. This approach allows us to emphasize words with greater meaning in the context, thus generating more discriminative vectors. Experimental evaluations were carried out comparing the proposed approach with traditional approaches for document representation. The proposed method obtained superior results among the techniques evaluated for recovering jurisprudential documents. BoC-Th increased average accuracy compared to traditional approaches, including the original BoC (Bag of Concepts), while also being faster than traditional BoW, BM25, and TF-IDF representations. The proposed approach contributed to enriching an area with peculiar characteristics, providing a resource for retrieving textual information more accurately and quickly than other techniques based on natural language processing. |
Unidade Acadêmica: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Informações adicionais: | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. |
Programa de pós-graduação: | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Agência financiadora: | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.