Campo DC | Valor | Lengua/Idioma |
dc.contributor.advisor | Ladeira, Marcelo | - |
dc.contributor.author | Pedroso, Daniel de Souza Costa | - |
dc.date.accessioned | 2019-07-17T19:13:14Z | - |
dc.date.available | 2019-07-17T19:13:14Z | - |
dc.date.issued | 2019-07-17 | - |
dc.date.submitted | 2018-12-14 | - |
dc.identifier.citation | PEDROSO, Daniel de Souza Costa. Identificação automática de casos repetitivos no MPDFT. 2018. xvi, 125 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2018. | pt_BR |
dc.identifier.uri | http://repositorio.unb.br/handle/10482/35083 | - |
dc.description | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018. | pt_BR |
dc.description.abstract | O Ministério Público do Distrito Federal e Territórios (MPDFT) aprecia um volume de
casos da ordem de 200 mil novos feitos anualmente. Entre os casos apreciados é notável
a ocorrência de casos semelhantes ou repetitivos. O tratamento destes casos pode ser
mais célere se os casos semelhantes puderem ser encontrados rapidamente para servirem
como embasamento para o caso em tratamento. Até então, o problema é abordado de
modo descentralizado entre as diversas equipes de trabalho do órgão. Este trabalho tem
o objetivo de avaliar o uso de técnicas de recuperação de informações para viabilizar a
identificação automatizada de casos semelhantes. Como prova de conceito, as técnicas
de indexação sintática (TF-IDF e BM25) e semântica (Latent Semantic Indexing - LSI e
Latent Dirichlet Allocation - LDA) foram avaliadas com o uso de bases de documentos
de duas áreas do MPDFT: Procuradorias de Justiça Criminal e Procuradorias de Justiça
Criminal Especializada. Além disso, avaliamos o enriquecimento dos modelos obtidos com
o uso dos dados cadastrais acumulados acerca dos casos, e também com as citações às
normas jurídicas observadas nos documentos. Os modelos foram avaliados com o uso de
bases de referência produzidas a partir de amostras extraídas das bases de documentos
das Procuradorias de Justiça Criminal e Criminal Especializada. A métrica utilizada
para medir a performance dos modelos foi a Normalized Discounted Cumulated Gain -
NDCG. Ao final dos experimentos, concluímos que, no âmbito das bases de documentos
analisadas, não houve diferença significativa de performance entre as técnicas de indexação
semântica e sintática. Além disso, não foi verificado ganho de performance significativo
com o enriquecimento dos modelos. Considerando isto, elegemos a técnica BM25 como
mais adequada por ter bom equilíbrio entre performance e simplicidade. | pt_BR |
dc.language.iso | Português | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Identificação automática de casos repetitivos no MPDFT | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Ministério Público do Distrito Federal e Territórios (MPDFT) | pt_BR |
dc.subject.keyword | Recuperação da informação | pt_BR |
dc.subject.keyword | Mineração de dados (Computação) | pt_BR |
dc.subject.keyword | Documentos jurídicos | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.contributor.advisorco | Faleiros, Thiago de Paulo | - |
dc.description.abstract1 | The Public Ministry of the Federal District and Territories (MPDFT) appreciates a volume
of 200,000 new cases annually. Among these cases, the occurrence of similar or
repetitive cases is remarkable. The response for these cases may be improved if similar
cases can be found quickly to serve as a basement or template for the case under
treatment. Nowadays, this problem is addressed in a decentralized way among the various
corporate teams, and it may be improved. This work aims to evaluate the use of
information retrieval techniques to enable the automated identification of similar cases.
As a proof of concept, syntactic indexing (TF-IDF and BM25) and semantic indexing
(Latent Semantic Indexing - LSI and Latent Dirichlet Allocation - LDA) techniques were
evaluated using document collections from two public prosecutor’s offices. In addition,
we evaluated model enrichment with the use of recorded data about the cases, and also
with the legal norm citations observed in documents. The models were evaluated using
baseline document collections sampled from full document collection from two public
prosecutor’s offices. The metric used to measure the performance of the models was the
Normalized Discounted Cumulated Gain - NDCG. We concluded that, considering the
document bases used, there was no significant performance difference between semantic
and syntactic indexing techniques. In addition, we observe no significant performance
gain with model enrichment. So, we have chosen the BM25 technique as more adequate
because it has a good balance between performance and simplicity. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional | pt_BR |
Aparece en las colecciones: | Teses, dissertações e produtos pós-doutorado
|