Avaliação de técnicas de similaridade textual na uniformização de jurisprudência

Gomes, Thiago Alencar

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Ladeira, Marcelo	-
dc.contributor.author	Gomes, Thiago Alencar	-
dc.date.accessioned	2021-05-04T02:56:31Z	-
dc.date.available	2021-05-04T02:56:31Z	-
dc.date.issued	2021-05-03	-
dc.date.submitted	2020-12-10	-
dc.identifier.citation	GOMES, Thiago Alencar. Avaliação de técnicas de similaridade textual na uniformização de jurisprudência. 2020. xv, 67 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2020.	pt_BR
dc.identifier.uri	https://repositorio.unb.br/handle/10482/40798	-
dc.description	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.	pt_BR
dc.description.abstract	A uniformização de jurisprudência é de extrema importância para a sociedade. Através dela é possível garantir maior celeridade processual e estabilidade jurídica à medida que novos casos são julgados com base na mesma tese jurídica de casos similares anteriores. Para garantir o efetivo acesso às teses, as bases textuais são indexadas em ferramentas de busca textual. Este estudo tem como contexto o Superior Tribunal de Justiça (STJ) que possui uma ferramenta legada de busca textual que fornece somente buscas baseadas em consultas booleanas com operadores lógicos e de proximidade complexos. Para facilitar a busca no corpus de decisões da Corte, a Secretária de Jurisprudência (SJR) fornece diversos produtos, como consultas pré-construídas para teses importantes e decisões agrupadas que possuem as mesmas teses. Assim, é possível acessar de forma otimizada a interpretação da legislação pelo STJ e acompanhar a sua evolução. O tempo dispendido na construção das consultas e no treinamento de servidores para utilização da ferramenta motiva este trabalho na avaliação da aplicação de outras técnicas de similaridade na recuperação de decisões. Como baseline utilizamos as consultas do sistema legado e comparamos com buscas a partir de textos, que descrevem as teses, escritos pelos servidores ou textos selecionados diretamente das decisões. Os resultados indicam que a utilização direta dos textos com modelos tradicionais TF-IDF e BM25 pode substituir as consultas do sistema legado. Os modelos semânticos baseados em predição Word2Vec e BERT não apresentaram ganhos em relação aos modelos clássicos.	pt_BR
dc.language.iso	Português	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Avaliação de técnicas de similaridade textual na uniformização de jurisprudência	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Mineração de texto	pt_BR
dc.subject.keyword	Linguagem natural - processamento	pt_BR
dc.subject.keyword	Recuperação da informação	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.contributor.advisorco	Faleiros, Thiago de Paulo	-
dc.description.abstract1	Jurisprudence is the set of all decisions of a judicial court and when they are organized efficiently they reflect the majority interpretation of the same court and thus consolidate an legal thesis used repeatedly. Hence, it is possible to guarantee faster judgments and legal stability as new cases are judged based on the same legal thesis as previous similar cases. This research investigates the use of text retrieval techniques on the Brazilian Superior Court of Justice decisions. The Court uses a legacy textual system that only provides complex Boolean queries. The training of new analysts on the tool takes between 2 and 3 months. This scenario motivates the research of other textual retrieval techniques that use text written in natural language as a queries. Through a historical base of legal theses descriptions written by the analysts, the decisions that those theses were extracted and the legacy system queries built to retrieve decisions with the same theses this work simulates two approaches. First, recovery of decisions after a user selects paragraphs with the legal opinion. Second, recovery of decisions after a user enters the legal opinion description in free text. The legacy system is used as baseline and compared with TF-IDF, BM25 retrieval models and prediction based semantic models Word2Vec and BERT. The results indicate that it is possible to replace the legacy system using classic and semantic textual retrieval using the decisions text as queries, with minimum intervention from the user.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado