http://repositorio.unb.br/handle/10482/42026
File | Description | Size | Format | |
---|---|---|---|---|
2021_MarcosCavalcantiLima.pdf | 17,24 MB | Adobe PDF | View/Open |
Title: | Deep Vacuity : detecção e classificação automática de padrões com risco de conluio em dados públicos de licitações de obras |
Authors: | Lima, Marcos Cavalcanti |
Orientador(es):: | Vidal, Flávio de Barros |
Assunto:: | Reconhecimento de padrões Processamento de linguagem natural (Computação) Obras públicas - licitações Licitação pública |
Issue Date: | 3-Sep-2021 |
Data de defesa:: | 31-May-2021 |
Citation: | LIMA, Marcos Cavalcanti. Deep Vacuity: detecção e classificação automática de padrões com risco de conluio em dados públicos de licitações de obras. 2021. xiv, 112 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2021. |
Abstract: | A identificação de fraudes e conluios em licitações de obras públicas é uma tarefa man- ual dispendiosa dependente tanto de experiência profissional quanto de profundo conheci- mento técnico e legal. As bases de dados públicas, aliadas a dados de licitações e contratos previamente analisados por peritos criminais altamente capacitados, formaram a base de dados passível de ser analisada para a identificação de atos ilícitos. Neste trabalho é pro- posta uma metodologia para realizar a detecção e classificação automática de padrões de conluio em licitações públicas, utilizando como fontes os dados disponíveis nos principais repositórios oficiais públicos, agregando a utilização de técnicas de reconhecimento de padrões para a realização deste objetivo proposto. Em uma abordagem inicial, obteve-se com sucesso para a formação da base de dados do trabalho um total de 15.132.968 pub- licações da Seção 3 do Diário Oficial da União em formato de texto e 1.907 documentos como referência de indicativo de atividades de conluio (estes disponibilizados por institu- ição parceira) que indicavam risco no processo licitatório. Foram testados modelos lineares clássicos, redes neurais profundas, bottleneck, Bi-LSTM e multicanal com vetorização do texto com TF-IDF e DOC2VEC, e dados estruturados extraídos do texto. O melhor F1- score foi obtido com o modelo passive-aggressive com 93,4% e o modelo bottleneck obteve 93,0% com melhor precisão. |
Abstract: | Identifying fraud and collusion in public bids is an expensive manual task and de- pendent on professional experience using in-depth technical and legal knowledge. Public databases, allied to bidding and contract data previously analyzed by highly trained crim- inal experts, form the database that can be analyzed for irregularities identification. This work proposes a methodology for automatic detection and classification of collusion pat- terns in public bids text, using data sources available on main public official repositories and adding pattern recognition techniques to achieve a model that detects and classifies this pattern. In an initial approach, a total of 15, 132, 968 publications of the Diario Oficial da União news, Section 3, in text format and 1, 907 documents as a reference for collusion activities were successfully obtained for the formation of the central work database (pro- vided by a partner institution) that indicated risk in the bidding process. Classic linear models, deep neural networks, bottleneck, Bi-LSTM, and multichannel were tested with text vectorization with TF-IDF and DOC2VEC, and structured data extracted from the text. The best F1-score was obtained with a passive-aggressive model with 93.4%, but the bottleneck model obtained 93.0% with better precision. |
metadata.dc.description.unidade: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Description: | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Informática |
Licença:: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Appears in Collections: | Teses, dissertações e produtos pós-doutorado |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.