Campo DC | Valor | Idioma |
dc.contributor.advisor | Faleiros, Thiago de Paulo | pt_BR |
dc.contributor.author | Mota, Lucélia Vieira | pt_BR |
dc.date.accessioned | 2024-08-13T21:09:19Z | - |
dc.date.available | 2024-08-13T21:09:19Z | - |
dc.date.issued | 2024-08-13 | - |
dc.date.submitted | 2023-12-14 | - |
dc.identifier.citation | MOTA, Lucélia Vieira. Reconhecimento de entidades nomeadas para conteúdo publicado em diários oficiais com base em uma abordagem de supervisão fraca. 2023. 95 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/49827 | - |
dc.description | Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. | pt_BR |
dc.description.abstract | O Reconhecimento de Entidade Nomeada em português é uma tarefa desafiadora, especialmente em textos formais e oficiais, como Licitações e Contratação Pública. A anotação
manual desses textos é cara, demorada e requer conhecimento específico no domínio.
Este estudo propõe a criação de um corpus anotado de Licitação e Contratação Pública
utilizando métodos de supervisão fraca (SF). Estes métodos empregam técnicas de aprendizado de máquina semi-supervisionados para extrair entidades nomeadas de textos não
anotados. A aplicação dos métodos fracamente supervisionados, combinando o uso de
anotações fracas e funções de rótulo de conhecimentos heurísticos, correspondência de
palavras e modelos de aprendizado de máquina pré-treinados desempenham um papel
crucial na tarefa de NER, especialmente em cenários nos quais grandes quantidades de
dados anotados não estão disponíveis, são caros de obter ou são impraticáveis de rotular manualmente. Assim, adotou-se uma metodologia que possibilitou a geração de um
corpus de Licitação e Contratação Pública e a validação desse corpus com um corpus formal anotado manualmente. Para validação deste estudo foram realizados experimentos
com modelos CRF, Bi-LSTM-CNN e SF para NER. Os resultados do modelo Bi-LSTM,
treinado com os dados provenientes da supervisão fraca, demonstraram um desempenho
significativo, atingindo um F1 Score médio de 84,3%, contra apenas 0,756% da base ouro.
Notavelmente, o destaque foi para o treinamento do Bi-LSTM-CNN com os dados gerados
pela supervisão fraca do ato extrato de contrato, alcançando um impressionante F1 Score
de 96%, superando os 95% obtidos com os dados da base ouro. No entanto, o cenário mais
desafiador foi observado no contexto do extrato de convênio, onde a aplicação das FR de
supervisão fraca resultou em um F1 Score de apenas 47%, em comparação com os 66,9%
alcançados pelo CRF sobre a base ouro, acredita-se que esses resultados foram afetados
devido a pouca quantidade exemplos no corpus. Os resultados obtidos demonstram que
a combinação de NER e SF produz um corpus de alta qualidade com menos esforço que
a anotação manual. Assim, é possível afirmar que o mecanismo de programação do de
dados da SF é uma ferramenta promissora para a geração de corpora anotados em português, especialmente em domínios específicos como Licitação e Contratação Pública. Ela
acelera o desenvolvimento de ferramentas de NER, reduzindo o tempo e o custo da anotação manual. Este estudo pode ser aplicado para melhoria da ferramenta de NER para
o português, desenvolvimento de sistemas de informação para o setor público e extração
de informação de documentos de Licitação e Contratação Pública. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Reconhecimento de entidades nomeadas para conteúdo publicado em diários oficiais com base em uma abordagem de supervisão fraca | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Entidades nomeadas - reconhecimento | pt_BR |
dc.subject.keyword | Diários Oficiais | pt_BR |
dc.subject.keyword | Entidades nomeadas - extração | pt_BR |
dc.subject.keyword | Processamento de linguagem natural (Computação) | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | Named Entity Recognition in Portuguese is a challenging task, especially in formal and
official texts, such as Bidding and Public Procurement. Manual annotation of these
texts is expensive, time-consuming, and requires specific domain knowledge. This study
proposes the creation of an annotated corpus of Bidding and Public Procurement using
weak supervision methods (WS). These methods employ semi-supervised machine learning techniques to extract named entities from unlabeled texts. The application of weakly
supervised methods, combining the use of weak annotations and label functions of heuristic knowledge, word matching, and machine learning, plays a crucial role in the NER
task, especially in scenarios where large amounts of annotated data are not available,
are expensive to obtain, or are impractical to label manually. Thus, a methodology was
adopted that enabled the generation of a corpus of Bidding and Public Procurement and
the validation of this corpus with a manually annotated gold standard corpus. To validate
this study, experiments were conducted with CRF, Bi-LSTM-CNN e WS para NER. The
results of the Bi-LSTM-CNN model, trained with weak supervision data, showed significant performance, achieving an average F1 Score of 84.3%, compared to only 0.756% of
the gold standard base. Notably, the highlight was the training of the Bi-LSTM-CNN
with weak supervision data for the contract extract act, achieving an impressive F1 Score
of 96%, surpassing the 95% obtained with the gold standard data. However, the most
challenging scenario was observed in the context of the covenant extract, where the application of weak supervision functions resulted in an F1 Score of only 47%, compared to
the 66.9% achieved by CRF on the gold standard base, it is believed that these results
were affected due to the small number of examples in the corpus. The results obtained
demonstrate that the combination of NER and WS produces a high-quality corpus with
less effort than manual annotation. Thus, it can be stated that WS data programming
is a promising tool for generating annotated corpora in Portuguese, especially in specific
domains such as Bidding and Public Procurement. It accelerates the development of NER
tools, reducing the time and cost of manual annotation. This study can be applied to
improve NER tools for Portuguese, develop information systems for the public sector, and
extract information from Bidding and Public Procurement documents. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|