Campo DC | Valor | Idioma |
dc.contributor.advisor | Faleiros, Thiago de Paulo | pt_BR |
dc.contributor.author | Nunes, Lucas Souza Sampaio | pt_BR |
dc.date.accessioned | 2024-12-18T17:48:00Z | - |
dc.date.available | 2024-12-18T17:48:00Z | - |
dc.date.issued | 2024-12-18 | - |
dc.date.submitted | 2024-09-02 | - |
dc.identifier.citation | NUNES, Lucas Souza Sampaio. Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado. 2024. 103 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2024. | pt_BR |
dc.identifier.uri | http://repositorio.unb.br/handle/10482/51222 | - |
dc.description | Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024. | pt_BR |
dc.description.abstract | A rotulagem de dados para treinamento de modelos de aprendizado de máquina está se tornando cada vez mais inviável devido ao alto volume de dados disponíveis e continuamente
sendo produzidos. Portanto, pesquisas atuais se concentram na análise e investigação
de técnicas de resolução do problema de Positive Unlabeled Learning (PUL), que podem
produzir um desempenho satisfatório de classificação, mesmo com uma pequena porção
de dados rotulados. Neste trabalho, é proposta uma adaptação estrutural do algoritmo de
Non-negative Matrix Factorization (NMF), aplicada a problemas de PUL e denominada
NMFPUL, a fim de aprimorar o desempenho da classificação de dados textuais. O NMF é
uma técnica usada para a fatoração de matrizes e geralmente é utilizada para redução de
dimensionalidade. Além disso, foi investigada uma variação do algoritmo NMF no aprendizado profundo, o Deep Non-Negative Matrix Factorization ou Deep NMF. Esta pesquisa
aplica o algoritmo proposto em vários conjuntos de dados textuais, contendo milhares de
documentos e termos, considerando diferentes quantidades de dados rotulados, variando
de 1 a 30 documentos rotulados na classe positiva. Para os conjuntos de dados menores, o
algoritmo proposto apresentou desempenho de classificação próximo às outras técnicas de
ponta, enquanto, nos conjuntos de dados maiores, o desempenho do NMFPUL se destacou, obtendo uma melhoria de 10% a 30% em relação às outras técnicas, sendo a maior
diferença observada quando há uma menor quantidade de documentos rotulados. O uso
do NMF envolve a aplicação de uma função objetivo para convergir a matriz documentopalavra ao produto das matrizes documento-tópico e tópico-palavra. Essas técnicas de
convergência podem ser utilizadas em métodos de aprendizado profundo, desdobrando as
iterações do algoritmo em camadas da rede. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | Português | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Classificação de texto | pt_BR |
dc.subject.keyword | Positive Unlabeled Learning (PUL) | pt_BR |
dc.subject.keyword | Aprendizagem de máquina | pt_BR |
dc.subject.keyword | Fatoração de Matriz Não-Negativa | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The data labeling for machine learning models training is more and more impracticable, in a manual way, due to the high volume of data available and that is continuously
produced. So, the current research stick to the analysis and investigation of Positive
Unlabeled Learning (PUL) problem solving techniques, which can produces satisfactory
classification performance, even having a small portion of data labeled. In this work,
a structural adaptation to the Non-Negative Matrix Factorization (NMF) algorithm applied to PUL, denominated NMFPUL, is proposed in order to enhance the performance
of text data classification. NMF is a technique used for matrix factorization and usually
used to reduce dimensionality. This research applies the algorithm proposed in several
text datasets, containing thousands of documents and terms, considering different amount
of labeled data, varying from 1 to 30 labeled documents on the positive class. For the
smallest datasets, the proposed algorithm had performance of classification close to those
other state-of-the-art techniques, while, on larger datasets, the performance of NMFPUL
stood out, having a 10% to 30% over other techniques, having the biggest difference when
there are less quantity of labeled documents. The use of NMF involves applying a objective function to converge the matrix document-term to the product of document-topic
and topic-term matrices. Those convergence techniques could be used in deep learning
methods, unrolling the algorithm iterations into layers of the network. So, also, in this
work, a variation of NMF for deep learning, the Deep Non-Negative Matrix Factorization
or Deep NMF, is developed and applied to PU data, to compare with others state-ofthe-art techniques in order to identify improvements to the performance of textual data
classification. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|