http://repositorio.unb.br/handle/10482/51222
Fichero | Tamaño | Formato | |
---|---|---|---|
LucasSouzaSampaioNunes_DISSERT.pdf | 2,28 MB | Adobe PDF | Visualizar/Abrir |
Título : | Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado |
Autor : | Nunes, Lucas Souza Sampaio |
Orientador(es):: | Faleiros, Thiago de Paulo |
Assunto:: | Classificação de texto Positive Unlabeled Learning (PUL) Aprendizagem de máquina Fatoração de Matriz Não-Negativa |
Fecha de publicación : | 18-dic-2024 |
Data de defesa:: | 2-sep-2024 |
Citación : | NUNES, Lucas Souza Sampaio. Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado. 2024. 103 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2024. |
Resumen : | A rotulagem de dados para treinamento de modelos de aprendizado de máquina está se tornando cada vez mais inviável devido ao alto volume de dados disponíveis e continuamente sendo produzidos. Portanto, pesquisas atuais se concentram na análise e investigação de técnicas de resolução do problema de Positive Unlabeled Learning (PUL), que podem produzir um desempenho satisfatório de classificação, mesmo com uma pequena porção de dados rotulados. Neste trabalho, é proposta uma adaptação estrutural do algoritmo de Non-negative Matrix Factorization (NMF), aplicada a problemas de PUL e denominada NMFPUL, a fim de aprimorar o desempenho da classificação de dados textuais. O NMF é uma técnica usada para a fatoração de matrizes e geralmente é utilizada para redução de dimensionalidade. Além disso, foi investigada uma variação do algoritmo NMF no aprendizado profundo, o Deep Non-Negative Matrix Factorization ou Deep NMF. Esta pesquisa aplica o algoritmo proposto em vários conjuntos de dados textuais, contendo milhares de documentos e termos, considerando diferentes quantidades de dados rotulados, variando de 1 a 30 documentos rotulados na classe positiva. Para os conjuntos de dados menores, o algoritmo proposto apresentou desempenho de classificação próximo às outras técnicas de ponta, enquanto, nos conjuntos de dados maiores, o desempenho do NMFPUL se destacou, obtendo uma melhoria de 10% a 30% em relação às outras técnicas, sendo a maior diferença observada quando há uma menor quantidade de documentos rotulados. O uso do NMF envolve a aplicação de uma função objetivo para convergir a matriz documentopalavra ao produto das matrizes documento-tópico e tópico-palavra. Essas técnicas de convergência podem ser utilizadas em métodos de aprendizado profundo, desdobrando as iterações do algoritmo em camadas da rede. |
Abstract: | The data labeling for machine learning models training is more and more impracticable, in a manual way, due to the high volume of data available and that is continuously produced. So, the current research stick to the analysis and investigation of Positive Unlabeled Learning (PUL) problem solving techniques, which can produces satisfactory classification performance, even having a small portion of data labeled. In this work, a structural adaptation to the Non-Negative Matrix Factorization (NMF) algorithm applied to PUL, denominated NMFPUL, is proposed in order to enhance the performance of text data classification. NMF is a technique used for matrix factorization and usually used to reduce dimensionality. This research applies the algorithm proposed in several text datasets, containing thousands of documents and terms, considering different amount of labeled data, varying from 1 to 30 labeled documents on the positive class. For the smallest datasets, the proposed algorithm had performance of classification close to those other state-of-the-art techniques, while, on larger datasets, the performance of NMFPUL stood out, having a 10% to 30% over other techniques, having the biggest difference when there are less quantity of labeled documents. The use of NMF involves applying a objective function to converge the matrix document-term to the product of document-topic and topic-term matrices. Those convergence techniques could be used in deep learning methods, unrolling the algorithm iterations into layers of the network. So, also, in this work, a variation of NMF for deep learning, the Deep Non-Negative Matrix Factorization or Deep NMF, is developed and applied to PU data, to compare with others state-ofthe-art techniques in order to identify improvements to the performance of textual data classification. |
metadata.dc.description.unidade: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Descripción : | Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Informática |
Licença:: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Agência financiadora: | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). |
Aparece en las colecciones: | Teses, dissertações e produtos pós-doutorado |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.