Investigando o desempenho de métodos de Aprendizado de Máquina para predição de RNAs não-codificadores utilizando construção in silico de dados artificiais

Costa, Mirele Carolina Souza Ferreira

Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/40790

Files in This Item:

File	Description	Size	Format
2020_MireleCarolinaSouzaFerreiraCosta.pdf		3,65 MB	Adobe PDF	View/Open

Title:	Investigando o desempenho de métodos de Aprendizado de Máquina para predição de RNAs não-codificadores utilizando construção in silico de dados artificiais
Authors:	Costa, Mirele Carolina Souza Ferreira
metadata.dc.contributor.email:	carolinamirele@gmail.com
Orientador(es)::	Walter, Maria Emília Machado Telles
Assunto::	PRNAs não-codificadores RNAs nucleolares pequenos Cordados - genoma Aprendizado de máquina
Issue Date:	3-May-2021
Data de defesa::	18-Dec-2020
Citation:	COSTA, Mirele Carolina Souza F. Investigando o desempenho de métodos de Aprendizado de Máquina para predição de RNAs não-codificadores utilizando construção in silico de dados artificiais. 2020. xviii, 94 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2020.
Abstract:	Métodos de aprendizado de máquina (AM) são frequentemente usados para predizer difer entes classes de RNAs não-codificadores (ncRNAs), como microRNAs ou snoRNAs. Nos métodos de AM que usam o paradigma de aprendizagem supervisionada, atributos ou características (em inglês, features) são extraídas dos dados de entrada e usados em um classificador, nas diferentes etapas desses métodos. No entanto, os métodos de AM não foram usados com tanto sucesso quanto se esperava para busca de homologia em ncR NAs. Neste contexto, é relevante medir o desempenho de métodos de AM para verificar seu poder de predição, tanto de sequências evolutivamente próximas quanto daquelas mais distantes. Uma avaliação sistemática de métodos de AM para predição de homologia re quer conjuntos de testes, grandes, controlados e conhecidos. Assim, devem ser criadas formas para construir grandes conjuntos de dados artificiais de forma que se aproxime o máximo possível dos ncRNAs reais. Nesta dissertação, inicialmente, descrevemos uma forma de gerar conjuntos arbitrariamente grandes e diversos de sequências de ncRNAs, com base em uma evolução artificial, das duas classes principais de snoRNAs, C/D box e H/ACA box snoRNAs. Em seguida, esses dados artificiais são usados para avaliar o poder de predição de snoRNAs, em um genoma de cordados, de três métodos supervisionados de AM - Máquina de Vetores de Suporte (em inglês, Support Vector Machine - SVM), Re des Neurais Artificiais (em inglês, Artificial Neural Networks - ANN) e Floresta Aleatória (em inglês, Random Forest - RF). Nossos resultados indicam que as abordagens de AM podem de fato ser competitivas para a busca de homologia em ncRNAs, dependendo do conhecimento de features biológicas, extraídas dos dados, que são a entrada desses méto dos de AM. Para a mutação de substituição, os classificadores SVM e ANN obtiveram excelentes desempenhos para conjuntos de dados com mutações de bases de 10%, 20%, 30% e 40% de diferença relativamente aos snoRNAs originais. No entanto, para conjuntos de dados com mutações de 50%, os classificadores não alcançaram um desempenho tão bom. Para H/ACA box, o desempenho dos classificadores de AM foram equivalentes, tanto utilizando um número maior de features biológicas conhecidas quanto um número reduzido delas. Para a mutação de inserção, quanto maior a porcentagem de mutação, menor o desempenho dos três classificadores - SVM, ANN e RF. Para os dois tipos de snoRNAs, os tamanhos das sequências mostraram ser características importantes para a predição correta. Além disso, os métodos de AM apresentaram resultados de predição melhores, quando comparados a métodos que usam diretamente as sequências primárias de ncRNAs, como BLAST.
Abstract:	Machine learning (ML) methods are often used to predict different classes of non-coding RNAs (ncRNAs), such as microRNAs or snoRNAs. In ML methods that use the super vised learning paradigm, attributes or features are extracted from the input data and used in a classifier, in the different steps of these methods. However, ML methods have not been used as successfully as expected to search for homology in ncRNAs. In this context, it is relevant to measure the performance of ML methods in order to verify their predictive power, both for evolutionary close sequences and those that are more distant. A system atic evaluation of ML methods for homology prediction requires large, controlled and known sets of tests. Thus, large sets of artificial data have to be created such that their stored sequences are as close as possible to real ncRNAs. In this dissertation, initially, we describe a way to generate arbitrarily large and diverse sets of ncRNA sequences, based on an artificial evolution, of the two main classes of snoRNAs, C/D box and H/ACA box. Then, these artificial data are used to evaluate the predictive power of snoRNAs, in a chordate genome, of three supervised methods of ML - Support Vector Machine (SVM), Artificial Neural Networks (ANN) and Random Forest (RF). Our results indicate that ML approaches can in fact be competitive to predict homology for ncRNAs, depending on the knowledge of biological features, extracted from the data, which are the input of these ML methods. For the substitution mutation, the SVM and ANN classifiers achieved excellent performances for data sets with base mutations of 10%, 20%, 30% and 40% distant from the original snoRNAs. However, for data sets with mutations of 50%, the classifiers did not perform so well. For H/ACA box, the performance of the ML classifiers were equiv alent, using a larger number of known biological features as well as a reduced number of them. For the insertion mutation, the higher the percentage of mutation, the lower the performance of the three classifiers - SVM, ANN and RF. For both types of snoRNAs, the size of the sequences proved to be an important characteristic for correct prediction. In addition, ML methods showed much better prediction results, when compared to methods that directly use primary ncRNA sequences, such as BLAST.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Description:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Informática
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Appears in Collections:	Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/40790/statistics">