Distinguishing long non-coding RNAs from protein coding transcripts based on machine learning techniques

Schneider, Hugo Wruck

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Walter, Maria Emília Machado Telles	-
dc.contributor.author	Schneider, Hugo Wruck	-
dc.date.accessioned	2018-02-20T20:23:11Z	-
dc.date.available	2018-02-20T20:23:11Z	-
dc.date.issued	2018-02-20	-
dc.date.submitted	2017-09-28	-
dc.identifier.citation	SCHNEIDER, Hugo Wruck. Distinguishing long non-coding RNAs from protein coding transcripts based on machine learning techniques. 2017. xiii, 80 f., il. Tese (Doutorado em Informática)—Universidade de Brasília, Brasília, 2017.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/31264	-
dc.description	Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.	pt_BR
dc.description.abstract	Dentre as análises que devem ser realizadas nos projetos de sequenciamento, um problema importante é a distinção entre transcritos codificadores de proteinas (PCTs) e RNAs nãocodificadores longos (lncRNAs). Esse trabalho investiga potenciais características dos lncRNAs e propõe dois métodos para distinção dessas duas classes de transcritos (PCTs e lncRNAs). O primeiro método foi proposto com base em máquinas de vetores de suporte (SVM), enquanto o segundo utilizou técnicas de aprendizado semi-supervisionado. O mé- todo utilizando SVM obteve excelentes resultados, quando comparados a outras propostas existentes na literatura. Esse método foi treinado e testado com dados de humanos, camundongos e peixe-zebra, tendo atingido uma acurácia de ≈ 98% com dados de humanos e camundongos, e de ≈ 96% para os dados do peixe-zebra. Ainda, foram criados modelos utilizando várias espécies, que mostraram classificações melhores para outras espécies diferentes daquelas do treinamento, ou seja, mostraram boa capacidade de generalização. Para validar esse método, foram utilizados dados de ratos, porcos e drosófilas, além de dados de RNA-seq de humanos, gorilas e macacos. Essa validação atingiu uma acurácia de mais de 85%, em todos os casos. Por fim, esse método foi capaz de identificar duas sequências dentro do Swiss-Prot que puderam ser reanotadas. O método baseado em aprendizado semi-supervisionado foi treinado e testado com dados de humanos, camundongos, ornitorrincos, galinhas, gambás, orangotangos e rãs, tendo sido utilizadas cinco técnicas de aprendizado semi-supervisionado. A contribuição desse método foi que ele permitiu a redução do tamanho do conjunto de dados classificados, utilizados no treinamento. No melhor caso, somente 2 sequências bem anotadas foram usadas no treinamento, o que, comparado com outras ferramentas disponíveis na literatura, indica um ganho expressivo. A acurácia obtida pelo método nos melhores casos foram de ≈ 95% para dados de humanos e camundongos, ≈ 90% para dados de galinhas, gambás e orangutangos, e ≈ 80% para dados de ornitorrincos e rãs. Dados de RNA-seq foram utilizados para teste, tendo sido obtida acurácia de mais de 95%. Esses dados foram utilizados para treinamento dos modelos de orangotango e de rã, que também apresentaram acurácias excelentes.	pt_BR
dc.language.iso	Inglês	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Distinguishing long non-coding RNAs from protein coding transcripts based on machine learning techniques	pt_BR
dc.type	Tese	pt_BR
dc.subject.keyword	RNAs não-codificadores	pt_BR
dc.subject.keyword	Máquinas de vetores de suporte	pt_BR
dc.subject.keyword	Análise de componentes principais	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	Among the analyses that have to be performed in sequencing projects, an important problem to be addressed is the distinction of protein coding transcripts (PCTs) and long non-coding RNAs (lncRNA). This work investigates potential characteristics of the lncRNAs and proposes two methods for distinguishing these two classes of transcripts (PCTs and lncRNAs). The first methods was based on Support Vector Machine (SVM), while the second one used semi-supervised learning techniques. The SVM based method obtained excellent results when compared to other methods in the literature. This method was trained and tested with data from human, mouse and zebrafish, and reached accuracy of ≈ 98% for human and mouse data, and ≈ 96% for zebrafish data. Besides, models with multiple species were created, which improved the classification for species different from those used in the training phase, i.e., these models could also be used in the classification of species different from those that were used in the training phase. To validate this method, data from rat, pig and drosophila, and RNA-seq data from humans, gorillas and macaque were used. This validation reached an accuracy of more than 85% for all the species. Finally, this method was able to identify two sequences within the Swiss-Prot database that were reannotated. The semi-supervised based method was trained and tested with data from human, mouse, platypus, chicken, opossum, orangutan and xenopus, in five semi-supervised learning techniques. The contribution of this method was the reduction of the size of the classified training data set. In the best scenario, only two annotated sequences were used in the training phase, which is an expressive gain when compared to other tools available in the literature. Accuracies obtained by the method in the best cases were ≈ 95% for human and mouse datasets, ≈ 90% for chicken, opossum and orangutan datasets, and ≈ 80% for data platypus and xenopus datasets. RNA-seq data were used for testing, having obtained more than 95% of accuracy. This data was used to train the orangutan and xenopus models, also leading to an excellent accuracy.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado