Predição de RNAs não-codificadores no transcriptoma do fungo Paracoccidioides brasiliensis usando aprendizagem de máquina

Arrial, Roberto Ternes

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/2105

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2008_RobertoTernesArrial.pdf		1,15 MB	Adobe PDF	Visualizar/Abrir

Título:	Predição de RNAs não-codificadores no transcriptoma do fungo Paracoccidioides brasiliensis usando aprendizagem de máquina
Autor(es):	Arrial, Roberto Ternes
Orientador(es):	Brígido, Marcelo de Macedo Togawa, Roberto Coiti
Assunto:	RNAs não-codificadores Aprendizagem de máquina Máquinas de vetores de suporte Paracoccidioides brasiliensis Transcriptoma Genética molecular Fungos Biologia molecular
Data de publicação:	3-Nov-2009
Data de defesa:	Abr-2008
Referência:	ARRIAL, Roberto Ternes. Predição de RNAs não-codificadores no transcriptoma do fungo Paracoccidioides brasiliensis usando aprendizagem de máquina. 2008. 102 f. Dissertação (Mestrado em Biologia Molecular)-Universidade de Brasília, Brasília, 2008.
Resumo:	Paracoccidioides brasiliensis (Pb) é um fungo saprófito e dimórfico de importância clínica, pois seus propágulos, quando inalados por humanos, desencadeiam a doença conhecida como paracoccidioidomicose. No ano de 2005 foi publicado o transcriptoma do Pb, apontando diversos alvos potenciais de drogas, mas ainda assim uma parte significativa dos transcritos seqüenciados não possui proteínas homólogas identificadas. Esse trabalho sugere que alguns desses RNAs possam ser não-codificadores (ncRNAs), uma classe de moléculas biologicamente funcionais que no entanto não codificam para nenhum produto protéico. Para tanto foi feita uma abordagem exclusivamente computacional, utilizando exemplos conhecidos de mRNAs e ncRNAs para treinamento de dois algoritmos de aprendizado de máquina: naive Bayes (nB) e Máquinas de Vetores de Suporte (MVS). Diversos programas descritos na literatura e desenvolvidos localmente foram usados para obter propriedades dos transcritos e de seus produtos protéicos, de forma que os algoritmos de aprendizado de máquina fossem capazes de diferenciar satisfatoriamente um mRNA de um ncRNA. O uso de várias medidas de eficiência mostra que ambos algoritmos, MVS e nB, induziram classificadores que discriminam as duas classes de RNAs de forma muito eficiente, mas também indicam que o MVS possui uma vantagem significativa em relação à sua detecção de ncRNAs. Acurácia média mensurada por validação cruzada de 10 vezes para o MVS foi de 92,4%, e para o nB, 75,3%. Quando usados no transcriptoma de Pb, o MVS e o nB detectam, respectivamente, 970 e 262 ncRNAs, dos quais a maior parte é de transcritos sem anotação e singlets, duas características que apóiam a possibilidade de que esses transcritos sejam realmente ncRNAs. Comparações a programas relacionados mostram que o programa aqui descrito apresenta um ganho em velocidade computacional sem perda de acurácia. Foi desenvolvido nesse trabalho um programa computacional de análise ab initio, designado PORTRAIT, especializado em detecção de ncRNAs em transcriptomas de organismos pouco caracterizados. __________________________________________________________________________________________ ABSTRACT Paracoccidioides brasiliensis (Pb) is a saprophytic and dimorphic fungus of clinical importance because its propagules, when inhaled by humans, cause the disease known as paracoccidioidomycosis. In the year 2005 the Pb transcriptome was published, pointing out several potential drug targets, but still a significative amount of sequenced transcripts lack identified homologous proteins. This work suggests that these RNAs may be non-coding RNAs (ncRNAs), a class of biologically functional molecules that do not code for any protein product. Aiming this, a strictly computational approach was made, using known examples of mRNAs and ncRNAs for training two machine learning algorithms: naive Bayes (nB) and Support Vector Machines (SVM). Several programs available from literature and locally developed were used to obtain properties from transcripts and its corresponding protein products, in such a way that machine learning algorithms could successfully discriminate between mRNA and ncRNA. Several efficiency measurements show that both algorithms, SVM and nB, induced classifiers able to efficiently discriminate the two classes of RNAs, and also indicate that SVM has a significative advantage regarding ncRNA detection. Mean accuracy as estimated by 10-fold cross-validation procedure was 92.4% for SVM and 75.3% for nB. When used in the Pb transcriptome, SVM and nB detect, respectively, 970 and 262 ncRNAs, of which the majority is composed of singlets and unnanotated transcripts, two characteristics that support the possibility that these transcripts are real ncRNAs. Comparison to related works indicates that the described program offers a computational speed improvement without hindering accuracy. This work describes the design of a computational program for ab initio analysis, named PORTRAIT, specialized in detection of ncRNAs in transcriptomes from poorly characterized organisms.
Informações adicionais:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Biológicas, Departamento de Biologia Celular, 2008.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas