Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio2.unb.br/jspui/handle/10482/32463
Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2018_LucasMacielVieira.pdf1,77 MBAdobe PDFVisualizar/Abrir
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorWalter, Maria Emília Machado Telles-
dc.contributor.authorVieira, Lucas Maciel-
dc.date.accessioned2018-08-22T21:13:46Z-
dc.date.available2018-08-22T21:13:46Z-
dc.date.issued2018-08-22-
dc.date.submitted2018-03-01-
dc.identifier.citationVIEIRA, Lucas Maciel. Métodos baseados em aprendizagem de máquina para distinguir RNAs longos não-codificadores intergênicos de transcritos codificadores de proteínas. 2018. xiii, 63 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2018.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/32463-
dc.descriptionDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.pt_BR
dc.description.abstractOs RNAs não-codificadores (ncRNAs) constituem uma classe importante de moléculas produzidas nas células de organismos. Dentre eles, temos os ncRNAs longos (lncRNAs), uma classe de ncRNAs com predição díficil, pois podem estar sobrepostas a transcritos codificadores de proteínas (Protein Coding Transcripts - PCTs). Porém, existe uma classe de lncRNAs, os RNAs longos intergênicos (long non-condig RNAS - lincRNAS), que são lncRNAs que aparecem entre dois genes, que vêm sendo estudados devido a seus papéis regulatórios nos mecanismos celulares e sobretudo porque estão ligados a doenças como câncer. Apesar da importância destes lincRNAs, poucos métodos computacionais para distinção entre essa molécula e PCTs estão disponíveis. Além disso, os métodos existentes devem ser aplicados a organismos específicos, não podendo ser utilizados para distinguir lincRNAs de PCTs em espécies diferentes daquelas para as quais os modelos foram originalmente construídos. Na literatura, a predição de lncRNAs e lincRNAs vem sendo explorada com técnicas de Aprendizagem de Máquina. Neste contexto, este trabalho propõe dois métodos para discriminar lincRNAs de PCTs. O primeiro é um workflow para distinguir lincRNAs de PCTs em plantas, o qual utiliza ferramentas de bioinformática e Máquina de Vetores de Suporte, uma técnica de aprendizagem de máquina. O workflow foi aplicado em dois estudos de caso: cana-de-açúcar (Saccharum spp) e milho (Zea mays), tendo sido encontrados potenciais lincRNAs em ambos organismos. Além disso, um estudo de expressão diferencial de lincRNAs foi feito em cada estudo de caso, revelando possível interação desses lincRNAs com certos microorganismos que foram inoculados nas duas espécies de plantas. O segundo método propõe o uso de Ensemble para melhorar a capacidade de generalização e a robustez no método de distinguir de lincRNAs e PCTs. Este método foi aplicado em duas espécies, Homo sapiens (humano), montagem GRCh38, e Mus musculus (camundongo), montagem GRCm38. Os resultados mostram boas acurácias de 94% e 96% para humanos e camundongo, respectivamente. Deve-se notar que essas acurácias foram iguais ou melhores do que as acurácias de métodos existentes na literatura.pt_BR
dc.language.isoInglêspt_BR
dc.rightsAcesso Abertopt_BR
dc.titleMétodos baseados em aprendizagem de máquina para distinguir RNAs longos não-codificadores intergênicos de transcritos codificadores de proteínaspt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordAprendizagem - computadorespt_BR
dc.subject.keywordAprendizagem de máquinapt_BR
dc.subject.keywordRNAs não-codificadorespt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1Non-coding RNAs (ncRNAs) constitute an important set of transcripts produced in the cells of organisms. Among them, there is a large amount of a particular class of long ncRNAs (lncRNAs) that are difficult to predict, the so-called long intergenic ncRNAs (lincRNAs), which might play essential roles in gene regulation and other cellular processes, and they can be mistaken with transcripts that code proteins. Despite the importance of these lincRNAs, there is still a lack of biological knowledge, and also a few computational methods, most of them being specific to organisms, which usually can not be successfully applied to other species, different from those that they have been originally designed to. In literature, prediction of lncRNAs performed with machine learning techniques, and lincRNA prediction has been explored with supervised learrning methods. In this context, this work proposes two methods for discriminating lincRNAs from protein coding transcripts (PCTs). The first one is a workflow to distinguish lincRNAs from PCTs in plants, considering a pipeline that includes known bioinformatics tools together with machine learning techniques, here Support Vector Machine (SVM). We discuss two case studies that were able to identify novel lincRNAs, in sugarcane (Saccharum spp) and in maize (Zea mays). From the results, we also could identify differentially expressed lincRNAs in sugarcane and maize plants submitted to pathogenic and beneficial microorganisms. The second method is the distinction of lincRNAs from PCTs using ensemble, a method that improves generalizability and robustness. We applied this method in two species, Homo sapiens (human), assembly GRCh38, and Mus musculus (mouse), assembly GRCm38. The results show good accuracies of 94% and 96% for human and mouse, respectively, which are best or at least are comparable to the accuracies presented in related works.pt_BR
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Informáticapt_BR
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro simples do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.