http://repositorio.unb.br/handle/10482/12699
File | Description | Size | Format | |
---|---|---|---|---|
2012_RenatodePaula.pdf | 7,52 MB | Adobe PDF | View/Open |
Title: | Proveniência de dados em workflows de bioinformática |
Authors: | Paula, Renato de |
Orientador(es):: | Holanda, Maristela Terto de |
Assunto:: | Banco de dados Biologia computacional |
Issue Date: | 3-Apr-2013 |
Data de defesa:: | 11-Jul-2012 |
Citation: | PAULA, Renato de. Proveniência de dados em workflows de bioinformática. 2012. x, 92 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2012. |
Abstract: | Avanços tecnológicos, tanto em equipamentos quanto em algoritmos, têm tornado a execução de experimentos científicos cada vez mais rápida e eficiente. Isso permite que os cientistas executem mais experimentos e possam compará-los entre si, o que traz maior acurácia às análises. Porém, a quantidade de dados que devem ser tratados aumenta a cada novo experimento executado, o que dificulta a identificação da origem dos dados e como os mesmos foram transformados em cada experimento. Assim, tem-se a necessidade de novas ferramentas que tornem possível preservar, não só as conclusões de um experimento científico, mas também a origem dos dados utilizados e as condições e parâmetros com os quais foram executados. Estudos recentes mostram que a utilização de modelos de proveniência de dados facilita o gerenciamento dos dados tanto em ambiente científico quanto naqueles disponibilizados pela internet. Uma importante área para o uso de proveniência de dados é o da bioinformática, principalmente em projetos genoma e transcritoma de alto desempenho, visto que seus experimentos geram grande volume de dados e seus processos podem ser executados diversas vezes com diferentes ferramentas, dados e parâmetros. Neste trabalho propomos a utilização de uma estrutura de proveniência de dados baseada no modelo PROV-DM para experimentos em projetos de bioinformática a fim de permitir que os cientistas possam trabalhar com seus experimentos em detalhes e, quando necessário, possam consultá-los e reexecutá-los de forma mais planejada e controlada. _____________________________________________________________________________________________________________________________ ABSTRACT Technological Advances, both in equipment and algorithms, have made the execution of scientific experiments increasingly faster and more e efficient. This allows scientists to execute more experiments and compare them, generating greater accuracy in analyses. However, the great quantity of data to be treated increases with each new experiment performed, which makes it difficult to identify the origin of data and how they were transformed in each experiment. Thus, there is a pressing need for new tools that make possible the preservation of, not only conclusions of scientific experiments, but also the origin of data used and the conditions and parameters with which each were performed. Recent studies show that the use of data provenance models facilitates the management of data, both in the scientific environment and those available on the internet. An important area for the use of data provenance is in bioinformatics, mainly in genome and high performance transcriptome projects, since these experiments generate a large volume of data and their process can be executed many times with different tools, data and parameters. In this work we propose the use of a data provenance structure based on the model PROV-DM for experiments in bioinformatics projects with the objective of allowing scientists to work with their experiments in ne detail, and, when necessary, consult them or re-execute them in a more planned and controlled way. |
metadata.dc.description.unidade: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Description: | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2012. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Informática |
Appears in Collections: | Teses, dissertações e produtos pós-doutorado |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.