Campo DC | Valor | Idioma |
dc.contributor.advisor | Holanda, Maristela Terto de | - |
dc.contributor.author | Tedesque, Fernanda Hondo | - |
dc.date.accessioned | 2019-06-05T17:35:49Z | - |
dc.date.available | 2019-06-05T17:35:49Z | - |
dc.date.issued | 2019-06-05 | - |
dc.date.submitted | 2018-07-25 | - |
dc.identifier.citation | TEDESQUE, Fernanda Hondo. Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional. 2018. xii, 65 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2018. | pt_BR |
dc.identifier.uri | http://repositorio.unb.br/handle/10482/34715 | - |
dc.description | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018. | pt_BR |
dc.description.abstract | Os experimentos da biologia molecular são frequentemente apresentados sob a forma
de workflows científicos. Um workflow científico é composto por um conjunto de atividades
realizadas por diferentes entidades de processamento através de tarefas gerenciadas. O
conhecimento sobre a trajetória dos dados ao longo de um determinado workflow permite
a reprodutibilidade por meio da proveniência de dados. Para reproduzir um experimento
de Bioinformática in silico, é preciso considerar outros aspectos, além das tarefas executadas
em um workflow. De fato, as configurações computacionais nas quais os programas
envolvidos são executados são um requisito para a reprodutibilidade. A tecnologia da
computação em nuvem pode ocultar detalhes técnicos e facilitar ao usuário a configuração
desse ambiente sob demanda. Os sistemas de banco de dados NoSQL também ganharam
popularidade, particularmente na nuvem. Considerando este cenário, é proposta
uma modelagem para a proveniência de dados de experimentos científicos, em ambiente
de nuvem computacional, utilizando o PROV-DM e realizando o mapeamento para três
diferentes tipos de famílias de sistemas de banco de dados NoSQL. Foram executados dois
workflows de Bioinformática envolvendo diferentes fases, os quais foram utilizados para
os testes nos bancos de dados NoSQL Cassandra, MongoDB e OrientDB, e em seguida
é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram
que os tempos de armazenamento da proveniência são mínimos comparados aos tempos
de execução dos workflows sem o uso da proveniência e, portanto, os modelos propostos
para os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e
gerenciamento de proveniência de dados biológicos. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | Português | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Workflows científicos | pt_BR |
dc.subject.keyword | Banco de dados | pt_BR |
dc.subject.keyword | Bioinformática | pt_BR |
dc.subject.keyword | Computação em nuvem | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.contributor.advisorco | Araújo, Aletéia Patrícia Favacho de | - |
dc.description.abstract1 | Molecular biology experiments are often presented in the form of scientific workflows.
There is a set of activities performed by different processing entities through managed
tasks. Knowledge about the data trajectory throughout a given workflow enables reproducibility
by data provenance. In order to reproduce an in silico bioinformatics experiment
one must consider other aspects besides those steps followed by a workflow. Indeed,
the computational settings in which the involved programs run is a requirement for reproducibility.
Cloud computing technology may hide the technical details and make it
easier for the user to set up such an on-demand environment. NoSQL database systems
have also gained popularity, particularly in the cloud. Considering this scenario, a model
for the provenance of data from scientific experiments in a computational cloud environment
is proposed, using the PROV-DM and mapping to three different types of families
of NoSQL database systems. Two Bioinformatics workflows involving different phases
were performed, which were used for the tests in the NoSQL Cassandra, MongoDB and
OrientDB databases, followed by an analysis of these executions and tests.The results
obtained showed that the storage times of the provenance are minimal compared to the
execution times of the workflows without the use of the provenance and therefore, the
proposed models for the NoSQL databases proved to be a good option for storage and
management of biological data. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|