http://repositorio.unb.br/handle/10482/1187
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf | 874,13 kB | Adobe PDF | Visualizar/Abrir |
Título: | Mineração de dados em base de germoplasma |
Autor(es): | Hiragi, Gilberto de Oliveira |
Orientador(es): | Ladeira, Marcelo |
Assunto: | Base de germoplasma Mineração de dados (Computação) SIBRARGEN Metodologia de mineração CRISP/DM HaDog |
Data de publicação: | 11-Fev-2009 |
Data de defesa: | Mar-2008 |
Referência: | HIRAGI, Gilberto de Oliveira. Mineração de dados em base de germoplasma. 2008. 107 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008. |
Resumo: | Os bancos de germoplasma do SIBRARGEN (Sistema Brasileiro de Informações em
Recursos Genéticos) funcionam como um grande catálogo das espécies vegetais e de
seus acessos (tipos característicos dentro de um grupo ou variabilidades dentro da
espécie), contendo mais de 100 mil acessos catalogados. Esses bancos incluem a
identificação do acesso (passaporte), descrição dos aspectos genótipos (caracterização) e descrição dos aspectos fenótipos (avaliação) e permitem aos pesquisadores dessa área realizarem consultas SQL mas recuperando apenas os dados armazenados, resultantes da resolução das expressões booleanas utilizadas como critérios de busca. Essas
consultas não facilitam a descoberta de novos conhecimentos ou a construção de
modelos de previsão ou descrição.
Essa pesquisa propõe uma metodologia de mineração de dados, derivada do modelo de
referência CRISP/DM, que auxilie a exploração dessas bases de dados por
pesquisadores não vinculados à área de informática (por exemplo, biólogos ou
agrônomos) visando facilitar a realização de tarefas previstas nas seguintes fases do
CRISP/DM: entendimento do negócio, compreensão dos dados, preparação de dados, modelagem, avaliação dos modelos gerados e colocação em uso. Para materializar a metodologia proposta e automatizar a sua utilização por parte de não-informatas, foi implementada a ferramenta HaDog (Hiragi Approach for Data Mining of Germoplasm). HaDog foi implementada utilizando a linguagem Java, banco de dados Oracle® versão 10g release 2 e é acessível através de uma interface Web, disponível aos pesquisadores credenciados para acesso ao SIBRARGEN. A metodologia de mineração de germoplasma proposta foi avaliada de forma experimental através de dois estudos de casos conduzidos com o apoio de pesquisadores da Embrapa Recursos Genéticos e Biotecnologia: determinação de acessos representativos de uma espécie ou grupo de espécies e proposição de coletas direcionadas, ambos problemas típicos de interesse do curador (pesquisador responsável pelo banco de germoplasma de uma espécie). Essa
avaliação experimental mostrou que é possível introduzir os especialistas na área na utilização de técnicas de mineração de dados na base de germoplasma sem requerem que eles se envolvam em atividades de programação. Os resultados experimentais obtidos até o momento demonstram que o HaDog pode se constituir em um importante facilitador para a mineração das bases do SIBRARGEN, visando, principalmente, a descoberta de novos conhecimentos pelos especialistas.
_________________________________________________________________________________________ ABSTRACT The banks of germplasm of the SIBRARGEN (Brazilian Information System in Genetic Resources) function as a great catalogue of the vegetal species and of its accesses (characteristic types inside of a group or variabilities inside of the species), contend more than 100 thousand catalogued accesses. These banks include the identification of the access (passport), description of the genotypes aspects (characterization) and phenotype description (evaluation) and allow researchers of this area to carry through SQL queries but recouping only the stored data, resultant of the resolution of the used boolean expressions as criteria search. These queries don’t facilitate to the discovery of new knowledge or the construction of forecast models or description. This research considers a data mining methodology, derived from the model of reference CRISP/DM, that assists the exploration of these databases for researchers tied with the computer science area (for example, biologists or agronomists) aiming to facilitate the accomplishment of tasks foreseen in the following phases of the CRISP/DM: business understanding, data understanding, data preparation, modeling, evaluation of the generated models and deployment. To materialize the methodology proposal and to automatize its use by people who aren’t of the computer science area, the HaDog tool was implemented (Hiragi Approach of Data Mining of Germplasm). HaDog was implemented using the Java language, database Oracle® version 10g release 2 and is accessible through a Web interface, available to the credential researchers for access to the SIBRARGEN. The methodology of mining of germplasm proposal was evaluated of experimental form through two studies of cases lead with the support of researchers of the Embrapa (Genetic Resources and Biotechnology: determination of representative accesses of a species or group of species and proposal of directed collections, both typical problems of interest of the custodian (responsible researcher for the Bank of germplasm of a species). This experimental evaluation showed that it is possible to introduce the specialists in the area in the use of techniques of mining of data in the base of germplasm without require that they become involved themselves in activities of programming. The experimental results obtained so far show that HaDog can be a major facilitator for the mining of foundations of SIBRARGEN, targeting mainly, the discovery of new knowledge by specialists. |
Unidade Acadêmica: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Informações adicionais: | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008. |
Programa de pós-graduação: | Programa de Pós-Graduação em Informática |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.