Campo DC | Valor | Idioma |
dc.contributor.advisor | Weigang, Li | pt_BR |
dc.contributor.author | Enamoto, Liriam Michi | pt_BR |
dc.date.accessioned | 2024-08-13T18:59:14Z | - |
dc.date.available | 2024-08-13T18:59:14Z | - |
dc.date.issued | 2024-08-13 | - |
dc.date.submitted | 2023-04-13 | - |
dc.identifier.citation | ENAMOTO, Liriam Michi. GeMGF - Generic Multimodal Gradient-Based Meta Framework. 2023. 118 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/49811 | - |
dc.description | Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. | pt_BR |
dc.description.abstract | O surgimento do Transformer, um modelo pré-treinado utilizando dados em larga escala,
e as suas recentes novas versões têm revolucionado as pesquisas de Machine Learning
em linguagem de processamento natural e visão computacional. Os excelentes resultados
obtidos pelos modelos baseados em Transformer dependem de dados rotulados de altaqualidade e de um domínio específico em estudo. No entanto, devido à diversidade de
situações em que esses modelos são utilizados, é desafiador criar modelos que aprendam a
partir de um conjunto limitado de dados. O modelo pode apresentar falta de generalização,
vieses de linguagem e falta de imparcialidade causados pelos modelos pré-trainados o que
pode levar a resultados inesperados em aplicações do mundo real. Este problema não
resolvido nos levou à pesquisar sobre Multimodal Few-Shot Learning.
Foi efetuada uma revisão sistemática abrangente na literatura em que 138 trabalhos publicados após 2019 sobre Multimodal Few-Shot Learning foram selecionados. Selecionamos 19 artigos finais divididos em dois grupos. O primeiro grupo é representado
pelos modelos que utilizam um grande conjunto de dados para o treinamento (Teacher
Network) e transfere o conhecimento adquirido para executar a tarefa principal (Student
Network). Neste grupo, podemos citar como exemplo o Transformer. O segundo grupo
utiliza diversos métodos: (i) aprendizado baseado em otimização; (ii) Graph Neural Network (GNN); (iii) Generative Adversarial Network (GAN); (iv) Zero-Shot Learning (ZSL).
Uma análise detalhada sobre a metodologia, vantagens e desvantagens das abordagens de
Multimodal Few-Shot Learning em cada um dos 19 artigos nos permitiu identificar os
problemas ainda não endereçados.
As lacunas encontradas na revisão sistemática nos levou a desenvolver o Generic
Multimodal Gradient-Based Meta Framework (GeMGF). Para compensar a falta de
dados, utilizamos dados multimodais em que informações suplementares e complementares
de uma modalidade podem auxiliar na representação dos dados. Os dados multimodais
são extraídos utilizando modelos de deep leaning e então representados em um espaço
vetorial unificado.
Abordamos o problema do aprendizado com poucos dados através de duas perspectivas: modelo e dados. Considerando a perspectiva do modelo, o algoritmo pode ter dificuldade de generalização no aprendizado supervisionado caso os dados nunca vistos
utilizados no conjunto de teste não estiverem contidos no conjunto de treinamento. Este
problema foi endereçado por meio do meta-learning em dois níveis de aprendizado: baselearner e o meta-learner.
Considerando a perspectiva dos dados, a falta de dados de treinamento foi compensado pelo aprendizado multimodal em que informações complementares de uma modalidade podem ajudar na representação dos dados. O principal objetivo do aprendizado
multimodal é criar uma abstração da representação unificada das diferentes modalidades.
A representação de dados multimodais apresenta alguns desafios dada a heterogeneidade
da estrutura, tamanho e dimensão dos dados das diversas modalidades. Neste processo, a
escolha do tipo de fusão multimodal é importante para permitir o alinhamento ou fusão
entre os dados heterogêneos de cada modalidade.
Entrando em mais detalhes sobre a perspectiva do modelo, o GeMGF é composto pelo
base-learner e o meta-learner. O base-learner é repensável pela extração e representação
dos dados multimodais, composto por quatro sub-modelos: (i) image embedding (submodelo 1); (ii) text embedding (sub-modelo 2); (iii) multimodal embedding (sub-modelo
3); e (iv) Multimodal Few-Shot Learning) (sub-modelo 4). O Residual Neural Network
(ResNet) foi utilizado para a extração de imagens por ser adaptável conforme a disponibilidade de recurso computacional. Utilizamos o ResNet30, contendo apenas 30 identity
blocks. O Bidirectional Long Short-Term Memory (BiLSTM) foi utilizado para a extração
de textos por permitir capturar o contexto do time step do passado e do futuro em textos
longos. Após a extração dos dados, o modelo aprende o alinhamento entre imagem e texto
integrando os dados em um mesmo espaço vetorial para reduzir o gap semântico entre as
modalidades. Utilizamos a fusão a nível de decisão em que os dados de cada modalidade
são extraídos separadamente e cada modalidade possui um classificador específico. Então
o Prototypical Network e o Relation Network são utilizados para aprender a relação entre
o protótipo de cada classe e os dados do query set.
O meta-learner é responsável por atualizar periodicamente os parâmetros do baselearner por meio do Reptile — um meta-learner baseado em otimização. O Reptile e
o Few-Shot Learning (FSL) auxiliam a otimizar o aprendizado do framework, mesmo
utilizando poucos dados para o treinamento. A configuração do GeMGF como um todo
reduz a dependência de um dataset rotulado com grande volume de dados. Adicionalmente
ao framework multimodal, criamos a versão unimodal para avaliar a sua flexibilidade e
adaptabilidade em diferentes cenários.
O framework foi validado por meio de dez conjuntos de dados de diversas áreas: textos
curtos do Twitter, textos longos da área jurídica, textos com caracteres alfabéticos (inglês
e português) e não-alfabéticos (japonês), imagens da área médica e dados multimodais. O framework unimodal para texto foi validado por meio de oito conjunto de dados,
sendo cinco conjuntos de dados reais de diversas áreas (EN-T, Tweet250, JP-T, Livedoor e
DEC6). Utilizamos também três conjuntos de dados benchmark para comparação (20NG,
Oxford-102 e CUB-200-2011). Por meio dos experimentos, analisamos a dependência do
framework da qualidade, quantidade, idioma do texto e distribuição dos dados entre as
classes. O framework unimodal superou o modelo baseline em sete conjunto de dados
(EN-T, Tweet250, JP-T, Livedoor, DEC6, CUB-200-2011 e Oxford-102), sendo que o
GeMGF unimodal superou tanto o modelo baseline como o Transformer BERT com os
conjunto de dados CUB-200-2011 e Tweet250. O framework unimodal para texto alcançou
resultados excelentes com dados textuais em japonês, superando o modelo Transformer
BERT em 58,30% com 90,90% menos parâmetros. Este excelente resultado sugere que
a rica representação dos caracteres em japonês (kanji) auxiliou a criar um protótipo de
classe de qualidade, porém é necessário uma investigação mais aprofundada para analisar
o resultado.
O framework unimodal para imagem foi validado por meio de dois conjuntos de dados
da área médica (COVID19 e Malaria) e dois conjunto de dados benchmark (Oxford-102 e
CUB-200-2011). O GeMGF para imagem atingiu resultados similares ao modelo EfficientNet V2 somente com o conjunto de dados COVID19. O EfficientNet V2 se beneficiou do
conhecimento adquirido no pré-treinamento utilizando ImageNet que possui 1,2 milhões
de imagens de 1000 classes diferentes, inclusive flores e pássaros contidos nos conjuntos
de dados Oxford-102 e CUB-200-2011.
O framework multimodal superou em 1,43% o modelo estado-da-arte de Munjal et al.
2023 com CUB-200-2011, e superou em 1,93% o modelo de Pahde et al. 2021 com Oxford102. O resultado do framework multimodal foi 34,68% superior ao framework unimodal
para imagem com CUB-200-2011, e 13,96% superior com Oxford-102. Os resultados
sugerem que a combinação de dados textuais e imagens podem auxiliar no aprendizado e
na melhoria da performance do framework como um todo.
Para analisar o impacto de quatro componentes do GeMGF, efetuamos as seguintes
ablation analyses: (i) Relation Network; (ii) image embedding (sub-modelo 1); (iii) text
embedding (sub-modelo 2); e (iv) tipo de fusão multimodal. O Relation Network foi
o componente de maior impacto e foi validado por meio da substituição pela distância
euclidiana. O framework obteve uma acuária 109,90% superior com o Relation Network
quando comparado à distância euclidiana com CUB-200-2011 e 97,54% superior com
Oxford-102. O resultado sugere que o Relation Network auxilia o modelo a aprender a
relação entre o protótipo da classe e os dados do query set de forma mais eficiente.
O tipo de fusão multimodal foi o segundo componente de maior impacto. Ao substituir
a fusão a nível de decisão pela fusão a nível de características, a acurácia do framework
diminuiu em 41,63% com CUB-200-2011 e 43,56% com Oxford-102. O resultado sugere
que a escolha da fusão multimodal é um dos fatores chaves no aprendizado multimodal.
O terceiro componente de maior impacto no GeMGF foram os dados textuais, validados por meio do congelamento das camadas treináveis do text embedding (sub-modelo 2).
Observou-se uma diminuição na acurácia de 45,10% com CUB-200-2011 e 36,92% com
Oxford-201.
O componente de menor impacto no framework multimodal foram os dados de imagens,
validados por meio do congelamento das camadas treináveis do image embedding (submodelo 1). Observou-se um decréscimo na acurácia de 5,15% com CUB-200-2011 e 7,46%
com Oxford-201. Esse baixo impacto pode ser explicado pela arquitetura compacta do
image embedding (sub-modelo 1) composto pelo ResNet30 contendo somente três milhões
de parâmetros. A arquitetura deste sub-modelo poderia ser melhorado aumentando a
profundidade do ResNet e utilizando conhecimento externo por meio de pré-trinamento,
porém esta mudança acarretaria em um aumento no custo computacional.
O impacto ambiental causado pelo treinamento de modelos complexos tem chamado
a atenção da comunidade acadêmica devido ao aumento das emissões de carbono proveniente de data centers. Muitos modelos de machine learning são treinados em serviços
na nuvem, incluindo o nosso framework que foi treinado no Google Colab. Consideramos
a preocupação de criar modelos pequenos e compactos bastante relevante, pois o treinamento desses modelos coletivamente podem contribuir para o aumento das emissões de
carbono. Efetuamos a medição do consumo de recurso computacional do GeMGF por
meio de dois fatores: o número de parâmetros treináveis e a quantidade de operações de
ponto flutuante (FLOP). O GeMGF multimodal utiliza 14 milhões de parâmetros 99,8%
a menos que o Multimodal Transformer.
As principais contribuições desta pesquisa são: (i) um novo framework FSL multimodal
que reduz a degradação do modelo quando treinado com poucos dados; (ii) GeMGF
é treinado sem utilizar o conhecimento externo evitando vieses de linguagem e a falta
de imparcialidade; (iii) GeMGF possui extratores de dados multimodais independentes
e flexíveis que podem contribuir para aumentar a sua aplicabilidade; e (iv) o GeMGF
unimodal para texto pode ser adaptado para idiomas alfabéticos e não-alfabéticos com
ótimos resultados.
Como trabalhos futuros, pretendemos melhorar o modelo nos seguintes aspectos: (i)
fornecer transparência e confiabilidade nos resultados por meio de Explainable Model;
e (ii) aprofundar a análise do modelo utilizando multi-idiomas, especialmente idiomas
asiáticos. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | GeMGF : Generic Multimodal Gradient-Based Meta Framework | pt_BR |
dc.title.alternative | GeMGF : Meta Framework Multimodal baseado em Gradiente | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | Multimodalidade | pt_BR |
dc.subject.keyword | Framework | pt_BR |
dc.subject.keyword | Meta-aprendizagem | pt_BR |
dc.subject.keyword | Aprendizagem profunda | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The emergence of Transformer — a model pre-trained over a large-scale dataset — and
the recent new versions have revolutionized research in Machine Learning, especially
in Natural Language Processing (NLP) and Computer Vision. The excellent results of
Tranformer-based models depend on labeled and high-quality domain specific data. However, due to the diversity of contexts in which these models are used, it is challenging to
create models that learn from limited data. The model may suffer from a lack of generalization, language bias, and fairness issues caused by large pre-trained models, resulting
in unexpected outcomes in real-world applications. This open problem leads to research
in multimodal Few-Shot Learning (FSL).
In this thesis, we devised the Generic Multimodal Gradient-Based Meta Framework
(GeMGF). To compensate for the scarcity of data, we use multimodal data in which
supplementary and complementary information of one modality can help the data representation. The multimodal data are extracted using deep learning models and represented
in a unified vector space. The framework uses the Prototypical Network and Relation Network in the FSL. The Reptile — an optimization-based meta-learner — helps avoid model
degradation with unseen data. In addition to the multimodal framework, we created the
unimodal version to evaluate the flexibility and adaptability of the framework in different
scenarios.
The framework was evaluated using ten datasets from various domains and characteristics, including short texts from Twitter, legal domain long text, text with alphabetic
(English and Portuguese) and non-alphabetic (Japanese) languages, medical domain images, and multimodal benchmark datasets. Our multimodal framework was evaluated
using CUB-200-2011 and Oxford-102 datasets, outperforming the state-of-the-art model
of Munjal et al. [1] by 1.43% with CUB-200-2011 and Pahde et al. [2] by 1.93% with
Oxford-102. The result of the multimodal framework with CUB-200-2011 was 34.68%
higher than the unimodal framework for image and 13.96% higher with Oxford-102. The
results suggest that text and image data jointly helped the framework learn rich information and improve overall performance. The multimodal GeMGF is a simple and compact
framework using only 14 million parameters, 99.8% less than the Multimodal Trans former. The unimodal framework for text achieved excellent results with the Japanese
dataset, outperforming Transformer BERT by 58.30% with 90.90% fewer parameters.
These results suggest that our framework achieved better performance with a significant
computational cost reduction.
The main contributions of our research are: (i) a novel multimodal FSL framework,
GeMGF is developed to reduce the model degradation trained over a few data; (ii) GeMGF
is trained without external knowledge avoiding language bias and fairness issues; (iii)
GeMGF has independent and flexible feature extractors that enhance its applicability;
and (iv) the unimodal framework for text can be adapted to process alphabetic and nonalphabetic languages with high performance. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|