Campo DC | Valor | Idioma |
dc.contributor.advisor | Faleiros, Thiago de Paulo | - |
dc.contributor.author | Silva Neto, José Reinaldo da Cunha Santos Aroso Vieira da | - |
dc.date.accessioned | 2022-01-11T21:27:42Z | - |
dc.date.available | 2022-01-11T21:27:42Z | - |
dc.date.issued | 2022-01-11 | - |
dc.date.submitted | 2021-11-04 | - |
dc.identifier.citation | SILVA NETO, José Reinaldo da Cunha S. A. V. da. Deep Active Learning Approaches to the task of Named Entity Recognition. 2021. 83 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2021. | pt_BR |
dc.identifier.uri | https://repositorio.unb.br/handle/10482/42729 | - |
dc.description | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021. | pt_BR |
dc.description.abstract | Introdução
Redes neurais profundas são o atual estado da arte para uma grande variedade de desafios
em áreas como processamento de linguagem natural e visão computacional, mas necessitam de uma grande quantidade de dados rotulados para serem treinadas para atingir
tais resultados. Algoritmos de aprendizagem ativa baseados em redes neurais profundas
foram projetados para reduzir a quantidade de dados rotulados que são necessários para
treinar estes modelos. Nesta dissertação, nós investigamos a literatura de aprendizagem
ativa, buscando pontos a serem trabalhados.
Da nossa investigação da literatura, identificamos que os trabalhos atuais utilizam conjuntos de validação para a realização de early stopping do treinamento do modelo durante
a execução do algoritmo de aprendizagem ativa. Em cenários onde possuimos poucos
dados rotulados, especialmente no começo da execução do algortimo de aprendizagem
ativa, não é desejável utilizar dados rotulados para a criação de um conjunto de validação
que não será efetivamente utilizado para o treinamento do modelo. Desta forma, um dos
objetivos deste trabalho é apresentar uma possível solução para substituir a técnica de
early stopping com conjunto de validação.
Uma segunda motivação para este trabalho é reduzir o custo de anotação manual
de dados durante o algoritmo de aprendizagem ativa. Para isto, iremos investigar a
possibilidade de utilizar o modelo treinado para realizar rotulação automática de alguns
dados não rotulados. Trabalhos atuais da literatura propuseram soluções de rotulação
automática a nível de sentenças, onde sentenças completas são selecionadas para serem
rotuladas pelo modelo. Nesta dissertação iremos avaliar também a auto rotulação a nível
de palavras, que permite que o modelo e o humano rotulem palavras de uma mesma
sentença.
Dadas as motivações apresentadas, propusemos 4 hipóteses de pesquisa como possíveis
soluções. A primeira hipótese propõe uma estratégia de early stopping que não utiliza o
v
conjunto de validação. A segunda e terceira hipóteses são relacionadas à investigação da
rotulação automática a nível de sentenças. A quarta hipótese é relacionada à investigação
da rotulação automática a nível de palavras. As hipóteses propostas são:
1. Nós propomos a estratégia DUTE para a realização de early stopping sem a utilização de um conjunto de validação. Nós esperamos que a estratégia DUTE proposta
seja competitiva com técnicas tradicionais de early stopping mas sem utilizar dados
de validação.
2. Nós propomos um algoritmo de aprendizagem ativa com auto rotulação a nível
de sentenças que é robusto à escolha do conjunto inicial de dados rotulados. Nós
hipotetizamos que nosso algoritmo proposto terá um desempenho superior ao da
literatura, tanto em desempenho do modelo treinado quanto em qualidade dos dados
rotulados automaticamente.
3. Nós propomos substituir a técnica de auto rotulação tradicional, por técnicas de selftraining mais sofisticadas da literatura semi supervisionada. Nós hipotetizamos que
a utilização de técnicas mais sofisticadas de self-training irá melhorar o desempenho
do modelo treinado.
4. Nós propomos a utilização de auto rotulação somente nas palavras para as quais o
modelo possui grande confiança nas suas predições, ao invés de rotular sentenças
completas. Nós esperamos que ao identificarmos palavras que podem ser rotuladas
pelo modelo de forma segura em uma sentença selecionada para o humano anotar,
é possível reduzir de forma significativa o custo de anotação manual do algoritmo
de aprendizagem ativa.
Nós propomos um experimento para cada hipótese. Os quatro experimentos são descritos
a seguir.
Experimento 1
O primeiro experimento compara o impacto de diferentes técnicas de early stopping em
um algoritmo de aprendizagem ativa baseada em redes neurais. Nós comparamos técnicas
de early stopping tradicionais baseadas em métricas que utilizam o conjunto de validação
(e.g. f1-score, loss) e a técnica batch gradient disparity proposta na literatura com a nossa
estratégia DUTE. Dos resultados apresentados, identificamos que nossa técnica utiliza
mais épocas de treinamento quando comparada às técnicas tradicionais. No entanto, a
estratégia DUTE possui melhor desempenho quando comparada à técnica batch gradient
disparity, que também não utiliza dados de validação. Desta forma, demonstramos que a
vi
nossa estratégia proposta pode ser utilizada em cenários de poucos recursos onde dados
rotulados são escassos e a criação de um conjunto de validação é indesejável.
Experimento 2
No segundo experimento, nós propomos um algoritmo de aprendizagem ativa com rotulação automática a nível de sentenças que é robusto à escolha do conjunto inicial de dados
rotulados. Nosso algoritmo possui duas diferenças significativas, quando comparado ao
algoritmo da literatura. A primeira diferença é que os dados rotulados pelo humano são
separados dos dados rotulados pelo modelo. Isto nos permite dar um peso menor para
os dados rotulados automaticamente durante o treinamento do modelo, pois estes podem
ser ruidosos. A segunda diferença é que os dados rotulados de forma automática são devolvidos ao conjunto de dados não rotulados após o treinamento do modelo, permitindo
a reanotação destes dados. O experimento 2 consiste, então, na comparação entre o algoritmo da literatura e o nosso algoritmo proposto, ambos com auto rotulação a nível de
sentenças. Para demonstrar a sensibilidade do algoritmo da literatura ao conjunto inicial
de dados rotulados, nós esperamos que uma porcentagem do conjunto de treinamento seja
rotulado de forma manual antes de permitir a auto rotulação pelo modelo. Nós realizamos
testes com a auto rotulação iniciando com 1%, 5%, 10% e 15% do conjunto de treinamento
rotulado. Os resultados do experimento mostraram que tanto o desempenho do modelo
final quanto a qualidade dos dados rotulados automaticamente crescem de acordo com o
tamanho do conjunto inicial de dados rotulados manualmente. Também observamos que
o nosso algoritmo proposto é robusto à escolha do conjunto inicial de dados rotulados.
Ele é capaz de treinar um modelo com desempenho superior aos modelos treinados pelo
algoritmo da literatura, e de rotular menos dados de forma incorreta.
Experimento 3
No terceiro experimento, nós investigamos o impacto de diferentes técnicas de self-training
no nosso algoritmo proposto no experimento 2. Nós avaliamos três técnicas de selftraining da literatura semi-supervisionada, sendo elas: (1) cross-view training[14], (2)
virtual adversarial training[40], e (3) word dropout[14]. Dos resultados obtidos, nós pudemos observar que nenhuma das técnicas obteve resultados consistentemente superiores à
baseline que é o algoritmo de aprendizagem ativa sem self-training. Algumas técnicas
como a cross-view training e a virtual adversarial training obtém resultados melhores
em iterações iniciais do algoritmo quando comparadas à baseline, mas acabam obtendo
resultados piores nas iterações finais.
vii
Experimento 4
O quarto experimento investiga a possibilidade de realizar a auto-rotulação a nível de
palavras. A auto-rotulação a nível de sentenças, utilizada nos experimentos anteriores,
identificava sentenças não rotuladas que poderiam ser completamente anotadas pelo modelo de forma confiável. Neste experimento, nós iremos identificar as palavras, dentro das
sentenças selecionadas para rotulação manual, que podem ser rotuladas pelo modelo de
forma segura. Desta forma, o humano não precisa rotular todas as palavras das sentenças selecionadas pelo algoritmo de aprendizagem ativa, pois algumas das palavras
serão rotuladas de forma automática. A baseline para comparação será o algoritmo de
aprendizagem ativa sem rotulação automática. Os resultados do experimento 4 demonstraram que a solução de auto rotulação a nível de palavras foi capaz de treinar um
modelo com desempenho similar ao treinado pela baseline mas com uma redução significativa na quantidade de dados rotulados manualmente. Mais especificamente, para os
datasets CoNLL2003, OntoNotes5.0 e Aposentadoria, a redução foi de 29, 24%, 14, 37%,
e 3, 95%, respectivamente.
Conclusão
Dos quatro experimentos realizados percebemos que a estratégia DUTE é uma solução
viável para substituir técnicas de early stopping em algoritmo de aprendizagem ativa. Das
desvantagens desta estratégia, podemos citar que ela não é capaz de identificar overfitting
do modelo, uma vez que ela foi projetada para acelerar a simulação do algoritmo de
aprendizagem ativa. Desta forma, a definição dos parâmetros do modelo neural e do
treinamento supervisionado (e.g. épocas de treinamento máximo) devem ser escolhidos
de forma cautelosa.
O segundo experimento mostrou que nosso algoritmo de aprendizagem ativa com rotulação automática a nível de sentenças é mais robusto à escolha do conjunto inicial de
dados rotulados, quando comparado ao algoritmo da literatura. Ao contrário do esperado, nosso algoritmo proposto não é capaz de melhorar significadamente o desempenho
do modelo com menos dados rotulados, como mostrado no Experimento 3. Mesmo técnicas mais sofisticadas de self-training, não foram capazes de melhorar o desempenho do
modelo treinado ao utilizar os dados não rotulados.
O quarto experimento, no entanto, nos mostra que é possível utilizar rotulação automática a nível de palavras para reduzir de forma significativa o custo de anotação
manual. O algoritmo proposto foi capaz de treinar um modelo neural ao seu pico de desempenho utilizando até 29, 24% menos dados rotulados manualmente quando comparado
ao algoritmo de aprendizagem ativa sem auto rotulação.
viii
Trabalhos futuros
Grande parte dos trabalhos atuais da literatura em aprendizagem ativa estudam funções
de sampling, estratégias para selecionar os dados mais interessantes do conjunto de dados
não rotulados. Estes trabalhos focam em acelerar a convergência dos algoritmos de aprendizagem ativa, treinando modelos ao seu pico de desempenho com a menor quantidade
de dados rotulados possível. No entanto, algoritmos de aprendizagem ativa possuem uma
série de questões práticas de implementação ainda não resolvidas. Um dos problemas mais
sérios é a seleção dos hyperparâmetros do modelo e do treinamento supervisionado. No
início do algoritmo de aprendizagem ativa normalmente não há dados de validação para
identificar estes parâmetros. Desta forma, áreas de pesquisa como autoML e tuning de
parâmetros de forma não supervisionada estão fortemente relacionadas à implementação
de algoritmos de aprendizagem ativa em cenários reais.
Outra direção de pesquisa é a busca por métricas capazes de identificar overfitting do
modelo, sem a utilização de dados de validação. Desta forma seria possível realizar o early
stopping do treinamento do modelo de forma confiável, sem a necessidade de um conjunto
de validação.
Podem ser realizados, também, outros experimentos com auto rotulação a nível de
palavras. Uma possibilidade é estender a técnica de refinamento de predições para uma
versão iterativa, capaz de reduzir a quantidade de tokens incorretos. | pt_BR |
dc.language.iso | Inglês | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Deep Active Learning Approaches to the task of Named Entity Recognition | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Aprendizagem ativa | pt_BR |
dc.subject.keyword | Auto-aprendizagem | pt_BR |
dc.subject.keyword | Classificação sequencial | pt_BR |
dc.subject.keyword | Redes neurais profundas | pt_BR |
dc.subject.keyword | Reconhecimento de entidades nomeadas | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | Deep neural networks are the current state-of-the-art for a variety of challenging tasks
in fields such as natural language processing and computer vision, but they rely on big
labeled datasets to be trained to achieve such results. Deep active learning algorithms
have been designed to reduce the amount of labeled data to train these models. This dissertation identifies shortcomings of the current works from the literature on deep active
learning algorithms applied to the task of named entity recognition, and proposes potential solutions to them. In particular, current works from the literature rely on validation
sets to apply early stopping of the model training during the active learning process. In
low resource scenarios, however, separating labeled samples in order to create a validation set is undesirable. Therefore, we propose the Dynamic Update of Training Epochs
(DUTE) strategy that acts as an unsupervised early stopping technique. Experimental
results suggest that the proposed DUTE strategy is capable of maintaining the trained
model’s performance, when compared to traditional early stopping techniques, while not
relying on validation sets. We also investigate self-labeling as a viable option to further
reduce the annotation costs in active learning scenarios. In particular, we experiment
with sentence-level and token-level self-labeling strategies. It was observed that despite
significant efforts, sentence-level self-labeling did not incur a significant improvement over
previous works from the literature. However, token-level self-labeling has shown promising
results by training models that achieve similar performance to the current state-of-the-art
works on deep active learning from the literature while requiring significantly less hand
annotated data. More specifically, experiments performed on the CoNLL2003 dataset
have shown that the proposed token-level self-labeling strategy trained a neural model to
near peak performance using 29.24% less hand annotated data. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|