Classificação de imagens com artefatos de compressão : uma abordagem fim-a-fim

Reis, Andrey Otacílio Oliveira dos

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.unb.br/handle/10482/50925

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2024_AndreyOtacilioOliveiraDosReis_DISSERT.pdf		8,85 MB	Adobe PDF	Visualizar/Abrir

Título :	Classificação de imagens com artefatos de compressão : uma abordagem fim-a-fim
Autor :	Reis, Andrey Otacílio Oliveira dos
Orientador(es)::	Silva, Daniel Guerreiro e
Assunto::	Redes neurais (Computação) Imagens - classificação Compressão de dados
Fecha de publicación :	14-nov-2024
Data de defesa::	27-may-2024
Citación :	REIS, Andrey Otacílio Oliveira dos. Classificação de imagens com artefatos de compressão: uma abordagem fim-a-fim. 2024. 85 f., il. Dissertação (Mestrado em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2024.
Resumen :	A classificação refinada de imagens é uma modalidade de inferência muito importante em visão computacional, devido à sua utilidade em abordar problemas que possuem um número elevado de classes. Além de exigir modelos com maior capacidade de aprendizado, o conjunto de imagens usadas no treinamento deve conter uma grande quantidade de amostras de boa qualidade. A presença de compressão com perdas, porém, ao degradar a qualidade do sinal, pode dificultar drasticamente a tarefa do classificador. Uma vez que a compressão muitas vezes viabiliza a composição dos conjuntos de treinamento dos modelos, o seu impacto nesse tipo de aplicação não pode ser ignorado. Nesse trabalho, propomos uma arquitetura de Rede Neural Artificial (RNA) capaz de mitigar significativamente os prejuízos causados pela compressão JPEG. Para tanto, ela conta com uma dupla ramificação de redes que serão treinadas em conjunto. Os dois ramos, um para Redução de Artefatos da Compressão (RAC) e outro para classificação, são conectados de forma que a saída do primeiro é a entrada do segundo. O ramo de RAC consiste em uma RNA de geração de imagens responsável pela redução dos efeitos de perdas no sinal comprimido. O ramo de classificação, por sua vez, utiliza-se de uma RNA pré-treinada para receber essas imagens reconstruídas como entrada e executar a classificação. Dessa forma, o treinamento fim-a-fim é capaz tanto de melhorar a qualidade do sinal, priorizando características importantes para a classificação, quanto de se adaptar a receber imagens restauradas com certa degradação para realizar a inferência. Nos dois conjuntos de imagens que utilizamos, Caltech 200 Cub e Oxford 102 Flower, aumentamos a acurácia média para 10 fatores de qualidade (FQs) diferentes em 46.54% e 5.81%, respectivamente. Apesar da pouca flexibilidade do modelo em relação aos FQs e a necessidade de um treinamento adicional, o nosso trabalho evidencia uma correlação entre a eficiência do codificador e o desempenho do classificador, além de apresentar uma arquitetura que extrai proveito desse aspecto para melhorar o processo de classificação de imagens comprimidas.
Abstract:	Fine-grained image classification is a very important category of classification in computer vision due to its usefulness in tackling problems with a large number of classes. As well as requiring models with greater learning capacity, the datasets used for training must contain a large number of good quality samples. However, lossy compression can drastically hinder the classifier’s task by degrading the signal quality. Compression and its impact on this type of application cannot be ignored, since it is something that even enables building the training datasets for the models. In this work, we propose a Neural Network (NN) architecture capable of mitigating the damage caused by JPEG compression. To do so, it relies on a double branch structure that is trained together. The two branches, one for Compression Artifacts Reduction (CAR) and the other for classification, are connected in such a way that the output of the first is the input of the second. The CAR branch consists of an image generation NN responsible for reducing the distortion effects in the compressed signal. In turn, the classification branch uses a pre-trained NN to receive these reconstructed images as input and perform the classification. In this way, end-to-end training is able to improve both the signal quality by prioritizing important features for classification and to adapt to receiving restored images with a certain amount of degradation in order to carry out inference. In the two datasets we used, Caltech 200 Cub and Oxford 102 Flower, we increased the average accuracy for 10 different quality factors (QFs) by 45.6% and 5.81%, respectively. Despite the model’s lack of flexibility with regard to QFs and the need for additional training, our work shows a strong correlation between codec efficiency and classifier performance. It also presents an architecture that takes advantage of this aspect to improve the compressed image classification process.
metadata.dc.description.unidade:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Descripción :	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2024.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Engenharia Elétrica
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Aparece en las colecciones:	Teses, dissertações e produtos pós-doutorado

Mostrar el registro Dublin Core completo del ítem " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/50925/statistics">