Predição de evasão de militares do Exército Brasileiro utilizando técnicas de machine learning

Mercês, Marcella Guarnieri

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/47819

Arquivos associados a este item:

Arquivo	Tamanho	Formato
MarcellaGuarnieriMerces_DISSERT.pdf	6,02 MB	Adobe PDF	Visualizar/Abrir

Título:	Predição de evasão de militares do Exército Brasileiro utilizando técnicas de machine learning
Autor(es):	Mercês, Marcella Guarnieri
Orientador(es):	Victorino, Marcio de Carvalho
Coorientador(es):	Pinheiro, Wallace Anacleto
Assunto:	Rotatividade de pessoal Exército brasileiro Aprendizagem de máquina Predição
Data de publicação:	21-Fev-2024
Data de defesa:	22-Jun-2023
Referência:	MERCÊS, Marcella Guarnieri. Predição de evasão de militares do Exército Brasileiro utilizando técnicas de machine learning. 2023. xiii, 74 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023.
Resumo:	Esse trabalho teve por objetivo realizar uma análise do quadro demissionário de oficiais do Exército Brasileiro ao longo dos anos e propor um conjunto de técnicas que possibilitem identificar os oficiais com maior probabilidade de se tornarem demissionários, de forma a permitir que o Exército aja proativamente a fim de evitar as perdas que esse ato causa para a Força Terrestre. As abordagens escolhidas levaram em consideração as técnicas de aprendizado de máquina mais utilizadas para a predição de demissão voluntária de empregados em empresas dos mais diversos ramos de atuação, como os algoritmos de classificação K-nearest neighbors (KNN), árvores de decisão, random forest, gradient boosting, extreme gradient boosting (XGBoost) e CatBoost. Também foram testadas a utilização de técnicas de detecção de outliers e a utilização dos algoritmos de classificação em conjunto com técnicas de reamostragem, combinando técnicas de undersampling com técnicas de oversampling. O estudo de caso foi feito de acordo com o framework CRISPDM e utilizou dados de oficiais do Exército Brasileiro que ingressaram nessa Força entre 1990 e 2020. Todas as combinações de técnicas e algoritmos foram analisadas para o conjunto de dados completo e para conjuntos de dados separados por carreiras. Foi possível obter resultados de predição satisfatórios para o objetivo do estudo, com uma predição superior à obtida através de um algoritmo que seleciona apenas a classe mais comum. Três algoritmos utilizados no conjunto de dados completo obtiveram o melhor resultado, sendo estatisticamente equivalente entre eles: XGBoost e CatBoost com a realização de etapas de pré-processamento e CatBoost sem a realização de etapas de pré-processamento. A separação por carreira não foi capaz de melhorar o resultado da predição obtida com o conjunto de dados completo. Para a implantação, foi escolhido o resultado do CatBoost sem as etapas de pré-processamento, por ser o mais rápido em treinamento e mais simples em implementação entre os melhores resultados. Os atributos com maior importância para essa classificação foram a quantidade de cursos, o tempo de serviço e o tempo desde formado.
Abstract:	This research aims to analyze the turnover of Brazilian Army’s officers over the years and propose a set of techniques that allow the identification of those officers more likely to resign. This result can help the Brazilian Army to act so that these resignations have a lesser impact in it’s productivity. The approaches chosen considered the most common techniques used to predict employee churn in other areas. Common classification algorithms, such as K-nearest neighbors (KNN), decision trees, random forest, gradient boosting, extreme gradient boosting (XGBoost), and CatBoost, were used. Techniques to detect outliers in the dataset were also tested, as well as resampling techniques with the combination of both undersampling and oversampling algorithms. The case study used the framework CRISP-DM. The chosen data set had the data of all officers that entered the Brazilian Army between 1990 and 2020. All techniques and algorithms combinations were tested for both the whole data set and for data sets divided by the different careers officers can have. Satisfactory results were achieved by obtaining a model that is better at predicting turnover than an algorithm that always classifies all elements as the majority class. In fact, three of the models obtained presented the best results, with all three being statistically equivalent to each other: XGBoost and CatBoost combined with data pre-processing and CatBoost without any data pre-processing. Dividing the data by career did not improve the results obtained with the whole data set. For the implantation part of CRISP-DM the model generated with CatBoost without data pre-processing was chosen, since it is the one that has faster training and simpler code among the three best. It was also possible to discover that the attributes with the highest importance to the classification were number of courses, time since joining the Army and time since graduating.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
Programa de pós-graduação:	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas