Modelagem de aprendizagem por reforço e controle em nível meta para melhorar a performance da comunicação em gerência de tráfego aéreo

Alves, Daniela Pereira

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/4996

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2006_Daniela Pereira Alves.pdf		738,09 kB	Adobe PDF	Visualizar/Abrir

Título:	Modelagem de aprendizagem por reforço e controle em nível meta para melhorar a performance da comunicação em gerência de tráfego aéreo
Autor(es):	Alves, Daniela Pereira
Orientador(es):	Weigang, Li
Assunto:	Processamento eletrônico de dados - processamento distribuído ATM (Tecnologia de rede de computador) Engenharia de tráfego Tráfego aéreo
Data de publicação:	11-Jun-2010
Data de defesa:	9-Nov-2006
Referência:	ALVES, Daniela Pereira. Modelagem de aprendizagem por reforço e controle em nível meta para melhorar a performance da comunicação em gerência de tráfego aéreo. 2006. 121 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2006.
Resumo:	Uma solução computacional que utiliza troca de mensagens lida com a dificuldade em decidir qual a melhor ação a ser executada à medida que uma nova mensagem chega. No caso específico da área de tráfego aéreo, o uso de troca de mensagens é empregado para manter consistentes as informações distribuídas entre os aeroportos, sujeitas ás características estocásticas deste contexto. O uso de gerência em nível meta e a aprendizagem por reforço foram empregados, neste trabalho, com intuito de apresentar uma estratégia para tratar o problema de gerência da imensa quantidade de mensagens geradas no contexto de tráfego aéreo. A estratégia proposta fundamenta-se na busca pela adaptação por meio da aprendizagem durante o processo de tomada de decisão. A idéia é empregar uma camada adicional de controle em nível meta sobre a camada de controle já existente no sistema hospedeiro para auxiliar o processo de tomada de decisão. A decisão passa a ser tomada com uso da experiência adquirida pelo agente com a aprendizagem por reforço melhorada por heurísticas propostas. O trabalho, então, propõe um modelo de computação inteligente para auxílio do processo de tomada de decisão de um sistema distribuído aplicado a Air Traffic Flow Management (ATFM). Ele é indicado para atuar na comunicação via troca de mensagens entre aeroportos, trabalhando como uma camada adicional em um aeroporto que usa os metadados das mensagens em suas decisões, com vistas à otimização na definição de uma hierarquia para atendimento às mensagens. O modelo é considerado inovador porque usa aprendizagem por reforço adequada às características deste ambiente estocástico, preocupando-se com a velocidade e qualidade do processo de tomada de decisão. Na modelagem, três estratégias foram propostas para a aprendizagem: heurística inicial, epsilon adaptativo e heurística baseada em performance. Elas são combinadas aos algoritmos de aprendizado por reforço: Q-learning e SARSA. Os estudos de caso avaliam o desempenho, a qualidade do aprendizado quanto às três melhorias propostas e também o comportamento do Q-learning quando são alterados parâmetros do algoritmo. ___________________________________________________________________________________________ ABSTRACT A computational solution which uses message exchange deals with difficulty to decide what is the best action to execute when a new message arrives. In the specific case of Air Traffic field, the use of message exchange is employed to keep consistency among distributed airport information which are subject to random characteristics of the context. In this work meta-level management and reinforcement learning is employed, with the intention to present one strategy to deal with the problem of managing huge quantity of messages that are created in the aero air traffic context. The proposed strategy is based in the search for adapt action through the learning during the decision make process. The idea is to employ one additional meta-level control layer over the existing control layer in the host system to assist the decision process. The decision is then made using the experience acquired by the agent with the improved heuristical proposals. This work proposes one intelligent computational model to assist the decision make process in a distributed systems applied to the Air Traffic Flow Manage- ment - ATFM. It is indicated to deal with the communication through message exchanges between airports, working like an additional layer in an airport that uses message’s metadata in its decision of pursuing the optimization in the hie- rarchy to attendance messages. The model is considered innovative because it uses reinforcement learning adjusted to the characteristics of the random environment, concerned with the speed and quality in decision make process. In the modeling, three strategy was proposed for learning: initial heuristics, adaptative heuristics and performance heuristics. They are combined with algo- rithms: Q-learning and SARSA. The case studies evaluate by the three enhan- cements proposed - performance, learning quality and Q-learning behavior when parameters is modified.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas