Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander

Albuquerque, Renilson da Silva

ALERTA!

O Repositório Institucional da UFRPE passou a funcionar em um novo endereço: arandu.ufrpe.br

Use este identificador para citar ou linkar para este item: https://repository.ufrpe.br/handle/123456789/3991

Título:	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
Autor:	Albuquerque, Renilson da Silva
Endereco Lattes do autor:	http://lattes.cnpq.br/3364503614448061
Orientador:	Sampaio, Pablo Azevedo
Endereco Lattes do orientador :	http://lattes.cnpq.br/8865836949700771
Palavras-chave:	Aprendizagem baseada em problemas;Simulação (Computadores);Algoritmos computacionais
Data do documento:	19-Jul-2021
Citação:	ALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.
Abstract:	Reinforcement learning is a machine learning paradigm where the agent learns to solve problems interacting with an environment, executing actions in a trial and error sequence. For each action performed, the agent receives a reward from the environment indicating how effective it was in solving the whole problem. The agent’s objective is to maximize the total reward received. However, in some reinforcement learning problems, the agent needs to learn complex tasks receiving uninformative rewards, leading to the credit assignment problem that slows the agent’s training process. Reward shaping and curriculum learning are techniques that can speed up agent training time by separating the problem into smaller tasks to be solved sequentially, applying smaller and informative rewards for each action performed. Lunar Lander is a simplified 2D simulator used as a benchmark for reinforcement learning solutions to the optimization problem on landing control of a lunar module. However, its standard rewards system assigns much more punitive rewards for the use of the engines, not being very constructive for the agent, which can lead to the credit assignment problem. Hence, this work proposes a curriculum using two additional shaped reward models and runs experiments that aim to minimize the Lunar Lander learning time. This work found that both the new models and the curriculum were more effective in training the Lunar Lander agent compared to the standard rewards model.
Resumo:	A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.
URI:	https://repository.ufrpe.br/handle/123456789/3991
Aparece nas coleções:	TCC - Bacharelado em Ciência da Computação (Sede)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
tcc_renilsondasilvaalbuquerque.pdf		1,15 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas