Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment

Silva, Jonatan Washington Pereira da

ALERTA!

O Repositório Institucional da UFRPE passou a funcionar em um novo endereço: arandu.ufrpe.br

Use este identificador para citar ou linkar para este item: https://repository.ufrpe.br/handle/123456789/3954

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Sampaio, Pablo Azevedo	-
dc.contributor.author	Silva, Jonatan Washington Pereira da	-
dc.date.accessioned	2023-02-14T16:25:32Z	-
dc.date.available	2023-02-14T16:25:32Z	-
dc.date.issued	2019-12-10	-
dc.identifier.citation	SILVA, Jonatan Washington Pereira da. Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment. 2019. 49 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.	pt_BR
dc.identifier.uri	https://repository.ufrpe.br/handle/123456789/3954	-
dc.description	O aprendizado por reforço é um conjunto de técnicas que permitem a um agente interagir com um determinado ambiente. Os agentes observam o estado do ambiente e executam uma ação, a ação é avaliada por meio de uma recompensa obtida. O agente tem como objetivo maximizar esta recompensa. Diversas questões como: locomoção em três dimensões e jogos eletrônicos foram abordados pelo aprendizado por reforço (KURACH et al., 2019). O treinamento de agentes para um jogo de futebol normalmente possui recompensas esparsas, o que retarda o aprendizado (MATIISEN et al., 2019). Uma técnica que pode contornar este obstaculo é o aprendizado por currículo proposto em (BENGIO et al., 2009). O aprendizado por currículo é uma técnica que aborda sub-tarefas mais simples da tarefa principal e aumenta gradativamente o nível de dificuldade ao longo do tempo. Neste trabalho apresentamos dois currículos, identificados como: 5-15-30-50 e 3-10-20-67, para o cenário Run to Score with Keeper da Football Academy. Mostramos que os currículos, em média, obtiveram melhores resultados se comparados ao treinamento apenas no cenário principal, sem currículo. O currículo 3-10-20-67 obteve um melhor resultado mesmo considerando o desvio padrão.	pt_BR
dc.description.abstract	Reinforcement learning is a group of techniques that allow an agent to interact with a particular environment. Agents observe the state of the environment and perform an action, the action is evaluated through a reward obtained. The agent objective is to maximize this reward. Various issues such as three-dimensional locomotion and electronic games have been addressed by reinforcement learning (KURACH et al., 2019). The Trainament of agents for a soccer game usually has sparse rewards, what slows learning (MATIISEN et al., 2019). One technique that can solve this obstacle is the curriculum learning proposed in (BENGIO et al., 2009). This technique use simplest tasks of the main task and the increase difficult level with the time. In This work we present two curriculum, identified as 5-15-30-50 e 3-10-20-67, for the scenario Run To Score With Keeper of Football Academy. We have shown that curriculums on average achieved better results compared to training only in the main scenario, without curriculum. Curriculum 3-10-20-67 achieved a better result even considering the pattern deviation.	pt_BR
dc.format.extent	49 f.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Atribuição-SemDerivações 4.0 Internacional (CC BY-ND 4.0)	pt_BR
dc.rights	https://creativecommons.org/licenses/by-nd/4.0/deed.pt	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	openAccess	pt_BR
dc.subject	Markov, Processos de	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Algoritmos computacionais	pt_BR
dc.title	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment	pt_BR
dc.type	bachelorThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/6846637095187550	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/8865836949700771	pt_BR
dc.contributor.advisor-co	Macário Filho, Valmir	-
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/4346898674852080	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.local	Recife	pt_BR
dc.degree.grantor	Universidade Federal Rural de Pernambuco	pt_BR
dc.degree.graduation	Bacharelado em Ciência da Computação	pt_BR
dc.degree.departament	Departamento de Computação	pt_BR
Aparece nas coleções:	TCC - Bacharelado em Ciência da Computação (Sede)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
tcc_jonatanwashingtonpereiradasilva.pdf		7,15 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas