DESENVOLVIMENTO DE UM SISTEMA DE APRENDIZADO POR REFORÇO PARA TIMES DE ROBÔS - UMA ANÁLISE DE DESEMPENHO POR MEIO DE TESTES ESTATÍSTICOS

August 29, 2017 | Autor: André Ottoni | Categoria: Reinforcement Learning, Simulation of Soccer Robots, Inteligencia artificial, RoboCup, Aprendizado de máquina, RoboCup 2D, Aprendizado por Reforço, RoboCup 2D, Aprendizado por Reforço

Share Embed

Denunciar este link

Descrição do Produto

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

DESENVOLVIMENTO DE UM SISTEMA DE APRENDIZADO POR REFORCO ¸ ˆ - UMA ANALISE ´ PARA TIMES DE ROBOS DE DESEMPENHO POR MEIO DE TESTES ESTAT´ ISTICOS ´ Luiz Carvalho Ottoni∗, Rubisson Duarte Lamperti†, Erivelton Geraldo Andre Nepomuceno∗, Marcos Santos de Oliveira‡ ∗

Grupo de Controle e Modelagem, Departamento de Engenharia El´etrica, Universidade Federal de S˜ ao Jo˜ ao del-Rei, Pra¸ca Frei Orlando, 170, Centro, 36307-352 - S˜ ao Jo˜ ao del-Rei, MG, Brasil

†

Grupo de Controle e Modelagem, Programa de P´ os-Gradua¸ca ˜o em Engenharia El´etrica, Universidade Federal de S˜ ao Jo˜ ao del-Rei, Pra¸ca Frei Orlando, 170, Centro, 36307-352 - S˜ ao Jo˜ ao del-Rei, MG, Brasil ‡

Departamento de Matem´ atica e Estat´ıstica, Universidade Federal de S˜ ao Jo˜ ao del-Rei, Pra¸ca Frei Orlando, 170, Centro, 36307-352 - S˜ ao Jo˜ ao del-Rei, MG, Brasil

Emails: [email protected], [email protected], [email protected], [email protected] Resumo— O presente trabalho apresenta uma metodologia de modelagem da t´ ecnica de aprendizado por refor¸co para times de futebol de robˆ os 2D. A implementa¸c˜ ao da estrat´ egia de aprendizagem consiste de quatro etapas: defini¸ca ˜o e discretiza¸ca ˜o das a¸c˜ oes dos agentes; defini¸c˜ ao e discretiza¸c˜ ao dos estados do ambiente no qual os agentes est˜ ao inseridos; defini¸c˜ ao dos valores dos refor¸cos da tabela R, para cada par Estado (S) X A¸ca ˜o (A); implementa¸c˜ ao no Simulador RcSoccerSim da Robocup de Futebol de Robˆ os. Al´ em disso, ´ e proposta uma an´ alise estat´ıstica por meio do teste T-Pareado para compreender o sistema de aprendizagem quando submetido ` a competi¸c˜ ao entre outros times. Palavras-chave—

Aprendizado por Refor¸co, Futebol de Robˆ os, An´ alise Estat´ıstica

Abstract— This paper presents a methodology for modeling the technique of reinforcement learning for teams of robots 2D. The implementation of the learning strategy consists of four steps: definition and discretization of the actions of agents; definition and discretization of the states of the environment in which the agents are inserted, defining the values of the reinforcement R table for each pair state (S) X Action (A), implementation of the simulator of RoboCup Robot Soccer. Furthermore, we propose a statistical analysis by paired t-test to understand the learning system when subjected to competition from other teams. Keywords—

Reinforcement Learning, Robot Soccer, Statistical Analysis

1

Introdu¸ c˜ ao

A possibilidade do desenvolvimento de m´aquinas ou sistemas Inteligentes tem sido o alvo de pesquisadores de diversas partes do mundo (Russell, 2004). Na d´ecada de 90, as m´ aquinas inteligentes tornaram-se realidade e est˜ ao cada vez mais presentes na sociedade (Nascimeno Jr., 2009; Texeira et al., 2009; Lacerda et al., 2009a; Garcia, 2003; Lacerda et al., 2009b). Dentre os diversos exemplos da utiliza¸c˜ ao de m´aquinas inteligentes est˜ao: o uso de sistemas especialistas em tomadas de decis˜ oes, o uso da Inteligˆencia Computacional para o controle de processos industriais, e a utiliza¸c˜ao de robˆ os na realiza¸c˜ ao de tarefas repetitivas ou de elevado risco para o ser humano. A complexidade de algumas tarefas pode se tornar ainda maior quando se trata de m´ aquinas autˆonomas, ou seja, m´aquinas capazes de estabelecerem a¸c˜oes devido a eventos dinˆ amicos imprevis´ıveis (Kim and Oh, 2010). Por´em, a evolu¸c˜ao nesse cen´ario traz grandes avan¸cos `as pesquisas tecnol´ogicas (Garcia, 2003). A Inteligˆencia Artificial (IA) ´e uma ´area da ciˆencia que desenvolve a autonomia de m´aqui-

ISBN: 978-85-8001-069-5

nas. V´arias t´ecnicas de inteligˆencia artificial s˜ao adotadas como, algoritmos gen´eticos (Fraccaroli, 2010a), aprendizado por refor¸co (Silva et al., 2010; Kerbage et al., 2010), aprendizado por refor¸co acelerado por heur´ısticas (Celiberto Jr, 2006), redes neurais artificiais (Sim˜oes et al., 2007) e sistemas fuzzy (Fraccaroli, 2010a) na tentativa de encontrar a melhor solu¸c˜ao para o problema. O Aprendizado por Refor¸co (AR) ´e uma t´ecnica de aprendizado, na qual o agente aprende por meio de intera¸c˜ao direta com o ambiente e seu algoritmo converge para uma situa¸c˜ao de equil´ıbrio (Sutton, 1998). No AR, um agente pode aprender em um ambiente n˜ao conhecido previamente, por meio de experimenta¸c˜oes. Dependendo de sua atua¸c˜ao, o agente recebe uma recompensa ou uma penaliza¸c˜ao e, desta forma, o algoritmo encontra um conjunto de a¸c˜oes que levam o agente a percorrer o caminho ´otimo. A este conjunto, formado pelas melhores a¸c˜oes, d´a-se o nome de pol´ıtica ´otima. Na busca de desenvolver a Inteligˆencia Artificial (IA) e a rob´otica, uma importante organiza¸c˜ao internacional, a Robocup, escolheu o jogo de futebol como o principal t´opico de pesquisa, procurando inova¸c˜oes que pudessem ser aplicadas

3557

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

em problemas reais. Para o desenvolvimento de times de robˆ os s˜ ao necess´ arias v´ arias tecnologias, como exemplo a coopera¸c˜ ao de sistemas multiagentes, a aquisi¸c˜ ao de estrat´egias, o sensoreamento em tempo real, a fus˜ ao de sensores, entre outros. A categoria de simula¸c˜ ao 2D da Robocup simula partidas de futebol de robˆ os autˆonomos. Nesta liga existem robˆ os (agentes) virtuais, o qual todo o ambiente ´e simulado. Um simulador fornece aos agentes todos os dados que seriam obtidos na realidade por meio dos seus sensores e calcula o resultado das a¸c˜ oes de cada agente. Cada jogador ´e visto como um agente individual, e o time como um sistema multiagente totalizando 11 (onze) jogadores por equipe. Este trabalho apresenta uma metodologia para a Aprendizagem por Refor¸co para times de futebol de robˆ os 2D. Al´em disso, ´e proposta uma an´alise estat´ıstica por meio do teste T-Pareado para compreender o sistema de aprendizagem quando submetido `a competi¸c˜ ao entre equipes que utilizam de outras t´ecnicas de inteligˆencia artificial. Este artigo est´ a organizado em se¸c˜ oes, a qual a Se¸c˜ao 2 introduz o conceito da Aprendizagem por refor¸co, algoritmo Q-learning (Watkins, 1989), e o teste T-Pareado (Hines et al., 2006). Na Se¸c˜ao 3 ´e apresentada a implementa¸c˜ ao da Estrat´egia de Aprendizagem, por meio da Discretiza¸c˜ao das A¸c˜oes, dos Estados e a Defini¸c˜ ao da Matriz de Recompensa. A an´ alise dos resultados obtidos ´e apresentada Se¸c˜ ao 4. Em seguida, a conclus˜ao do trabalho ´e apresentada na Se¸c˜ ao 6. 2 2.1

Fundamenta¸ c˜ ao Te´ orica

Processos de Decis˜ ao de Markov

Um Processo de Decis˜ ao de Markov (MDP - Markov Decision Process) ´e uma forma de modelar processos, na qual as transi¸c˜ oes entre estados s˜ao probabil´ısticas. No MDP ´e poss´ıvel observar e interferir no processo periodicamente executando a¸c˜oes (Bertsekas, 2001; Puterman, 1994). Cada a¸c˜ao tem uma recompensa, a qual depende do processo. A defini¸c˜ ao de recompensas pode ser dada em fun¸c˜ao apenas do estado, sem que estas dependam da a¸c˜ao executada. Os processos s˜ao ditos de Markov (ou Markovianos) quando s˜ao modelados obedecendo `a propriedade de Markov, ou seja, o efeito de uma a¸c˜ ao em um estado depende apenas da a¸c˜ao e do estado atual do sistema, e n˜ao de como o processo chegou a tal estado. Os processos de decis˜ao modelam a possibilidade de um agente (ou tomador de decis˜ oes) interferir periodicamente no sistema executando a¸c˜ oes, diferentemente da Cadeia de Markov, na qual n˜ao se interfere no processo. MDPs podem ser aplicados diversas ´areas (White, 1993). A cada ´epoca de decis˜ ao, o agente tomador

ISBN: 978-85-8001-069-5

de decis˜oes usa uma regra de decis˜ao para escolher a pr´oxima a¸c˜ao. Uma forma simples de regra de decis˜ao ´e um mapeamento direto de estados em a¸c˜oes. O conjunto de todas as regras de decis˜ao (uma para cada ´epoca de decis˜ao) ´e chamado de pol´ıtica. Normalmente, o objetivo ´e encontrar uma pol´ıtica que otimize um crit´erio de desempenho das decis˜oes. Uma especifica¸c˜ao das probabilidades de resultados para cada a¸c˜ao em cada estado poss´ıvel ´e chamada de modelo de transi¸c˜ao, denotado por T (s, a, s). T (s, a, s) ´e utilizado para denotar a probabilidade de alcan¸car o estado s′ se a a¸c˜ao a for executada no estado s (Russell, 2004). Um MDP ´e definido pela qu´adrupla (S, A, T, R) onde (Bianchi, 2004): • S: ´e um conjunto finito de estados do ambiente; • A: ´e um conjunto finito de a¸c˜oes que o agente pode realizar; • T : SxA → Π(S): ´e a fun¸c˜ao de transi¸c˜ao de estado, onde Π(S) ´e uma fun¸c˜ao de probabilidades sobre o conjunto de estados S. T (st , at , st+1 ) define a probabilidade de realizar a transi¸c˜ao do estado st para o estado st+1 quando se executa a a¸c˜ao at . • R : SxA → R: ´e a fun¸c˜ao de recompensa, que especifica a tarefa do agente, definindo a recompensa recebida (ou o custo esperado), ao longo do tempo. Resolver um MDP consiste em computar a pol´ıtica π: SxA que maximiza (ou minimiza) alguma fun¸c˜ao, geralmente a recompensa recebida (ou o custo esperado), ao longo do tempo (Bianchi, 2004). Na se¸c˜ao 2.2 ser´a mostrada a t´ecnica de Aprendizagem por Refor¸co, na qual ´e fundamentada nos Processos de Decis˜ao de Markov. 2.2

Aprendizado Por Refor¸co

O Aprendizagem por refor¸co (AR) ´e um formalismo da IA que permite a um agente aprender a partir da sua intera¸c˜ao com o ambiente no qual ele est´a inserido (Watkins, 1992; Neri et al., 2011). A ideia central da t´ecnica de aprendizado por refor¸co ´e que as percep¸c˜oes s˜ao utilizadas n˜ao apenas para agir, mas ao mesmo tempo, para melhorar a habilidade do agente para agir no futuro. A aprendizagem ocorre `a medida que o agente observa suas intera¸c˜oes com o ambiente e com seus pr´oprios processos de tomada de decis˜ao. Normalmente, o tipo de realimenta¸c˜ao dispon´ıvel para o aprendizado ´e um fator importante na determina¸c˜ao da natureza do problema (Russell, 2004). O aprendizado por refor¸co pode ser entendido como uma forma dos agentes aprenderem o que

3558

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

fazer, particularmente quando n˜ao existe nenhum professor dizendo ao agente que a¸c˜ ao ele deve executar em cada circunstˆ ancia. Para isso, o agente precisa saber que algo de bom aconteceu quando ganhar, e que algo de ruim aconteceu quando perder. Essa esp´ecie de realimenta¸c˜ ao ´e chamada de recompensa ou refor¸co (Russell, 2004). 2.2.1

Algoritmo Q-learning

O m´etodo de aprendizagem por refor¸co Q-learning (Watkins, 1992; Neri et al., 2011) ´e um algoritmo que permite estabelecer autonomamente uma pol´ıtica de a¸c˜oes de maneira interativa. A ideia b´ asica do Q-learning ´e que o algoritmo de aprendizagem aprende um fun¸c˜ ao de avalia¸c˜ao ´otima sobre todo o espa¸co de pares estado-a¸c˜ao SxA. Desde que o particionamento do espa¸co de estados do robˆ o e do espa¸co de a¸c˜ oes n˜ao omita e n˜ao introduzam novas informa¸c˜ oes relevantes. Quando a fun¸c˜ ao ´otima Q for aprendida, o agente saber´a qual a¸c˜ ao resultar´ a na maior recompensa em uma situa¸c˜ ao particular s futura (Monteiro, 2004). A fun¸c˜ao Q(s, a) de recompensa futura esperada ao se escolher a a¸c˜ ao a no estado s, ´e aprendida atrav´es de tentativa e erro segundo a Equa¸c˜ao (1): Qt+1 = Qt (st , at )+α[rt +γVt (st+1 )−Qt+1 (st , at )] (1) onde α ´e a taxa de aprendizagem, rt ´e a recompensa, resultante de tomar a a¸c˜ ao a no estado s, γ ´e fator de desconto e o termo Vt (st+1 ) = maxa Q(st+1 , at ) ´e a utilidade do estado s resultante da a¸c˜ao a, obtida utilizando a fun¸c˜ ao Q que foi aprendida at´e o presente (Monteiro, 2004). A pol´ıtica de a¸c˜ oes adotada foi a ε-gulosa(εGreedy), onde o agente tem grande probabilidade de escolher a a¸c˜ ao a com o maior refor¸co Q(s, a) no estado s. A forma procedimental do algoritmo Qlearning ´e (Watkins, 1992; Monteiro, 2004): Para cada s,a inicialize Q(s,a)=0 Observe s Repita • Selecione a¸c˜ ao a usando a pol´ıtica de a¸c˜ oes ε-gulosa • Execute a a¸c˜ ao a • Receba a recompensa imediata r(s,a) • Observe o novo estado s’ • Atualize o item Q(s,a) de acordo com a equa¸c˜ ao (1) • s ← s’ At´e que crit´erio de parada seja satisfat´ orio

ISBN: 978-85-8001-069-5

2.3

Futebol de Robˆ os Simulado

A categoria de simula¸c˜ao 2D da Robocup simula partidas de futebol de robˆos autˆonomos. O simulador apresenta caracter´ısticas de um ambiente dinˆamico, ruidoso, cooperativo e coordenado (Fraccaroli, 2010a). Nesta liga n˜ao existem robˆos/agentes f´ısicos, todo o ambiente e os agentes s˜ao virtuais. O simulador fornece aos agentes todos os dados que s˜ao obtidos na realidade por meio de sensores e calcula o resultado das a¸c˜oes de cada agente. A simula¸c˜ao 2D permite definir as estrat´egias de jogo para um time de robˆos formado por doze agentes robˆos. Cada partida realizada tem dura¸c˜ao de aproximadamente dez minutos, valor este correspondente a seis mil ciclos de simula¸c˜ao, sendo separado em dois tempos de aproximadamente cinco minutos (Fraccaroli, 2010b). 2.3.1

Time Base Agent2D (Helios Base)

O time Helios (Akiyama et al., 2011) do Jap˜ao, foi o campe˜ao da categoria de simula¸c˜ao 2D da Robocup em 2010 e 2012. Os desenvolvedores resolveram disponibilizar na Internet o c´odigo base do time. Essa iniciativa veio para facilitar o surgimento de novas equipes na categoria de simula¸c˜ao 2D da Robocup. Foi escolhido utilizar o c´odigo base do Helios (Agent2D) pois ele disponibiliza algumas habilidades b´asicas j´a implementas, como intercepta¸c˜ao de bola, chute, drible e movimenta¸c˜ao. Al´em disso, j´a oferece implementado a conex˜ao com o RoboCup Soccer Server, servidor de execu¸c˜ao dos jogos 2D da Robocup, criada atrav´es de um socket, que possibilita enviar e receber mensagens. 2.3.2

Time UaiSoccer2D (UFSJ)

Na UFSJ o time de futebol de robˆos simulado ´e o UaiSoccer2D (Ottoni et al., 2012). O Time UaiSoccer2D, que foi analisado neste trabalho, foi resultado da implementa¸c˜ao do aprendizado por refor¸co e modifica¸c˜oes na estrutura do Agent2D. A Equipe UaiSoccer2D utiliza testes estat´ısticos para verificar o comportamento do sistema multiagente cooperativo (time de robˆos) de acordo com a estrat´egia de jogo utilizada (Ottoni et al., 2011). Nas pr´oximas se¸c˜oes, ´e feita uma breve introdu¸c˜ao sobre a an´alise estat´ıstica empregada neste trabalho. 2.4

Hip´ oteses Estat´ısticas

Uma hip´otese estat´ıstica ´e uma afirmativa sobre a distribui¸c˜ao de probabilidade de uma vari´avel aleat´oria. Os procedimentos de teste de hip´otese se ap´oiam no uso de informa¸c˜ao em uma amostra aleat´oria da popula¸c˜ao de interesse. Para testar uma hip´otese, ´e necess´ario extrair uma amostra

3559

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

aleat´oria, calcular uma estat´ıstica de teste apropriada a partir dos dados amostrais e, ent˜ao, usar a informa¸c˜ao contida na estat´ıstica de teste para tomar a decis˜ ao (Hines et al., 2006).

1. Defini¸c˜ao e discretiza¸c˜ao das a¸c˜oes dos agentes;

2.5

3. Defini¸c˜ao dos valores dos refor¸cos da tabela R, para cada par Estado (S) X A¸c˜ao (A);

Teste t Emparelhado

O Teste t Emparelhado (teste t-pareado) de duas amostras ocorre quando as observa¸c˜ oes sobre as duas popula¸c˜ oes s˜ ao coletadas aos pares. Cada par de observa¸c˜ oes (X1j , X2j ), ´e extra´ıdo sob condi¸c˜oes idˆenticas, mas essas condi¸c˜ oes podem mudar de um para outro par (Hines etc all, 2006). Seja (X11 , X21 ), (X12 , X22 ), ..., (X1n , X2n ) um conjunto de n observa¸c˜ oes emparelhadas, para as quais supomos que X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ). Defina as diferen¸cas entre cada par de observa¸c˜oes como Dj = X1j , −X2j , j = 1, 2, ..., n (Hines et al., 2006). As diferen¸cas Dj s˜ ao distribu´ıdas normalmente, com m´edia µ = E(X1 −X2) = E(X1 )−E(X2 ) = µ1 −µ2 , (2) de modo que um teste sobre igualdade de µ1 e µ2 pode ser obtido realizando-se um teste t de amostra u ´nica sobre µD . Este teste ´e apropriado quando as diferen¸cas pareadas seguem uma distribui¸c˜ao normal. Especificamente, testar H0 : µ1 = µ2 contra H1 : µ1 ̸= µ2 ´e equivalente a testar H0 : µD = 0, H1 : µD ̸= 0,

(3)

com µD = µ1 − µ2 . A estat´ıstica de teste apropriada para a Equa¸ca˜o (3) ´e ¯ D √ , t0 = SD / n

(4)

∑ ¯ = 1 D Dj n j=1

(5)

em que n

e ∑n 2 SD

=

j=1

¯2 Dj2 − nD

n−1

(6)

s˜ao a m´edia e a variˆ ancia amostrais das diferen¸cas. Rejeitar´ıamos H0 : µD = 0 (o que implica que µ1 ̸= µ2 ) se t0 > tα/2,n−1 ou se t0 < −tα/2,n−1 . As alternativas unilaterais s˜ao tratadas de maneira an´ aloga (Hines et al., 2006). 3

Implementa¸ c˜ ao da Estrat´ egia de Aprendizagem

A metodologia adotada para a desenvolvimento da estrat´egia de aprendizagem ´e dividida em quatro etapas, as quais s˜ao:

ISBN: 978-85-8001-069-5

2. Defini¸c˜ao e discretiza¸c˜ao dos estados do ambiente no qual os agentes est˜ao inseridos;

4. Implementa¸c˜ao no Simulador RcSoccerSim da Robocup de Futebol de Robˆos. 3.1

Discretiza¸c˜ ao das A¸c˜ oes

Nesta etapa s˜ao definidas as poss´ıveis a¸c˜oes de um agente no campo de futebol de robˆos simulado. As a¸c˜oes abaixo s˜ao apenas para o agente com posse de bola. 1. A¸c˜ao: Drible R´apido (Carregar a bola em dire¸c˜ao ao gol com velocidade alta); 2. A¸c˜ao: Drible Lento (Carregar a bola em dire¸c˜ao ao gol com velocidade baixa); 3. A¸c˜ao: Drible Normal (Carregar a bola em dire¸c˜ao ao gol com velocidade normal); 4. A¸c˜ao: Passe/Chute (Passar a bola para um companheiro ou chutar em gol); 5. A¸c˜ao: Segurar a Bola (Prender a bola junto ao corpo); 6. A¸c˜ao: Avan¸car com a Bola. 3.2

Discretiza¸c˜ ao dos Estados

A intera¸c˜ao dos agentes com o mundo virtual ´e interpretado por meio dos estados do ambiente. Nestes estados s˜ao definidas as caracter´ısticas do ambiente durante uma partida de futebol de robˆos. As caracter´ısticas levadas em considera¸c˜ao s˜ao o posicionamento dos robˆos da pr´opria equipe com a posse da bola e a distˆancia dos advers´ arios. Nos Estados de 1 a 3, o agente advers´ario mais pr´oximo est´a posicionado atr´as do robˆo com bola em rela¸c˜ao ao eixo X, ou seja, o X do oponente ´e menor. J´a nos Estados de 4 a 6, o agente advers´ario mais pr´oximo est´a posicionado a frente do robˆo com bola em rela¸c˜ao ao eixo X, ou seja, o X do oponente ´e maior. 1. Estado: Advers´ario Longe Atr´as (A distˆancia entre os dois agentes ´e maior que 4.5 m); 2. Estado: Advers´ario Perto Atr´as (A distˆancia entre os dois agentes ´e menor que 4.5 m e maior que 2.5 m); 3. Estado: Advers´ario Muito Perto Atr´as (A distˆancia entre os dois agentes ´e menor que 2.5 m);

3560

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

4. Estado: Advers´ ario Longe na Frente (A distˆancia entre os dois agentes ´e maior que 4.5 m); 5. Estado: Advers´ ario Perto na Frente (A distˆancia entre os dois agentes ´e menor que 4.5 m e maior que 2.5 m); 6. Estado: Advers´ ario Muito Perto na Frente (A distˆancia entre os dois agentes ´e menor que 2.5 m). As figuras 1 e 2 apresentam o sistema de eixos X,Y na plataforma de futebol de robˆ os simulado da Robocup.

forma, o objetivo de ”marcar um gol”pode ser desmembrado em ”obter posse de bola”, ”driblar em dire¸c˜ao `a meta”e ”chutar em dire¸c˜ao ao gol”. A partir disso, neste trabalho, ao definir as recompensas imediatas, o objetivo foi valorizar cada passo necess´ario para que o time de robˆos marcasse um gol. Ou seja, o objetivo foi que o time aprendesse uma estrat´egia de jogo visando um comportamento ofensivo com posse de bola. Essa abordagem ´e distinta de usar refor¸cos somente quando h´a gols (recompensas) ou perda de bola (penaliza¸c˜oes). A Matriz de Recompensa possui cinco valores distintos, sendo que: • -1 - significa que o par sxa n˜ao ´e indicado para ser executado; • 0 - significa que o par sxa possui grau de relevˆancia muito pequeno; • 5 - significa que o par sxa possui grau de relevˆancia pequeno; • 10 - significa que o par sxa possui grau de relevˆancia m´edio; • 20 - significa que o par sxa possui grau de relevˆancia alto.

Figura 1: Sistemas de coordenadas X,Y do campo de futebol simulado 2D para o time que est´a atacando para a direita.

Figura 2: Sistemas de coordenadas X,Y do campo de futebol simulado 2D para o time que est´a atacando para a esquerda.

Os estados (linhas) que apresentam os valores 10 ou 20 foram definidos como os mais relevantes. Ou seja, de acordo com o modelo, ´e melhor para o robˆo com posse de bola se estiver em um estado que possui algum refor¸co imediato m´edio ou alto. A matriz de recompensas Estado (S) x A¸c˜ao (A) ´e apresentada na tabela 1 de refor¸co (R), em que as linhas representam os estados do ambiente e as colunas as a¸c˜oes que os agentes podem tomar. Tabela 1: Matriz de Estado/A¸c˜ao A1 A2 E1 -1 -1 E2 0 -1 E3 5 -1 E4 -1 -1 E5 -1 5 E6 -1 -1

3.4 3.3

Defini¸c˜ ao da Matriz de Recompensas

O ambiente do futebol de robˆ os simulado envolve uma grande complexidade, em termos de n´ umero de a¸c˜oes, para que o time de robˆ os alcance a recompensa principal ao marcar um gol. Um m´etodo comum, usado originalmente no treinamento de animais, ´e chamado de modelagem de recompensa, e envolve oferecer recompensas adicionais por ”fazer progressos”(Russell, 2004). Dessa

ISBN: 978-85-8001-069-5

Recompensa A3 A4 A5 -1 20 -1 0 -1 -1 -1 -1 -1 -1 20 -1 0 0 -1 -1 10 10

A6 -1 0 -1 -1 0 -1

Implementa¸c˜ ao no Simulador

A etapa de implementa¸c˜ao da estrat´egia de aprendizagem por refor¸co foi realizada no simulador RcSoccerSim de futebol de robˆos em duas dimens˜ oes da Robocup. O objeto de estudo foi o Time UaiSoccer2D. Os parˆametros do algoritmo Q-learning, a taxa de aprendizagem (α) e o fator de desconto (γ) foram fixados em 0,95. Para armazenar as informa¸c˜oes aprendidas pelos robˆos foi criado um arquivo denominado

3561

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

q.txt. Nesse arquivo, a matriz Q (6x6) de aprendizado foi iniciada com zero para cada par estado X a¸c˜ao, indicando a inexistˆencia de inteligˆencia no time antes da primeira simula¸c˜ ao. O modelo apresentado visou apenas o aprendizado quando o agente estivesse com a posse de bola. Dessa forma, somente um robˆ o por vez acessa o arquivo q.txt, mas o conhecimento de cada um dos agentes fica acumulado na Matriz Q. Resultando em uma comunica¸c˜ao entre os jogadores denominada de Quadro-Negro. O Quadro-Negro ´e uma estrutura comum a todos os agentes, no caso o q.txt, onde podem realizar a escrita e a leitura das informa¸c˜ oes aprendidas por cada robˆ o. Essa estrutura de comunica¸c˜ ao visa acelerar o aprendizado dos robˆ os, visto que, as experiˆencias dos agentes de acumulam em uma u ´nica estrutura. O processo de aprendizagem (treinamento) aconteceu adotando o Time Helios2011 (Akiyama et al., 2011) como advers´ ario. 4

An´ alise dos Resultados

Procurou-se com este trabalho, verificar o comportamento do time de robˆ os (UaiSoccer2D), ap´os duas fases de treinamento do algoritmo de aprendizado por refor¸co. Avaliando a eficiˆencia da Matriz Q acumulada ap´os 30 e 90 simula¸c˜ oes. • Fase 1: Ap´os 30 jogos de treinamento foi acumulada a Matriz Q1 ; • Fase 2: Ap´os 90 jogos de treinamento foi acumulada a Matriz Q2 . Questionando ent˜ ao, se houve evolu¸c˜ ao de desempenho do time de robˆ os na Fase 2 em rela¸c˜ao a Fase 1. Como foi analisado o comportamento ap´os duas fases da mesma estrat´egia de aprendizado, verificou-se uma rela¸c˜ ao de dependˆencia entre as amostras. O teste mais adequado `a rela¸c˜ ao de dependˆencia de duas amostras ´e o teste t-pareado (Bussab, 2012). O teste t-pareado unilateral foi aplicado utilizando as seguintes hip´ oteses: • H0 : a m´edia de gols sofridos na valida¸c˜ao da Fase 2 ´e igual a m´edia de gols sofridos na valida¸c˜ao da Fase 1; • Ha : a m´edia de gols sofridos na valida¸c˜ao da Fase 2 ´e menor a m´edia de gols sofridos na valida¸c˜ao da Fase 1; Dessa forma, ap´os 30 e 90 jogos de treinanento, a Matriz Q foi congelada para efetuar os jogos de valida¸c˜ ao. Nessas simula¸c˜ oes de valida¸c˜ao, a Matriz Q n˜ ao sofreu atualiza¸c˜ oes. Para a valida¸c˜ao das Fases de aprendizado foram selecionados aleatoriamente 6 times advers´arios da simula¸c˜ao 2D, disponibilizados na Internet. Entre esses times se encontram as equipes participantes do mundial 2011 da Robocup: Helios2011

ISBN: 978-85-8001-069-5

(2o colocado/Jap˜ao), Hfutengine2011 (9o colocado/China), Aua2d (11o colocado/China) e Rione (13o colocado/Jap˜ao); o time base Agent2D (Helios Base); e o time UaiSoccer2D2011. Estes times, testados em 5 jogos contra cada Matriz Q (Q1 e Q2 ) geradas pelas duas fases do aprendizado do UaiSoccer2D, totalizaram 30 jogos de valida¸c˜ao por fase, 60 jogos no total. O somat´orio dos gols sofridos total contra cada time foi utilizado como um banco de dados para a aplica¸c˜ao do teste (Tabela 2). Foram realizadas todas as etapas de testes no software Minitab 14 (vers˜ao acadˆemica). Inicialmente foi realizado um teste de normalidade para a diferen¸ca, entre valida¸c˜ao da Fase 1 e Fase 2, dos Gols Sofridos, Saldo de Gols e Gols Feitos, a fim de verificar a aplicabilidade do teste t-pareado. Nos trˆes casos a suposi¸c˜ao de normalidade foi satisfeita a partir do teste de normalidade de KolmogorovSmirnov (Kolmogorov, 1933; Smirnov, 1948). Tabela 2: Gols Sofridos pelo UaiSoccer2D na Valida¸c˜ao de cada Fase de Aprendizado Time Advers´ ario Q1 Q2 Agent2D 17 11 Aua2d 0 1 Helios2011 25 14 Hfutengine2011 7 3 Rio-ne 8 4 UaiSoccer2D2011 0 0 M´ edia 9,5 5,5 p-valor: 0,03668822 Se o p-valor (P-Value) for menor ou igual a 0,05, isto indica que devemos rejeitar H0 e aceitar Ha , ou seja, a Matriz Q2 obteve melhor desempenho que a Matriz Q1 , mas se o p-valor (P-Value) for maior que 0,05, devemos aceitar H0 , ou seja, o algoritmo de aprendizado n˜ao evoluiu da Fase 1 para a Fase 2. Como o p-valor (P-Value) resultou em 0,03668822, conclui-se que o comportamento do Time de Robˆos ap´os 90 jogos de treinamento (Fase 2) foi superior estatisticamente em rela¸c˜ao ao desempenho ap´os apenas 30 jogos de treino (Fase 1), com respeito ao n´ umero de gols sofridos em um jogo. J´a as tabelas 3 e 4, com os saldo de gols e os gols feitos revelam que a Matriz Q2 (Fase 2) n˜ao obteve desempenho superior significativo em rela¸c˜ao a esses crit´erios. 5

Conclus˜ oes

Este trabalho teve como meta modelar uma estrat´egia de aprendizado por refor¸co (AR) no dom´ınio do futebol de robˆos em duas dimens˜oes (2D). Para isso, foi adotado o algoritmo Q-learning. A modelagem de uma inteligˆencia artificial por meio da t´ecnica de aprendizagem por refor¸co para um

3562

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

Tabela 3: Saldo de Gols por Fase de Apendizado Time Advers´ ario Q1 Q2 Agent2D -1 -6 Aua2d 23 22 Helios2011 -24 -13 Hfutengine2011 26 39 Rio-ne 23 30 UaiSoccer2D2011 120 121 M´ edia 27,833 32,167 p-valor: 0,098053308

Tabela 4: Gols Feitos por Fase de Apendizado Time Advers´ ario Q1 Q2 Agent2D 16 5 Aua2d 23 23 Helios2011 1 1 Hfutengine2011 33 42 Rio-ne 31 34 UaiSoccer2D2011 120 121 M´ edia 37,333 37,667 p-valor:0,452474988

time de robˆ os auxilia na tomada decis˜ ao do sistema multiagente no ambiente de simula¸c˜ao. A implementa¸c˜ ao da t´ecnica de aprendizagem, faz com que a equipe de futebol de robˆ os se adapte `as condi¸c˜oes da partida em resposta `as a¸c˜oes do advers´ario. As an´alises estat´ısticas indicaram uma evolu¸c˜ao no comportamento do time em rela¸c˜ ao `a diminui¸c˜ao no n´ umero de gols sofridos, ap´ os 90 jogos de treinamento (Fase 2). Ou seja, estatisticamente o time ap´os a Fase 2 sofreu menos gols que o time ap´os a Fase 1. Dessa forma, a estrat´egia de AR implementada apresentou melhores resultados ap´ os mais jogos de treinamento. No entanto, os testes tamb´em revelaram que n˜ao ocorreu evolu¸c˜ ao estatisticamente significante com rela¸c˜ao aos gols feitos e saldo de gols. Nos pr´oximos trabalhos, ser˜ ao propostas an´alises sobre uma quantidade de jogos de treinamento superiores as apresentadas neste artigo. Dessa forma, ´e pretendido verificar se ao longo do tempo o n´ umero de gols sofridos continuar´a a cair. Al´em disso, visualizar se em algum momento o n´ umero de gols feitos e saldo de gols aumentar˜ao significativamente entre Fases de Treinamento do Aprendizado por Refor¸co.

Agradecimentos Agradecemos `a CAPES, CNPQ, FAPEMIG, PPGEL, UaiSoccer2D, UAIrobots e UFSJ pelo apoio.

ISBN: 978-85-8001-069-5

Referˆ encias Akiyama, H., Shimora, H., Nakashima, T., Narimoto, Y. and Okayama, T. (2011). Helios2011 team description, Robocup 2011 . Bertsekas, D. (2001). Dynamic programming and optimal control., Belmont, MA: Athena Scientific. (ISBN 1-886259-08-6.). Bianchi, R. A. C. (2004). Uso de heur´ıstica para a acelera¸c˜ ao do aprendizado por refor¸co., Master’s thesis, Tese (Doutorado) Escola Polit´ecnica da Universidade de S˜ao Paulo. Bussab, W. B. e Morettin, P. (2012). Estat´ıstica B´ asica, 7st edn, Saraiva. Celiberto Jr, L. A. e Bianchi, R. A. C. (2006). Aprendizado por refor¸co acelerado por heur´ıstica para um sistema multi-agentes, In 3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence. . Fraccaroli, E. S. (2010a). An´ alise de Desempenho de Algoritmos Evolutivos no Dom´ınio do Futebol de Robˆ os, Disserta¸c˜ao apresentada `a Escola de Engenharia de S˜ao Carlos da Universidade de S˜ao Paulo. Fraccaroli, E. S. e Carlson, P. M. (2010b). Time gearsim 2010 da categoria robocup simulation 2d., In Competi¸c˜ ao Latino Americana de Rob´ otica. 2010. Garcia, A. C. B. e Sichman, J. S. (2003). Agentes e Sistemas Multiagentes., Vol. 11, In Sistemas Inteligentes: Fundamentos e Aplica¸c˜oes, Rezende, S. O., chapter 11, pp. 269–306. Hines, W. W., Montgomery, D. C., Goldsman, D. M. and Borror, C. M. (2006). Probabilidade e Estat´ıstica na Engenharia, LTC. Kerbage, S. E. H., Antunes, E. O., Almeida, D. F. and Rosa, P. F. F. (2010). Generaliza¸c˜ao da aprendizagem por refor¸co: Uma estrat´egia para robˆos autˆonomos cooperativos., In Competi¸c˜ ao Latino Americana de Rob´ otica. 2010. Kim, Y. C., C. S.-B. and Oh, S. R. (2010). Mapbuilding of a real mobile robot with ga-fuzzy controller., International Journal of Fuzzy Systems. pp. 696–703. Kolmogorov, A. . (1933). Sulla determinazione empirica di una legge di distribuzione, G. Inst. Ital. Attuari 4: 83. Lacerda, M. J., Texeira, W. W. M. and Nepomuceno, E. G. (2009a). Aloca¸c˜ao de agentes para controle de epidemias utilizando algoritmo gen´etico., In IX Simp´ osio Brasileiro de Automa¸c˜ ao Inteligente .

3563

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

Lacerda, M. J., Texeira, W. W. M. and Nepomuceno, E. G. (2009b). Controle da propaga¸c˜ao espacial de epidemias: Uma abordagem utilizando agente inteligente., In IX Simp´ osio Brasileiro de Automa¸c˜ ao Inteligente . Monteiro, S. T. e Ribeiro, C. H. C. (2004). Desempenho de algoritmos de aprendizagem por refor¸co sob condi¸c˜ oes de ambiguidade sensorial em rob´ otica m´ovel, Revista Controle & Automa¸c˜ ao Vol.15 no.3. Nascimeno Jr., C. L. e Yoneyama, T. (2009). Inteligˆencia Artificial em Controle e Automa¸c˜ ao., 1st edn, Edgard Blucher.

Watkins, C. J. (1989). Models of delayed reinforcement learning., Master’s thesis, PhD thesis, Psychology Department, Cambridge University, Cambridge, United Kingdom. Watkins, C. J. e Dayan, P. (1992). Technical note q-learning, Machine Learning . White, D. J. (1993). A survey of applications of markov decision processes., The Journal of the Operational Research Society 44(11): 10731096.

Neri, J. R. F., Santos, C. H. F. and Fabro, J. A. (2011). Descri¸c˜ ao do time gpr-2d 2011, Competi¸c˜ ao Brasileira de Rob´ otica 2011. Ottoni, A. L. C., Lamperti, R. D. and Nepomuceno, E. G. (2012). Uaisoccer2d: Team description paper robocup 2012, Robocup 2012 2012. Ottoni, A. L. C., Nepomuceno, E. G., Oliveira, F. F. and Oliveira, M. S. (2011). An´ alise do comportamento de sistemas multiagentes cooperativos por meio de testes estat´ısticos, In X Encontro Mineiro de Estat´ıstica . Puterman, M. L. (1994). Markov decision processes: Discrete stochastic dynamic programming., New York, NY: Wiley-Interscience (ISBN 0471619779.). Russell, S. J. e Norving, P. (2004). Inteligˆencia Artificial., 2st edn, Campus. Silva, A. T. R., Silva, H. G., Santos, E. G., Ferreira, G. B., Santos, T. D. and Silva, V. S. (2010). ibots 2010: Descri¸c˜ ao do time., In Competi¸c˜ ao Latino Americana de Rob´ otica. 2010. Sim˜oes, M. A. C., Silva, H., Meyer, J., Oliveira, J. D., Cruz, L., Pessoa, H. and L., A. R. (2007). Bahia 2d: Descri¸c˜ ao do time., In XIII Simp´ osio Brasileiro de Automa¸c˜ ao Inteligente . Smirnov, N. (1948). Tables for estimating the goodness of fit of empirical distributions, Annals of Mathematical Statistics 19: 279. Sutton, R., e. B. A. (1998). Reinforcement Learning: an introduction., 1st edn, Cambridge, MA: MIT Press. Texeira, W. W. M., Teles, F., Barbosa, A. M., Silva, M. A., Nepomuceno, E. G. and Queiroz Melo, M. F. A. (2009). Modelagem e controle de um sistema multiagente cooperativo: vis˜ao global e local aplicadas ao problema da aloca¸c˜ao de recursos., In IX Simp´ osio Brasileiro de Automa¸c˜ ao Inteligente. .

ISBN: 978-85-8001-069-5

3564

Lihat lebih banyak...

DESENVOLVIMENTO DE UM SISTEMA DE APRENDIZADO POR REFORÇO PARA TIMES DE ROBÔS - UMA ANÁLISE DE DESEMPENHO POR MEIO DE TESTES ESTATÍSTICOS

Descrição do Produto

Comentários