Uma Rede Neural Auto-Organizável Para Processamento De Seqüências Temporais: Um Estudo De Caso Em Robótica

June 7, 2017 | Autor: Guilherme Barreto | Categoria: Neural Network, Hebbian learning, Trajectory Tracking
Share Embed


Descrição do Produto

UMA REDE NEURAL AUTO-ORGANIZÁVEL PARA PROCESSAMENTO DE SEQÜÊNCIAS TEMPORAIS: UM ESTUDO DE CASO EM ROBÓTICA Guilherme de A. Barreto

Aluízio F. R. Araújo

Universidade de São Paulo Departamento de Engenharia Elétrica C. P. 359, 13560-970, São Carlos, SP, BRASIL {gbarreto, aluizioa}@sel.eesc.sc.usp.br Resumo - Uma rede auto-organizável para aprendizagem e reprodução de seqüências temporais complexas é proposta neste trabalho. Tal rede é capaz de lidar com uma única seqüência contendo elementos repetidos, ou com várias seqüências que partilham um mesmo elemento. Ambos os casos dão margem ao aparecimento de ambigüidades durante a fase de reprodução das seqüências memorizadas, sendo estas resolvidas por meio de informação de contexto temporal. Pesos sinápticos competitivos codificam a parte espacial das seqüências, enquanto a ordem temporal é aprendida por conexões laterais via regra de Hebb. O modelo funciona reproduzindo o sucessor do atual item de entrada, sendo capaz de resolver as potenciais ambigüidades. Itens repetidos ou compartilhados são armazenados como um único item, resultando num uso mais eficiente de memória. Um mecanismo de redundância na representação dos itens de uma seqüência melhora a robustez da rede a ruídos e falhas. O modelo proposto é testado no problema de rastreamento de trajetórias do robô PUMA 560 e seu funcionamento é comparado com outros modelos neurais existentes. Abstract - A self-organizing neural network for learning and recall of complex temporal sequences is proposed. The model can reproduce a single sequence with repeated items, and several sequences with common states. Both cases give rise to ambiguities during recall of such sequences which is resolved through context input units. Competitive weights encode spatial features of the input sequence, while the temporal order is learned by lateral weights through a time-delayed Hebbian learning rule. The model operates by recalling the successor of the current input and is able to solve potential ambiguities. Repeated or shared items are stored as a single copy resulting in an efficient memory use. In addition, redundancy in item representation improves the network robustness to noise and faults. The model is tested on the problem of trajectory tracking for the PUMA 560 robot and its functioning is compared to other neural networks models. Keywords - Robotics, neural networks, Hebb’s learning rule, temporal sequences, context.

1 Introdução Grande parte da informação que recebemos do ambiente externo tem uma natureza dinâmica, ou equivalentemente, seqüencial, de modo que relações temporais entre padrões consecutivos devem ser levadas em consideração (Kohonen, 1997). O reconhecimento de tais padrões dinâmicos é crucial para a audição e visão, e a sua reprodução está intimamente ligada a processos de geração de padrões motores, de fala e canto. Deste modo, um problema antigo na teoria de redes neurais tem sido a caracterização matemática e computacional de diversos aspectos da aprendizagem serial ou aprendizagem de seqüências temporais (Grossberg, 1969; Amari, 1972). Dois mecanismos são essenciais para uma eficiente aprendizagem e reprodução de seqüências temporais. O primeiro deles tem por objetivo extrair e armazenar as dependências temporais entre os itens de uma seqüência. Tal mecanismo é usualmente chamado de memória de curto prazo (MCP). Os componentes individuais da seqüência, também chamados itens, estados ou padrões, são armazenados de maneira que o padrão de ativação da MCP codifique tanto os itens em si, quanto a ordem em que eles ocorreram. Diz-se, neste caso, que a MCP armazena tanto informação espacial relativa ao item em si, quanto informação temporal relativa a ordem de cada item na seqüência (Bradski et al., 1992). O segundo mecanismo deve assegurar que a dinâmica da rede permita reproduzir as seqüências armazenadas na seqüência correta e na precisão desejada.

A hipótese básica envolvida na aprendizagem da ordem temporal de padrões seqüenciais é conhecida como encadeamento temporal (temporal chaining hypothesis). Uma seqüência é vista como uma cadeia causal de itens conectados no tempo, na qual o conjunto de associações entre itens consecutivos (transições de estado) deve ser aprendida para uma reprodução total ou parcial da seqüência memorizada. A maioria dos modelos de redes neurais artificiais (RNA) que implementam essa hipótese são baseadas ou em Perceptrons multicamadas treinados com versões temporais do algoritmo backpropagation, ou na rede de Hopfield (Mozer, 1993; Wang, 1995; Herz, 1995). Contudo, é interessante enfatizar que princípios de autoorganização de sistemas desempenham um papel importante na aprendizagem de seqüências temporais, e que especialmente a área de aprendizagem de robôs tem recebido contribuições relevantes. A grande maioria dos modelos está envolvida na solução da cinemática inversa para coordenação visuomotora (Kuperstein e Rubistein, 1989; Martinetz et al., 1990; Gaudiano e Grossberg, 1991; Walter e Schulten, 1993) ou aprendizagem de rotas e navegação (Denham e McCabe, 1995; Gaudiano et al., 1996; Owen e Nehmzow, 1996, Heikkonen e Koikkalainen , 1997). Um problema em robótica que tem recebido recentes contribuições da área de redes neurais nãosupervisionadas é o rastreamento de trajetórias ou tracking (Hyötyniemi, 1990; Althöfer e Bugmann, 1995; Bugmann et al., 1998; Barreto e Araújo, 1999a, b). Esta tarefa converte uma descrição prévia do movimento desejado em uma trajetória definida como uma seqüência temporal de configurações

(estados) do robô entre um ponto de origem e um de destino. O movimento desejado é o de um robô manipulador industrial consistindo de juntas acionadas por atuadores individuais. O robô deve seguir o caminho pré-estabelecido, tal que seus controladores possam coordenar o movimento das juntas de modo a realizar com precisão o movimento especificado, ponto-a-ponto, ao longo do caminho. Nos modelos propostos por Hyötyniemi (1990), Althöfer e Bugmann (1995) and Bugmann et al (1998), as transições de uma determinada configuração do robô a outra são não-adaptativas. Ou seja, uma mesma trajetória é armazenada duas vezes, uma vez em um primeiro nível de conexões sinápticas e outra vez num segundo nível de conexões. A transição de um estado em uma camada ao seu sucessor na outra camada é estabelecido offline pelo projetista da rede, visto que a trajetória é conhecida de antemão. Para seqüências com itens repetidos ou compartilhados, os dois primeiros modelos são incapazes de reproduzir corretamente as trajetórias armazenadas. O terceiro modelo reproduz trajetórias com estados repetidos, mas não é capaz de lidar com várias trajetórias que compartilhem um determinado estado. Recentemente, Barreto e Araújo (1999a, b) propuseram uma abordagem diferente na qual a ordem temporal dos itens da seqüência é aprendida sem supervisão externa por meio de uma versão temporal da regra de aprendizagem de Hebb (Hebb, 1949) à medida que a seqüência de entrada vai sendo lida. O primeiro modelo (Barreto e Araújo, 1999a) aprende e reproduz trajetórias que compartilham estados com outras. Uma cópia do estado compartilhado é criada e armazenada por um neurônio diferente toda vez que esse estado ocorrer. O segundo modelo (Barreto e Araújo, 1999b) também lida com estados compartilhados mas, desta vez, apenas uma cópia do estado compartilhado é armazenada, implicando em economia de memória. Neste artigo, uma extensão da rede autoorganizável proposta por Barreto e Araújo (1999b) é desenvolvida. Este novo modelo aprende e reproduz trajetórias complexas com elementos repetidos e/ou compartilhados, utilizando menos recursos de memória. Serão consideradas seqüências na forma de trajetórias de robô que terão a forma de oito e também linhas retas. A performance da rede em aprender e reproduzir com precisão e sem ambigüidades as trajetórias será avaliada, bem como sua robustez à ruídos e falhas. O restante do artigo está organizado como segue. Na Seção 2, o modelo é apresentado. Na Seção 3, a performance da rede é conferida via simulação computacional e os principais resultados são discutidos. O artigo é concluído na Seção 4. 2 Arquitetura da Rede Neural A arquitetura do modelo proposto é mostrada na Fig. 1. Ela é bastante simples e similar às topologias padrões de redes não-supervisionadas. As diferenças

básicas estão na camada de entrada, divida em três partes, e na presença de sinais de realimentação atrasados na saída da rede. O modelo possui conexões sinápticas dos tipos feedforward e laterais que desempenham papéis diferentes na sua dinâmica. Cada componente da rede é descrito a seguir.

z-1

z-1

z-1

Conexões laterais M Conexões feedforward W

z-1

---

z-1

z-1

--Entradas sensoriais Estados da trajetória

Global

Local

Unidades de contexto

Figura 1. A arquitetura do modelo proposto.

Cada padrão de entrada v(t) ∈ ℜp+q+d consiste em unidades sensoriais s(t) ∈ ℜp, unidades de contexto global cg(t) ∈ ℜq e unidades de contexto local cl(t) ∈ ℜd. Unidades sensoriais recebem o item da seqüência no instante t e o propaga em direção a saída. No problema de robótica estudado aqui, s(t) = {z(t), θ(t), τ(t)}, onde z(t) é a posição espacial do end-effector (garra ou ferramenta) do manipulador com relação às coordenadas da base, θ(t) é o vetor de ângulos das juntas e τ(t) é o vetor de torques aplicados nas juntas. A dimensão de s(t) depende do número de graus de liberdade do robô. Unidades de contexto são de dois tipos, global e local, e desempenham um papel essencial na resolução de ambigüidades. Contexto global é invariante no tempo e seu valor é fixado como um estado qualquer da seqüência temporal, sendo os estados inicial ou final as opções usuais. Contexto global atua como um tipo de identificador da seqüência. Em robótica, essa informação global é em geral fornecida como especificação da tarefa e o comportamento do robô pode ser entendido como orientado ao objetivo (goal-oriented). Este identificador é fundamental em situações onde várias seqüências tem que ser aprendidas e algumas delas tem estados em comum (Barreto e Araújo, 1999a). Se essas seqüências são abertas (item inicial ≠ item final) ou fechadas (item inicial = item final) sem itens repetidos, mostra-se que contexto global é suficiente para reproduzir as seqüências na ordem temporal correta mesmo na presença de itens compartilhados. Contudo, para uma única seqüência fechada contendo itens repetidos, informação adicional é necessária visto que neste caso os estados repetidos tem o mesmo contexto global. Consequentemente, contexto local, variante no tempo, é adicionado à entrada da rede. Este tipo de contexto é formado por itens passados da seqüência (histórico temporal) que precedem o estado atual, ou seja, cl(t) = {z(t-1), z(t1), ..., z(t-τ)}, τ é chamada de profundidade da memória (memory depth).

As conexões sinápticas são de dois tipos: pesos cl feedforward, wj(t) = { w sj (t ), w cg j (t ), w j (t ) }, j denota um neurônio de saída qualquer, ajustados por uma regra competitiva e pesos laterais mj(t) ajustados por uma regra hebbiana. Os pesos feedforward conectam cada unidade de entrada a cada neurônio de saída. Eles armazenam os itens da seqüência propriamente ditos, ou seja, codificam a parte espacial em um instante de tempo específico. Os pesos laterais codificam a ordem temporal da seqüência. Uma seqüência é apresentada para a rede item por item. E para cada item apresentado, os dois grupos de pesos sinápticos são ajustados apenas uma única vez. Isto significa que uma seqüência com Nc componentes requer Nc passos de treinamento. A parte sensorial s(t) do vetor de entrada é comparada com a parte correspondente nos pesos feedforward através de distância euclideana. Os neurônios com vetor de pesos mais próximos de s(t) são selecionados para serem ajustados. Define-se a seguir uma distância sensorial, D sj (t ) = s (t ) − w sj (t ) , uma distância de contexto cg global, D cg j (t ) = cg(t ) − w j (t ) , e uma distância de

contexto local, D clj (t ) = cl(t ) − w clj (t ) . A distância D sj (t ) é usada para encontrar os vencedores da atual cl competição, enquanto D cg j (t ) e D j (t ) são usados

para solucionar ambigüidades durante a reprodução. Para uma boa performance, cada um dos itens de uma seqüência deve ser memorizado e reproduzido na sua posição correta dentro da seqüência. Redes competitivas usuais tendem a agrupar os padrões de entrada (clustering) e, por isso, não costumam ser usadas com o propósito de rastrear trajetórias. Para evitar esta situação, a rede “penaliza” um neurônio, excluindo-o de competições subseqüentes, quando ele tenta codificar mais de um item da seqüência. Esta exclusão pode ser implementada através da definição de uma função Rj(t), chamada função responsabilidade, que indica se um dado neurônio já é responsável pelo armazenamento de um dado item da seqüência. Se Rj(t) > 0, o neurônio j é excluído das competições que seguirem. Se Rj(t) = 0, o neurônio j pode competir por itens da seqüência. De acordo com a definição de Rj(t), se um dado item da seqüência ocorrer novamente, ele será codificado por outro neurônio e não por aquele que o codificou antes. Dessa forma, pode-se afirmar que muitas cópias do mesmo item existirão na rede (Barreto e Araújo, 1999a). Para aumentar a eficiência no uso de memória, toda vez que um item se repetir, ele deve ser codificado pelo neurônio que o codificou antes. Isto pode ser realizado através da definição de um raio de similaridade 0 < ε > 0 é chamada constante de exclusão. Para t = 0, Rj(0) = 0 para todo j. Seguindo a seleção dos K neurônios vencedores e a determinação de suas ativações, os pesos feedforward wj(t) são ajustados de acordo com a seguinte regra competitiva: wj(t+1) = wj(t) + δaj(t)[v(t) - wj(t)]

(2)

onde 0 < δ ≤ 1 é a taxa de aprendizagem dos pesos feedforward. Note que, como cada item de uma seqüência é apresentado apenas uma vez à rede, o valor de δ deve ser alto para que se tenha uma aprendizagem precisa dos padrões da seqüência. Neste trabalho, para fins práticos, adota-se sempre δ = 1. Em t = 0, wj(0) é iniciado com valores aleatórios entre 0 e 1. Os vencedores da competição anterior e da atual, indexados por r e j, respectivamente, são ligados na ordem temporal correta por meio dos pesos laterais, que são ajustados como segue (Barreto e Araújo, 1999b): mjr(t+1) = mjr(t) + λaj(t)ar(t-1)

(3)

onde 0 < λ ≤ 1 é a taxa de aprendizagem dos pesos laterais. As ativações neuronais da competição

anterior, ar(t-1), estão disponíveis no instante atual graças aos atrasadores (time delays) colocados na saída da rede. A Eq. (3) é uma regra de aprendizagem do tipo hebbiana (Hebb, 1949) que estabelece associações temporais entre itens consecutivos da seqüência de entrada, codificando assim a ordem temporal na qual os itens ocorrem (Fig. 2). Para t = 0, mjr(0) = 0, para todo j e r, indicando que nenhuma associação temporal existe inicialmente.

t=0

t=1 s(1)

cg

cl(1)

cg

cl(2)

t=2

t=2 cg

s(2)

cl(2)

s(2)

Figura 2. Esboço de como neurônios vencedores em competições sucessivas são temporalmente ligados via conexões laterais. Inicialmente (t=0), a rede não possui conexões laterais. Em t=1, o neurônio à esquerda é o vencedor para o padrão s(1). Em t=2, o neurônio à direita é o vencedor para o padrão s(2). Ainda em t = 2, uma conexão lateral é criada do neurônio à esquerda para o neurônio à direita através da Eq. (3), indicando a ordem temporal dos eventos.

Para iniciar a reprodução de uma seqüência armazenada, deve-se fornecer à rede qualquer um de seus itens. Este item ativará o neurônio cujo vetor de pesos w sj (t ) é o mais similar ao atual item de entrada s(t). Então, este neurônio ativará seu sucessor (cujo vetor de pesos w sj (t ) contém o próximo item da seqüência) através da conexão lateral que os une, por meio da seguinte equação de saída:    y j (t ) = 1 −    

 

 

  D cg D clj (t )   n j (t ) 1 −  g  m jr (t )a r (t )  n n      Drcg (t )  Drcl (t )   r =1   r =1 r =1  







onde g(u) ≥ 0 e dg(u)/du > 0. O vetor de pesos do neurônio com maior valor para yj(t) é usado para representar o próximo item da seqüência. Este item reproduzido é então reconduzido para a entrada da rede e o processo de reprodução continua até que o final da seqüência armazenada seja alcançado. É importante notar que no caso de ambigüidades, onde dois ou mais neurônios são candidatos a representar o próximo item da seqüência, o maior valor para yj(t) na Eq. (7) é obtido cl para aquele neurônio em que D cg j (t ) = 0 e D j (t ) = 0. Ou seja, aquele neurônio cujo contexto é o mais próximo do contexto do item de entrada atual. Eq. (7) estende sua equivalente no modelo proposto por

Barreto e Araújo (1999b) através da inclusão do fator correspondente ao contexto local. Para t = 0, as ativações e saídas são aj(0) = yj(0) = 0, para todo j. 3 Simulações Nos testes que se seguem, a rede proposta é avaliada na sua capacidade de aprendizagem e recuperação de trajetórias abertas (linhas retas) e fechadas (na forma de oito), bem como na tolerância ao ruído e a falhas. As trajetórias foram construídas a partir da toolbox Robotics do Matlab (Corke, 1996) para um robô PUMA 560 com seis graus de liberdade. Assim, cada item s(t) de uma trajetória é formado pela posição espacial z(t) da garra do manipulador, pelos ângulos das juntas θ(t) = {θ1(t), .., θ6(t)} e pelos torques aplicados nas juntas τ(t) = {τ1(t), .., τ6(t)}, ou seja, s(t) = {z(t), θ(t), τ(t)}, s(t) ∈ ℜ15. O primeiro teste avalia a capacidade da rede em reproduzir três trajetórias em linha reta que tem o ponto inicial (0,60; 0,10; 0,00) em comum. O contexto global é fixado na posição espacial final da garra do manipulador, i.e., cg = zfinal . O contexto local é definido como lc(t) = {z(t-1), z(t-2)}. Os parâmetros para todas as simulações seguintes são p = 15, q = 3, d = 6, n, = 250, ε = 10-6, K = 2, amax = 1, amin = 0,98, β = 100, δ = 1, λ = 0,8. Após o treinamento, a reprodução das trajetórias é realizada para verificar se elas foram aprendidas na ordem correta e com precisão. Os resultados na Fig. 3 ilustram uma reprodução correta. G3 I – ponto inicial G – ponto final G1 G2

I

Figura 3. Reprodução das posições espaciais para três trajetórias abertas que tem o ponto inicial (0,6; 0,1; 0,0) em comum. Trajetórias reais ‘o’ e reproduzidas ‘*’.

O simulador na Fig. 4 permite a visualização dos resultados para as trajetórias reproduzida na Fig. 3.

Figura 4. Visualização das trajetórias reproduzidas na Fig. 3.

Para os próximos testes, o desempenho é medido pelo erro quadrático médio de posicionamento do end-effector do robô, ou seja: MSE =

1 Nc

Nc

∑ z real (t ) − z rep (t )

2

t =1

onde Nc é o número de pontos de uma dada trajetória, zreal é o ponto real e zrep é o ponto reproduzido. Em seguida, dados os pontos de origem e destino, avalia-se o efeito de variar o número de pontos intermediários (taxa de amostragem) no desempenho da rede na presença de ruído na entrada. Assim, fixa-se K e treina-se a rede com a trajetória IG1 com 11, 21, 41 e 81 pontos. Um resultado típico para K = 3 é mostrado na Fig. 5, onde. Por simplicidade, apenas os resultados para a trajetória com 11 e 81 pontos são apresentados. 0,30

11 pontos 81 pontos

0,25

M S E

0,20

0,15

0,10

0,05

0,00 0,00

0,02

0,04

0,06

0,08

0,10

variância

Figura 5. Efeito da variação da taxa de amostragem de uma dada trajetória, para um valor fixo de K, na performance da rede durante a reprodução da trajetória sob condições de ruído na entrada.

Da Fig. 6, pode-se inferir que existe um limite superior para valores de K, visto que na média o valor de K = 3 produz melhores resultados (menor MSE) que K= 4. Os resultados para K = 5 (não mostrados) são piores que aqueles para K ≤ 4. Isto ocorre porque, à medida que K aumenta, a região do espaço que os respectivos K neurônios vencedores para um dado ponto da trajetória cobrem tende a se sobrepor à região coberta pelos K neurônios vencedores para o próximo ponto da trajetória. Isto aumenta a chance de erro durante a reprodução da trajetória. Por fim, a última simulação usa trajetórias em forma de oito. Esta contém um elemento repetido na posição (0,5; 0,5; 0,5). Este tipo de trajetória é interessante pois serve para ilustrar a necessidade de contexto local. Como este tipo de seqüência não tem pontos inicial e final bem definidos, o contexto global não tem influência nenhuma no processo de reprodução já que ele é o mesmo para as duas ocorrências da posição (0,5; 0,5; 0,5). Assim, resolução da ambigüidade quando a rede chegar a este ponto fica a cargo do contexto local. Na Fig. 7a, os resultados da reprodução da trajetória são mostrados. Na Fig. 7b, o teste de tolerância a falhas é realizado, no qual os neurônios vencedores µ1(t) são eliminados após o treinamento. Devido ao mecanismo de redundância, a reprodução da trajetória fica agora a cargo dos neurônios µ2(t) às expensas de um erro de posicionamento ligeiramente maior. Note que a diferença é quase imperceptível. Os erros médios quadrático (MSE) foram 0.0 (Fig. 7a) e 7.7×10-5 (Fig. 7b).

Da Fig. 5, pode-se concluir que um gradual aumento no número de pontos intermediários resulta em valores menores de erro de rastreamento. Os resultados para a trajetória I-G1 com 21 e 41 pontos (não mostrados) confirma esta afirmação. A próxima simulação estuda o efeito da variação de K, para um número fixo de pontos intermediários, na performance da rede para entradas com ruído. Utiliza-se a trajetória I-G1 com 81 pontos, e varia-se K de 1 a 5. Um resultado típico é mostrado na Fig. 6, onde estão apenas os resultados para K = 3 e 4. 0,25

K=3 K=4

0,20

M S E

0,15

0,10

0,05

0,00 0,00

0,02

0,04

0,06

0,08

0,10

variância

Figura 6. Efeito da variação do grau de redundância K, para um número fixo de 81 pontos da trajetória I-G1, na performance da rede durante a reprodução para entradas ruidosas.

Figura 7. Trajetórias em forma de oito. (a) Reprodução típica da trajetória armazenada, (b) um teste de tolerância a falhas. Em (a) e (b) a trajetória real é representada por círculos e a reproduzida por asteriscos. As setas mostram a direção de movimento.

4 Conclusão e Trabalhos Futuros Uma rede neural não-supervisionada para aprendizagem e reprodução de trajetórias de um robô manipulador foi desenvolvida neste artigo. O modelo é bastante simples, porém poderoso, visto que ele armazena e reproduz com precisão seqüências temporais complexas, abertas ou fechadas, mesmo na presença de ruído e falhas. O modelo proposto foi aplicado no problema de rastreamento de trajetórias que tem larga ocorrência na indústria. Usualmente, a trajetória a ser seguida é “ensinada” ao robô pelo método conhecido por walkthrough no qual um operador guia o robô pela seqüência de posições desejadas do braço. Estas posições são então armazenadas na memória do controlador para uma posterior reprodução. Este método consome bastante tempo e é, algumas vezes, inviável economicamente. Isto ocorre em parte porque o robô fica fora de produção durante o processo de armazenamento da trajetória, e em parte porque, à medida que as trajetórias tornam-se mais e mais complexas, o operador humano enfrenta dificuldades para resolver as ambigüidades potenciais. Esta última causa motivou fortemente o desenvolvimento do modelo auto-organizável proposto neste artigo, visto que é altamente desejável ter o processo de aprendizagem das trajetórias adaptativo e com mínima intervenção humana. Quando comparado às redes auto-organizáveis propostas por Grossberg (1969a) e Wang e Arbib (1990), que também são capazes de lidar com itens repetidos, o modelo proposto aqui tem o mesmo desempenho usando menos neurônios, visto que aqueles mantém várias cópias do item repetido. Uma abordagem muito similar à desenvolvida neste artigo usando o conceito de padrões espaciais conectados seqüencialmente no tempo via regra hebbiana temporal foi proposto por Kopecz (1995). Contudo, seu modelo somente é capaz de reproduzir seqüências que não possuam itens repetidos. Testes adicionais estão sendo desenvolvidos para avaliar detalhadamente a robustez da rede ao ruído e falhas, bem como a relação entre o número de itens na seqüência (taxa de amostragem) e o raio de similaridade e sua influência na performance da rede. A comparação com outros modelos, tais como os propostos recentemente por Wang e Yuwono (1996) e Srinivasa e Ahuja (1999), e a implementação do modelo proposto em um robô PUMA 560 real também estão sendo realizadas. Agradecimentos: Os autores agradecem à FAPESP pelo suporte financeiro (Projeto # 98/12699-7). Referências Althöfer, K. e Bugmann, G. (1995). Planning and learning goaldirected sequences of robot arm movements. Proc. of the Int. Conf. on Artificial Neural Networks (ICANN’95), Paris, France, vol. 1, pp. 449-454. Amari, S. (1972). Learning patterns and pattern sequences by selforganizing nets. IEEE Trans. Computers, 21:1197-1206.

Barreto, G.A. e Araújo, A.F.R. (1999a). Unsupervised learning and recall of temporal sequences: An application to robotics. International Journal of Neural Systems, 9(3):235-242. Barreto, G.A. e Araújo, A.F.R. (1999b). Unsupervised context based learning of multiple temporal sequences. Proc. of the International Joint Conference on Neural Networks (IJCNN’99), Washington, D.C., paper #575. Bradski, Carpenter, G.A. e Grossberg, S. (1994). STORE working memory networks for storage and recall of arbitrary temporal sequences. Biological Cybernetics, 71:469-480. Bugmann, G., Koay, K. L., Barlow, N., Phillips, M. e Rodney, D. (1998). Stable encoding of robot trajectories using normalized radial basis functions: Application to an autonomous wheelchair. Proc. of the 29th Int. Symp. on Robotics (ISR'98), Birmingham, UK, pp. 232-235. Corke, I. (1996). A Robotics toolbox for MATLAB. IEEE Robotics and Automation Magazine, 3(1):24-32. Denham, M. J. e McCabe, S. L. (1995). Robot control using temporal sequence learning. Proc. of the WCNN’95, vol. 2, 346348. Gaudiano, P. e Grossberg, S. (1991). Vector associative maps: Unsupervised real-time error-based learning and control of movement trajectories. Neural Networks, 4:147-183. Gaudiano, P., Zalama, E. e Coronado, J.L. (1996). An unsupervised neural network for low-level control of a wheeled mobile robot: noise resistance, stability, and hardware implementation. IEEE Transaction on System, Man, and Cybernetics - Part B, 26:485-496. Grossberg, S. (1969). Some networks that can learn, remember, and reproduce any number of complicated space-time patterns, I. Journal of Math. and Mechanics, 19:53-91. Hebb, D.O. (1949). The organization of behavior. Wiley. Heikkonen, J. e Koikkalainen, (1997). Self-organization and autonomous robots. In: Neural Systems for Robotics, O. Omidvar and van der Smagt (Eds.), Academic Press, 297-337. Herz, A. V. M. (1995). Spatiotemporal association in neural networks. In: The Handbook of Brain Theory and Neural Networks, M. A. Arbib (ed.), pp. 902-905, MIT Press. Hyötyniemi, H. (1990). Locally controlled optimization of spray painting robot trajectories. Proc. of the IEEE International Workshop on Intelligent Motion Control, Istanbul, Turkey, pp. 283-287. Kohonen, T. (1997). Self-organizing maps. 2nd edition, SpringerVerlag. Kopecz, K. (1995). Unsupervised learning of sequences on maps with lateral connectivity. Proc. ICANN’95, vol. 2, pp. 431-436. Kuperstein, M. e Rubinstein, J. (1989). Implementation of an adaptive neural controller for sensory-motor coordination. IEEE Control Systems Magazine, 9(3):25-30. Martinetz, T.M., Ritter, H.J. e Schulten, K.J. (1990). Threedimensional neural net for learning visuomotor coordination of a robot arm. IEEE Transactions on Neural Networks, 1(1):131136. Mozer, M. C. (1993). Neural net architectures for temporal sequence processing. In: Predicting the Future and Understanding the Past, A. Weigend e N. Gershenfeld (Eds.), Redwood City, CA: Addison-Wesley, 243-264. Owen, C. e Nehmzow, U. (1996). Route learning in mobile robot through self-organization. Proc. Eurobot 96, IEEE Computer Society Press. Srinivasa, N. e Ahuja, N. (1999). A topological and temporal correlator network for spatiotemporal pattern learning, recognition, and recall. IEEE Trans. on Neural Networks, 10(2):356-371. Wang, D.L. e Arbib, M.A. (1990). Complex temporal sequence learning based on short-term memory. Proc. of the IEEE, 78(9):1536-1543. Wang, D. L. (1995). Temporal pattern processing. In: The Handbook of Brain Theory and Neural Networks, M. Arbib (ed.), 967-971, MIT Press. Wang, D. L. e Yuwono, B. (1996). Incremental learning of complex temporal patterns. IEEE Trans. on Neural Networks, 7(6):1465-1481. Walter, J.A. e Schulten, K.J. (1993). Implementation of selforganizing neural networks for visuo-motor control of an industrial robot. IEEE Trans. on Neural Networks, 4(1):86-95.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.