L\'apprendimento linguistico e numerico nei \"developmental robots\"
Descrição do Produto
L’apprendimento linguistico e numerico nei “Developmental Robots” Angelo Cangelosi1, Vivian M. De La Cruz2, Anthony Morse1, Alessandro Di Nuovo1,3, Marek Rucinski1, Francesca Stramandinoli 1,4, Davide Marocco1, Kerstin Fischer5 1. Centre for Robotics and Neural Systems, Plymouth University, UK 2. Dip. di Scienze Cognitive (CSECS), Università di Messina, Italia 3. University of Enna Kore, Italy, Centre for Robotics and Neural Systems, UK 4. Italian Institute of Technology 5. Dept. of Design and Communication, University of Southern Denmark
Abstract
Language and number learning in developmental robots. Developmental Robotics is the interdisciplinar4 approach to the autonomous design of behavioural and cognitive capabilities in artiwcial agents that takes direct inspiration from the developmental principles and mechanisms observed in natural cognitive s4stems. This approach puts strong emphasis on constraining the robot’s cognitive architecture and behavioural and learning performance onto kno=n child ps4cholog4 theories and data, allo=ing the modelling of the developmental succession of qualitative and quantitative stages leading to the acquisition of adult-like cognitive skills. In this paper =e present a set of studies based on the developmental robotics approach looking speciwcall4 at the modelling of embodied phenomena in the acquisition of linguistic and numerical cognition capabilities.
Keywords
Developmental Robotics, Embodied Cognition, Grounded Cognition, S4mbol Grounding
Introduzione La robotica dello sviluppo, “Developmental Robotics” o DR, in breve, è “l’approccio interdisciplinare alla progettazione di capacità comportamentali e cognitive autonome in agenti arti¿ciali (robot), ispirata dai principi e dai meccanismi dello sviluppo osservati nei si- stemi cognitivi naturali (bambini)” (Cangelosi, Schlesinger 2015).
La maggior parte degli studi in quest’ambito si è concentrata sull’interazione tra il (bambino) robot in fase di sviluppo e il suo ambiente fisico e sociale. Tale approccio è naturalmente adatto alla modellazione della cognizione corporea (Embodied Cognition) per il grounding della cognizione (Pezzulo et al. 2013). Soprattutto per quanto riguarda la base incarnata (embodied) dell’apprendimento linguistico, l’uso di robot che devono imparare a nominare gli og- getti che vedono e le azioni che compiono, per poter comunicare con altri robot e/o con gli umani, offre uno strumento ideale per modellare il grounding di simboli nella conoscenza sensomotoria e nell’esperienza. La robotica quindi, fornisce un importante stru- mento per affrontare il symbol grounding problem nella modella- zione cognitiva e nei sistemi cognitivi artificiali (Harnad 1990; Cangelosi 2011). Il presente contributo fornisce una breve recensione di una serie di studi recenti basati sull’utilizzo della DR nella modellazione di diversi aspetti dell’acquisizione embodied del linguaggio e delle capacità numeriche nei robot e il loro grounding nell’esperienza percettiva e motoria. La prima sezione riguarda la modellazione di una delle prime fasi dell’apprendimento linguistico e in partico- lare l’apprendimento dei nomi d’oggetti, basandosi su vincoli del corpo come quelli della postura e dello spazio. Questo modello è successivamente esteso all’apprendimento di strutture grammati- cali semplici ma astratte, all’apprendimento di frasi composte da più parole, e all’acquisizione di parole di significato ancora più astratto. La sezione finale si spinge più avanti nella gerarchia del symbol grounding, dimostrando come l’utilizzo di gesti nel con- tare e di strategie nel contare con le dita aiutino il robot ad acqui- sire diverse capacità correlate alla cognizione numerica.
L’apprendimento delle prime parole e il ruolo del corpo Il modo in cui i bambini in tenera età imparano ad associare un nome ad un oggetto, suggerisce che la postura del corpo giochi un ruolo fondamentale (Samuelson et al. 2011). Per riuscire ad imparare qualcosa dall’esperienza in tempo reale, il soggetto deve poter orien- 12
tare i suoi sensori, e quindi il suo corpo ¿sico, per rispondere agli stimoli. In una serie di esperimenti, abbiamo esplorato le implicazioni di quest’ipotesi, indagando come un robot potrebbe associare la sua postura all’esperienza sensoriale attesa. Gli esperimenti con il robot sono stati basati sul lavoro di Samuelson et al. (2011), i quali estendendo una ricerca fatta da Baldwin (1993), hanno dimostrato l’esistenza nei bambini di forti tendenze (o bias) posturali e d’orientamento spaziale nell’apprendimento della mappa- tura delle parole agli oggetti. Infatti, in una serie d’esperimenti gli autori hanno dimostrato che i bambini usano la presenza costante di un oggetto in una particolare località nello spazio, per legare ad esso un nuovo nome in situazioni ambigue di naming. La costanza spa- ziale quindi, fornirebbe un ottimo indizio referenziale, come anche la memoria della propria postura e la posizione dell’oggetto correlato nell’associazione degli oggetti ai loro nomi. Abbiamo esteso la loro indagine usando un modello embodied, l’iCub humanoid robot, per esplorare ulteriormente come l’inÀuenza del fattore spazio possa essere studiata per mezzo dell’interazione ¿sica del robot con gli oggetti con le loro posizioni. Nel nostro mo- dello associamo le caratteristiche degli oggetti direttamente alla po- stura del corpo nel momento in cui incontra gli oggetti stessi, insieme all’associazione delle parole alla postura assunta dal robot nel mo- mento in cui le ha sentite. Il risultato è che la postura del corpo agisce come uno ‘hub’ (o centro di attivazione), in modo che l’attivazione distribuita via l’associazione che porta alla rappresentazione posturale a sua volta attivi le parole e/o le caratteristiche visive degli oggetti (in una sorta di priming indiretto). Il modello usato, è un’implementazione dell’Epigenetic Robotics Architecture (Morse et al. 2010), architettura di robot cognitivo spe- ci¿camente progettato per studiare l’apprendimento del linguaggio secondo un approccio embodied. Il nucleo di quest’architettura con- siste in tre mappe auto-organizzante (mappa visiva; mappa del corpo guidata dalle informazioni posturali; mappa delle parole pre-elaborata con Dragon Dictate TM – software commerciale per la traduzione del parlato al testo) modi¿cate tramite l’apprendimento Hebbiano fra le unità. La mappa visiva e la mappa corrispondente alle parole sono connesse alla mappa della postura del corpo, con pesi che vengono 13
aggiustati utilizzando regole d’apprendimento Hebbiane (per ulteriori dettagli si veda Morse et al. 2010). In una prima versione dell’esperimento, l’oggetto target (palla rossa) è collocato alla sinistra dell’iCub. Il robot ¿ssa il target per 10 secondi circa, prima che l’oggetto target venga tolto e l’oggetto distrattore messo invece sulla destra dell’iCub, e ¿ssato a sua volta per 10 secondi circa. Questa procedura è ripetuta 4 volte. Al quinto ciclo di presentazione, l’oggetto distrattore è messo nella posizione normalmente associata con l’oggetto target, e la parola ‘modi’ viene pronunciata. Il posizionamento originale degli oggetti viene ripetuto un’ultima volta e quindi i due oggetti vengono collocati in posizioni nuove, per testare il robot con la domanda ‘trova il modi’. L’iCub si orienta e cerca di raggiungere con il braccio uno degli oggetti. Sono state eseguite diverse istanze e ripetute 20 volte, re-inizia- lizzando i parametri. I risultati, confrontati con i bambini, con due tassi d’apprendimento, sono mostrati nella Figura 1. Dopo aver re- plicato i dati provenienti dagli studi con bambini, abbiamo eseguito un nuovo esperimento, seguendo la stessa procedura delineata sopra ma aggiungendo un cambiamento nella postura dell’iCub (dalla po- sizione seduta a quella in piedi, o dalla posizione in piedi a quella seduta, in modo contro bilanciato) per i compiti di “naming” esclu- sivamente nel quinto ciclo di presentazione. Questo cambiamento in postura fa si che il compito di denominazione avvenga assumendo una postura che non era stata precedentemente associata ne all’og- getto target ne a quello distrattore. In fase di veri¿ca, si è visto che l’interferenza tra gli oggetti precedentemente incontrati e la nuova postura porta l’iCub a scegliere l’oggetto distrattore (l’oggetto che ¿ssava quando prima senti il suo nome). Questo risultato è stato recentemente veri¿cato in nuovi esperimenti con bambini (Morse et al. submitted). In quest’ultimo esperimento si è dimostrato che i bambini (e i robot) usano la memoria delle posture per organizzare il loro compito d’apprendimento. Se due diverse posture sono usate, in una prima fase dello sviluppo, il robot le usa per separare i diversi compiti cognitivi. Le implicazioni di quest’ipotesi sono di vasta portata. Per esempio, si sa che pattern atipici dello sviluppo motorio hanno spesso una co-morbidità con molti altri disturbi dello sviluppo cognitivo, e pattern 14
di movimenti anormali sono spesso collegati ad uno scarso controllo attentivo nei bambini, però i motivi non sono ancora ben compresi. Questa linea di ricerca potrebbe fornire una via perseguibile per meglio comprendere, da un punto di vista meccanicistico, le dipendenze in età evolutiva tra i processi sensomotori e lo sviluppo cognitivo.
Fig. 1: Risultati del modello robotico e quelli degli esperimenti con bambini in diverse condizioni sperimentali. Esperimento 1: Attenzione del bambino attirata alla posizione dell’oggetto target senza oggetto presente durante il naming. Esperimento 2: Stessa procedura ma posizione dell’oggetto cambiata. Esperimento 3: Cambiamento di postura introdotta durante il naming (dati con bambini non disponibili). Esperimento 4: Segue esperimento 1 ma oggetto distrattore adesso si trova nella posizione del naming. Esperimento 5: Replica esperimento 4 ma con cambiamento di postura (dati con bambini non disponibili). Dati e analisi degli esperimenti 3 e 5 con bambini sono in via di pubblicazione.
3. L’apprendimento della grammatica Apprendere la grammatica signi¿ca capire gli indizi strutturali che codi¿cano con¿gurazioni semantiche astratte. Un esempio è l’ordine delle parole o il word order. In lingue con poca marcatura morfologica 15
come l’Inglese per esempio, l’ordine delle parole gioca un ruolo par- ticolarmente importante (Kirkwood 1969). Nella frase, “The princess kissed the frog”, per esempio, l’ordine dei sostantivi fornisce informa- zioni su chi ha baciato chi. Il word order non è una semplice mappatura tra elementi: richiede invece la comprensione della struttura dei pattern e il tipo di categoria semantica coinvolta. Per esempio, una frase nominale può avere molte realizzazioni come: the frog, the green frog, the big green frog, ecc. Quindi, sia le problematiche semantiche che strutturali sono conside- rate nell’interpretazione della struttura grammaticale. Nello studio descritto nella presente sezione, utilizziamo un modello di DR per progettare un robot che impari a sfruttare gli indizi forniti dall’ordine delle parole, per riuscire ad inferire la categoria semantica di parole sconosciute in enunciati nuovi. Il modello è costruito con due diversi sistemi, creati con lo scopo di combinare informazione seman- tica con un semplice tipo d’analisi grammaticale. Nel modello il robot impara il signi¿cato del linguaggio a cui è esposto, basandolo (groun- ding) sulle proprie esperienze sensomotorie, come fanno i bambini umani (per dettagli Marocco et al. 2010; Morse et al. 2010). Tuttavia, i bambini, per¿no in età molto precoce, hanno anche mostrato di poter eseguire analisi distributive degli enunciati che sentono (Gómez 2007), estraendo le regolarità e i rapporti di co-occorenza in diversi compiti di categorizzazione linguistica (e.g. l’identi¿cazione d’elementi dell’in- ventario fonologico, la segmentazione delle parole, la distinzione fra parole di contenuto da quelle invece con funzione prettamente gram- maticale) facendo partire i primi processi di categorizzazione sintattica. Nel bambino, durante il suo iniziale “apprendistato” linguistico, tutti i due i processi d’apprendimento, quello embodied e quello distribuitivo, interagiscono, inÀuenzandosi a vicenda. Nel caso discusso in questa se- zione, impieghiamo un’architettura che consente al nostro iCub d’impa- rare nuove parole dall’interazione fra le informazioni di tipo distribui- tivo e quelli grounded o basati sulle informazioni sensomotorie. Il modello che apprende la grammatica combina un modulo basato sull’Epigenetic Robotics Architecture (ERA), che fornisce il grounding delle parole come descritto nella sezione precedente, e i Recurrent Neural Networks (RNN), che invece consentono l’abilità di estrarre caratteristiche temporali dall’analisi dell’ordine seriale. Il 16
modulo ERA può imparare rappresentazioni astratte dall’esperienza continua in maniera cross-situazionale, per produrre e spiegare diversi fenomeni cognitivi e comportamentali. Il modulo di reti ricorrenti è addestrato con l’algoritmo della propagazione all’indietro degli errori (Error Back Propagation), che impara le sequenze dinamiche dei pat- tern d’input-output man mano che si sviluppano nel tempo. In parti- colare, presentiamo al robot i seguenti enunciati con le corrispondenti situazioni: touch ball, touch cube, touch red, touch green, touch green ball, touch green cube, touch red ball, touch red cube. Evidenziamo come l’input è costruito in modo che una semplice mappatura o as- sociazione tra la posizione della parola nella frase e la sua categoria semantica non sia possibile, è invece l’ordine in cui gli aggettivi e i sostantivi occorrono che fornisce informazione. Durante l’apprendimento, ogni parola è associata ad un pattern spe- ci¿co d’attivazione nelle mappe di colore, forma e postura del corpo del modulo ERA. Man mano che il modulo ERA associa le parole alle caratteristiche (e.g. forma e colore di un oggetto) nell’addestramento della rete neurale, ogni parola di una sequenza dell’input è associata alla categoria semantica corrispondente fornito dal modulo ERA come output desiderato. Per esempio, nel caso di “touch the red cup”, consi- derato che “touch”, “red” e “cup” sono già conosciuti al modulo ERA, la rete neurale imparerà l’associazione corretta: “touch”/action, “red”/ color, “cup”/shape. La rete neurale impara implicitamente l’associa- zione tra il word order di una frase con la corrispondente categoria semantica di ogni parola che forma la frase stessa. Dopo l’addestra- mento, la rete sarà in grado di prevedere, sulla base della posizione della parola nella frase, la categoria semantica attesa. Sarà in grado, per esempio, di prevedere che ‘purple’ sarà il colore dell’oggetto nell’enunciato “touch the purple cup” nonostante non abbia mai sen- tito tale parola. Il sistema proposto è stato testato con il simulatore iCub (si veda anche Marocco et al. 2010). Per quanto concerne l’esperienza sen- somotoria, abbiamo utilizzato una giunzione posta sulla spalla, che permette al robot di raggiungere un oggetto estendendo il braccio e muovendolo su una scrivania posta davanti, e un sensore binario tattile sulla mano in modo che potesse fornire feedback sensoriale tattile. Il sistema visivo del robot fornisce informazioni sulla forma dell’og- 17
getto e il suo colore. Il parametro della forma è calcolato dall’imma- gine dell’oggetto e il suo valore è aggiunto come input al controllore di rete neurale insieme al colore in valori RGB. Il robot genera au- tomaticamente un movimento quando riceve come input uno sposta- mento dell’angolo della giuntura. Il movimento corrisponde al target angle ed è generato per mezzo di un pre-programmed proportional-in- tegral-derivative (PID) controller. Lo stato sensomotorio del robot è aggiornato ogni 500 ms. Nell’esperimento, due oggetti (un cubo e una palla) e due colori (rosso e verde) sono presentati al robot. Frasi di tipo vero o falso sono forniti al robot, e.g. touch red ball (true) se una palla rossa è presente o touch green ball (false) se solo un cubo verde è presente. Frasi con un terzo colore, blue, invece, sono usati per la fase di veri¿ca, e.g. touch blue ball. L’azione richiesta al robot è di toccare o non toccare l’oggetto. Il totale delle sequenze d’input disponibili era 32, ma solo 24 di quelle sequenze sono state usate durante l’addestramento. Le 8 rimanenti sono state usate per l’esecuzione di test di generalizzazione. Dopo l’addestramento, un’analisi delle rappresentazioni interne prima e dopo l’input linguistico mostra che la complessità del set d’addestra- mento e la struttura grammaticale più articolata delle frasi hanno un effetto sull’organizzazione interna del controllore neurale tale che le rappresentazioni interne sono rimodellate in modo che tutti i termini di colore sono correttamente categorizzati come colori, basati sulla loro posizione nell’ordine delle parole. Questo indica che è possibile identi¿care correttamente le categorie semantiche da informazioni di- stributive forniti dall’ordine delle parole, che a sua volta permette al sistema arti¿ciale di assegnare il signi¿cato corretto alla nuova parola sulla base della sua posizione nella frase. L’architettura proposta quindi, permetterebbe al learner robotico d’imparare nuove parole tramite l’abbinamento di dati provenienti dalle analisi distributive precedenti (forniti dalle regolarità nell’or- dine delle parole nel linguaggio target), con quelli sensomotori. Se una parola non è conosciuta, il suo signi¿cato corretto le sarà asse- gnato dal modulo ERA, grazie alla capacità del modulo RNN d’infe- rire la categoria semantica sulla base dell’informazione distributiva. Nonostante questo esperimento sia stato applicato ad un dominio piut- tosto ristretto, i risultati indicano che meccanismi relativamente sem- 18
plici possono in parte spiegare come si creano abbinamenti di signi- ¿cati astratti, come peraltro richiede l’apprendimento grammaticale in generale. Per esempio, per i proponenti del construction grammar (Goldberg 1995; Tomasello 2003) la grammatica consiste esclusiva- mente di abbinamenti di questo tipo.
4. L’apprendimento delle parole astratte Studi sull’acquisizione lessicale dei bambini in età precoce hanno dimostrato che l’apprendimento del signi¿cato delle parole concrete precede quello dei concetti astratti (Gentner 1982). Mentre i termini concreti (e.g. i nomi d’oggetti) si riferiscono ad entità tangibili ca- ratterizzati da una associazione a informazioni percettive-cognitive, i termini astratti si riferiscono ad entità intangibili che hanno un legame percettivo-cognitivo più debole con il mondo reale. Quindi, durante il processo d’acquisizione del signi¿cato delle parole, la mappatura delle informazioni percettivo-cognitive legate ai concetti concreti entra nel dominio linguistico molto prima di quella riguardante i con- cetti astratti. Molti hanno suggerito che la distinzione tra le parole astratte e con- crete si trova su un continuum nel quale tutte le entità possono variare a secondo del loro livello di astrazione (Wiemer-Hastings et al. 2001). Nei tentativi di modellare le basi embodied dell’apprendimento delle parole astratte con i robot, i verbi astratti d’azione come “to use” e “to make” sono stati maggiormente usati, perché rappresentativi di una classe di parole descriventi azioni, ma con un signi¿cato abbastanza generale. Sfruttando le strutture gerarchiche ricorsive osservate sia nel linguaggio che nel sistema motorio (Cangelosi et al. 2010), abbiamo creato un modello iCub, che integra semplici strutture motorie primi- tive con parole concrete per creare i referenti semantici delle parole astratte d’azione che non hanno un’associazione diretta con il mondo percettivo. I referenti semantici delle parole astratte d’azione sono for- mati tramite il recall o rievocazione e il riutilizzo della conoscenza sensomotoria direttamente basata o grounded, durante l’interazione di un agente con il mondo reale (Stramandinoli 2012, 2011). Il mecca- nismo alla base è quello del “symbol grounding transfer” (Cangelosi, Riga 2006). 19
Seguendo la struttura “verb-argument” dell’action-object frame come componente base del linguaggio umano (Arbib 2002), il compito consiste nell’addestrare l’iCub ad imparare un set di comportamenti tramite l’utilizzo di alcuni attrezzi speci¿ci associati all’acquisizione di frasi composte da due parole. Le frasi consistono in un verbo ed un sostantivo, e descrivono la speci¿ca azione d’eseguire sull’oggetto selezionato. Partendo da questa premessa, il robot prima è addestrato a riconoscere un insieme di attrezzi caratterizzati dal loro colore, di- mensione e forma (e.g. coltello, martello, pennello) e ad eseguire una serie di azioni con gli oggetti (e.g. tagliare, martellare, dipingere). Successivamente, gli viene insegnato a denominare questi oggetti e le azioni (e.g “cut with knife”). In¿ne, gli sono insegnate le parole astratte motorie “use” e “make” combinando queste nuove parole d’a- zione con i suoi attrezzi (e.g. “use knife”). Per simulare i meccanismi sottostante all’elaborazione di sequenze motorie e linguistiche, abbiamo usato nell’iCub i partial recurrent neural networks (P-RNNs) come controllore neurale. Un multi-modal 3-layer Jordan P-RNN (Jordan 1986) è stato usato per ricevere le modalità di input linguistico, visivo e propriocettivo e per l’output di parole, risposte motorie e rappresentazioni degli oggetti. Gli input visivi e sensomotori sono stati registrati dai sensori dell’iCub, mentre gli input linguistici consistevano in vettori binari per i quali è stata adottata la codi¿ca “one-hot”, in cui ogni unità rappresenta una sin- gola parola. La visione, le azioni e il linguaggio sono integrati da questa rete ricorrente per consentire il grounding delle parole astratte d’azione nella conoscenza sensomotoria. Gli esperimenti eseguiti con il modello di simulazione dell’iCub, mostrano la capacità del robot di comprendere correttamente e ri- spondere alle istruzioni linguistiche usando le parole astratte “use” e “make”. Gli esperimenti hanno riguardato anche gli effetti dell’u- tilizzo di diverse combinazioni delle tre modalità di input (visione, linguaggio e propriocezione). Per esempio, la categorizzazione degli input percettivi, propriocettivi e linguistici del robot, diminuivano quando gli input linguistici o visivi non erano forniti. Sono stati ese- guiti anche dei test di condizione incompatibile; quando un’incoerenza tra gli input percettivi e linguistici è presente, i risultati della simula- zione dimostrano che il robot ignora i comandi linguistici eseguendo 20
le azioni suscitate dalla visione degli oggetti. Questi risultati sono con- sistenti con evidenze neuroscienti¿che e psicologiche che dimostrano come gli oggetti percepiti visivamente attivano informazioni motorie (Jeannerod 1994, Arbib 1997). Quindi, la conoscenza associata agli oggetti dipende non solo dalle caratteristiche degli oggetti percepiti, ma anche dalle azioni che possono essere eseguite con o su di loro (i.e. affordances). Altri esperimenti ancora con il simulatore, suggeriscono che l’acquisizione di concetti collegati a parole astratte d’azione, ri- chiede l’attivazione di rappresentazioni interne che sono simili a quelle attivate durante l’acquisizione di concetti concreti. Questo risultato suggerisce che la rappresentazione semantica delle parole astratte d’a- zione richiede il recall e il riutilizzo delle capacità rappresentazionali sensomotorie (i.e. comprensione embodied del linguaggio astratto). A sostegno di questa tesi esistono evidenze neuro¿siologiche sulla mo- dulazione del sistema motorio durante la comprensione del linguaggio sia concreto sia astratto (e.g. Glenberg et al. 2009). Nonostante sia chiaro che in linguaggio è almeno in parte, basato o grounded nell’esperienza sensomotoria, è anche evidente che si deve andare oltre il semplice grounding sensomotorio. Il lavoro futuro con il robot, in questa direzione, utilizzerà modelli ibridi, nei quali alcuni concetti potranno essere grounded direttamente nell’esperienza sen- somotoria del robot, mentre altri potranno essere acquisiti tramite in- ferenza statistica.
5. Imparare a contare: il ruolo delle dita La cognizione numerica è un altro esempio dell’importanza che ha la cognizione embodied nell’acquisizione delle capacità di manipolare in- formazioni astratte e di tipo simbolico. Diverse strategie embodied, come ad esempio usare le dita per puntare, o per contare, sia tramite gesti usati per toccare gli oggetti da contare, sia come gli oggetti stessi da contare, hanno mostrato di facilitare lo sviluppo delle capacità di cognizione nu- merica (e.g. Alibali, DiRusso 1999; Moeller et al. 2011). La base embo- died dei numeri è stata anche dimostrata negli adulti, come negli effetti della dimensione, la distanza e dell’effetto SNARC (Spatial-Number Association of Response Codes; Dehaene, Bossini, Giraux, 1993). In questa sezione, guardiamo nello speci¿co a due modelli robotici dell’em- 21
bodiment numerico, vale a dire il ruolo dei gesti di conteggio (counting gestures) e quello del contare con le dita (¿nger counting). Il contributo delle dita nell’apprendere a contare è un fenomeno in- teressante dello sviluppo infantile, dal punto di vista dell’embodiment delle conoscenze linguistiche e simboliche. Sembra che sia proprio grazie all’imparare a contare con le dita che i bambini riescano a co- struire un collegamento tra le capacità approssimative di quanti¿cazione pre-verbali e le capacità precise di manipolazione simbolica (Le Corre, Carey 2007). Quando impegnati nell’apprendere a contare, i bambini in- dicano, toccano o muovono oggetti, e moltissimi studi mostrano il bene- ¿cio che le strategie sensomotorie hanno sulla performance del contare (e.g. Graham 1999, Alibali, DiRusso, 1999). Tre le ipotesi principali. La prima sostiene che i gesti aiutano i bambini a superare i limiti delle risorse cognitive assistendoli, ad esempio, nel tenere traccia degli item già contati. La seconda invece sostiene che le strategie sensomotorie potrebbero giocare una funzione coordinativa in quanto combinano una corrispondenza temporale tra il parlato e la corrispondenza spaziale con gli item contati in un’unica attività corporea. La terza ipotesi sostiene che i gesti potrebbero facilitare l’apprendimento sociale, fornendo un tutor con feedback sul progresso d’apprendimento del bambino. Indagando sul contributo dei gesti nel contare al processo d’apprendimento di un sistema di conteggio, abbiamo applicato l’approccio di DR, nel tentativo di fornire ulteriori evidenze pro (o contro) quanto è stato proposto da alcune di queste ipotesi. L’obiettivo del nostro modello robotico sul contributo che giocano i counting gestures nel contare (Rucinski et al. 2012; 2013) era quello di rispondere a due domande: 1)Possono i counting gestures miglio- rare la precisione nel contare se sono rappresentati come valori degli angoli delle giunture delle braccia che cambiano nel tempo? 2) La cor- rispondenza spaziale tra gli item contati e l’atto di indicarli durante il conteggio, è una caratteristica importante dei counting gestures? Una risposta alla prima domanda potrebbe fornire evidenza sul contributo dei gestures nell’apprendere a contare che vada oltre a quella già of- ferta dagli studi psicologici. Una risposta alla seconda domanda offri- rebbe nuove intuizioni riguardanti la natura di tale contributo. Il design dell’esperimento con il robot è stato basato sullo studio comportamentale di Alibali e DiRusso (1999) sul ruolo dei counting 22
gestures nei bambini, e utilizzava le reti ricorrenti di Elman. Il com- pito di contare richiedeva alla rete di dare come output un count list (one-hot coding) che corrispondeva al conteggio di una serie d’oggetti mostrati nello strato d’input visivo, con l’opzione della presenza dei counting gestures, in risposta ad uno stimolo trigger. Informazione propriocettiva è stata simulata basata sui counting gestures eseguiti dall’iCub (Figura 2). La rete neurale del robot è stata addestrata e testata in diverse condizioni sperimentali, e.g. contando con solo l’uso della visione, usando counting gestures naturali, usando gesti arti¿ciali ritmici. Alle due domande su descritte si è data una risposta confrontando la performance ¿nale del conteggio (in tutte le diverse condizioni sperimentali usate), valutandola nello stesso modo in cui è valutata nei bambini. I risultati degli esperimenti di simulazione con il robot hanno di- mostrato che quando alla rete è stata fornita l’informazione propriocet- tiva riguardante i pointing gestures, la sua precisione nel contare mi- gliorava, paragonato al caso in cui usava solo le informazioni visive. Inoltre, il miglioramento non poteva essere attribuito semplicemente al fatto che aveva ricevuto un segnale d’input in più, in quanto il mo- dello aveva mostrato di contare in modo signi¿cativamente peggiore se fornito solo con l’input propriocettivo. Questo ha fornito le prime evidenze fuori dall’ambito degli studi comportamentali, sull’utilità che i counting gestures hanno come embodied cues nell’apprendimento del processo di contare. In più, contrastando gli effetti dei counting gestures spazio-temporali naturali con quelli ritmici arti¿ciali è stato rilevato com’è importante che i counting gestures siano caratterizzati da una corrispondenza spaziale con gli item contati. Infatti, nel caso dei counting gestures con ritmi arti¿ciali, questi non hanno facilitato l’estrazione delle informazioni dall’input visivo da parte della rete neurale.
23
Fig. 2: Simulazione di counting gestures con l’iCub (a sinistra). Le traiettorie ottenute dagli angoli delle giunture, elaborati ex-post con Principal Compo- nent Anaysis, hanno fornito le informazioni fornite alla rete neurale (destra).
Il collegamento diretto che esiste fra il contare con le dita e l’ap- prendimento dei numeri è un ulteriore prova del ruolo che svolge la co- gnizione embodied nell’elaborazione dei numeri e dei simboli astratti. Dati neurocognitivi e psicologi con bambini e adulti dimostrano come le strategie di ¿nger counting e le rappresentazioni ¿nger-based gio- chino un ruolo importante nello sviluppo delle capacità numeriche, aritmetiche e nell’apprendimento del lessico numerico. Peraltro, è stato dimostrato che il ¿nger counting in particolare, causa un’acqui- sizione più ef¿cace dei number words (e.g. Alibali, DiRusso 1999) e inÀuenza l’apprendimento dei concetti matematici (e.g. Moeller et al. 2011). Abbiamo usato il paradigma del DR per esplorare speci¿camente se il ¿nger counting e l’associazione di number words (o tags) a cia- scun dito poteva facilitare l’implementazione di una rappresentazione iniziale di numero nel robot cognitivo. Abbiamo usato nuovamente, una rete neurale ricorrente per simulare l’apprendimento delle associa- zioni tra il ¿nger counting (compito motorio), il conteggio di oggetti (compito visivo), e l’apprendimento di number words e di sequenze (compito uditivo). Abbiamo messo a confronto diversi abbinamenti di modalità sensoriali, e.g. condizione Auditory-Only nella quale il robot impara esclusivamente ad ascoltare e a ripetere le sequenze di number words (“one”, “two”, “three”, “four”…¿no a “ten”), o la condizione Finger+Auditory, nella quale il robot impara simultaneamente la se- 24
quenza acustica dei number words e la sequenza dei movimenti delle dita (la con¿gurazione usata per il ¿nger counting è stata quella della Lingua dei Segni Americana perché più compatibile con gli attuatori del robot iCub). I risultati ottenuti nei vari esperimenti di simulazione sia con la piat- taforma simulata dell’iCub sia con la versione ¿sica dell’iCub robot, dimostrano che l’apprendere le sequenze dei number words insieme alle sequenze dei movimenti con le dita aiuta a costruire velocemente una rappresentazione del numero iniziale nel robot. Quando entrambi i robot (quello virtuale e quello ¿sico) imparano solo le sequenze udi- tive, la performance è inferiore. Inoltre, le rappresentazioni interne della rete neurale per le due condizioni risultano in patterns qualita- tivamente diversi nella similarità tra i numeri. Solo dopo l’apprendi- mento della sequenza Finger+Auditory la rete riesce a rappresentare la differenza tra i numeri. Nei robot addestrati con Finger+Auditory, il cluster analysis diagram delle attivazioni dello strato nascosto di- mostra che la rappresentazione per il number word “one” è adiacente a quello di “two” ed è sempre più distante dai numeri più alti. Invece, nella condizione Auditory-Only, non c’è corrispondenza tra la distanza del cluster similarity diagram e la distanza numerica. Peraltro, le rappresentazioni interne della rete neurale delle con- ¿gurazioni delle dita, sviluppate dal robot dopo gli esperimenti, aiu- tano l’esecuzione di operazioni aritmetiche di base. Nella condizione Finger+Auditory, i number words sentiti ripetutamente, quando ab- binati all’esperienza di muovere le dita, servono come strumenti da usare nella successiva manipolazione delle quantità che rappresen- tano. Infatti, le rappresentazioni delle con¿gurazioni interne emerse dopo gli esperimenti, possono essere considerate come una base per la costruzione di una rappresentazione embodied di numero nel robot. Questo è in linea con gli approcci dell’embodied o grounded cogni- tion allo studio dei processi cognitivi matematici. Proprio come è stato trovato nei bambini in età precoce, per mezzo del ¿nger counting e delle strategie verbali del contare, il nostro modello robotico impara l’operazione aritmetica dell’addizione. La Figura 3 presenta il den- dogramma dopo l’optimal leaf order, che dimostra come la rappre- sentazione interna delle dita sia più simile alla sequenza dei numeri. I numeri che sono vicini nella sequenza sono legati insieme, mentre 25
il raggruppamento dei number words, imparati da soli, in o fuori se- quenza, è più casuale, avendo un forte impatto sull’ef¿cacia dell’ap- prendimento, come presentato nell’esperimento di classi¿cazione.
Fig. 3: Dendogrammi con l’optimal leaf-order dell’attivazione delle unità nascoste per l’apprendimento con solo le dita (sinistra), con solo gli stimoli uditivi (centro), e con solo gli stimoli uditivi in sequenza (destra). Si noti come il dendogramma delle unità nascoste delle dita segue la distanza incrementale attesa tra le sequenze numeriche per quasi tutti i dieci numeri.
I modelli d’embodied developmental robotics, come quelli descritti sopra, possono anche avere importanti implicazioni nella ricerca sulle strategie motorie e il ruolo che hanno nell’educazione della matematica. Infatti, l’utilità dell’apprendimento da parte dei bambini di strategie di ¿nger counting agli inizi della loro formazione matematica, continua ad essere dibattuta negli ambiti della ricerca sulla didattica della matema- tica, nonostante le evidenze contrarie provenienti da studi neurocogni- tivi e psicologici (per una rassegna del dibattito si veda Moeller et al. 2011). Gli esperimenti con il nostro robot dimostrano come l’appren- dere a contare con le dita, attribuendogli tags verbali, migliori le sue ca- pacità numeriche, come conseguenza di una migliore rappresentazione interna, strutturata secondo patterns quantitativi. La particolare imple- mentazione discussa in questa sezione, nonostante il livello d’astrazione di processi complessi e non ancora pienamente compresi come quelli che stanno dietro lo sviluppo della cognizione numerica negli umani, comunque fornisce evidenza su fenomeni teoricamente trattati nella letteratura. Seguendo Gelman e Galistel (1978), i risultati ottenuti di- mostrano come il ¿nger counting stia possibilmente giocando un ruolo funzionale nell’acquisizione di una varietà di principi considerati neces- sari perché i bambini comincino a comprendere il concetto di numero. 26
6. Conclusioni I modelli robotici e gli esperimenti presentati in questa rassegna hanno utilizzato la piattaforma ¿sica dell’iCub (e.g. gli esperimenti di Morse sull’apprendimento delle prime parole), altri la piattaforma di simulazione dell’iCub (e.g. gli esperimenti di Rucinski sui counting gestures). In alcuni casi, come nelle indagini sulla cognizione numerica (e.g. modello di De La Cruz e Di Nuovo sul ¿nger counting), gli studi originalmente basati sull’utilizzo del simulatore sono stati successiva- mente estesi ad esperimenti con il robot ¿sico. Nonostante la scelta della piattaforma robotica versus quella dell’agente robotico simulato riguardi una varietà di vincoli diversi (Tikhanoff et al. 2011), il lavoro svolto con le due piattaforme, ha dimostrano il potenziale dell’ap- proccio di developmental robotics di modellare una varietà di fenomeni che collegano l’embodiment alle capacità di manipolazione simbolica. Gli esperimenti spaziano dalla modellazione di embodiment cues, come la postura e l’orientamento nello spazio, all’apprendimento dei nomi degli oggetti, dalla relazione forte tra l’esperienza sensomotoria e la rappresentazione e l’apprendimento delle parole d’azione, inoltre, impiegano strategie embodied, sfruttando l’intrinsica natura sensomo- toria dell’agente robotico, nell’uso dei gesti nel contare oggetti o il col- legamento delle sequenze dei movimenti delle dita all’atto di contare usando sequenze numeriche anche verbali, per studiare i fenomeni alla base dello sviluppo della cognizione numerica. La maggioranza dei modelli presentati nelle sezioni precedenti sono fortemente basati sui dati empirici dello sviluppo cognitivo. Altri, come ad esempio quelli che indagano i fenomeni dietro l’apprendimento dei numeri, utilizzano un approccio più elastico nel modellare i dati prove- nienti dalla psicologia dell’età evolutiva, ma nonostante ciò, sono forte- mente ispirati da paradigmi teorici e dalle evidenze più generali emerse dagli studi sullo sviluppo dei bambini. Anziché modellare esperimenti speci¿ci trovati nella letteratura, questo tipo di lavoro cerca di validare teorie già esistenti e offrire ulteriori spunti non solo di riÀessione, ma anche per indagini future sia con i robot sia con i bambini. Anche in questi casi e in questi modi, i modelli robotici cui discussi contribu- iscono all’impresa scienti¿ca di comprendere meglio il rapporto tra l’embodiment, il lingaggio e la cognizione numerica nei bambini. 27
Acknowledgement I lavori di ricerca qui presentati sono stati ¿nanziati dai se- guenti: EU FP7 ICT Integrating Projects “ITALK”, FP7 ICT projects “POETICON++” e “Robot-Era”, Marie Curie ITN “RobotDoc”, e UK EPSRC project “BABEL”.
Bibliografia Alibali M.W., DiRusso A.A. (1999), The function of gesture in learning to count: More than keeping track, in «Cognitive Development», 14(1), 37-56. Arbib M.A. (1997), From visual affordances in monkey parietal cortex to hippocampo-parietal interactions underlying rat navigation, in «Philosophical Transactions of the Royal Society of London. Series B: Biological Sciences», 352(1360), 1429-1436. Arbib M.A. (2002), The Mirror System, Imitation, and the Evolution of Language, in C. Nehaniv, K. Dautenhahn (eds.), Imitation in animals and artifacts, MIT Press, 229-280. Baldwin D.A. (1993), Early referential understanding: Infants’ ability to recognize referential acts for what they are, in «Developmental psychology» 29(5):832. Cangelosi A., Metta G., Sagerer G., Nol¿ S., Nehaniv C., Fischer K., Zeschel A. (2010), Integration of action and language knowledge: A roadmap for developmental robotics, in «Autonomous Mental Development, IEEE Transactions on», 2(3), 167-195. Cangelosi A., Riga T. (2006), An embodied model for sensorimotor grounding and grounding transfer: Experiments with epigenetic robots, in «Cognitive Science», 30(4), 673-689. Cangelosi A., Schlesinger M. (2015), Developmental Robotics: From Babies to Robots, Cambridge MA: MIT Press. Dehaene S., Bossini S., Giraux P. (1993), The mental representation of parity and number magnitude, in «Journal of Experimental Psychology: General», 122(3), 371-396. De La Cruz V.M, Di Nuovo A., Di Nuovo S., Cangelosi A. (2014), Making ¿ngers and words count in a cognitive robot, in «Frontiers in Behavioral Neuroscience», 8(13).
28
Di Nuovo A., De La Cruz V.M., Cangelosi A. (2014b), Grounding Fingers, Words and Numbers in a Cognitive Developmental Robot, in «IEEE Symposium on Computational Intelligence, Cognitive Algorithms, Mind, and Brain», 1-6. Di Nuovo A., De La Cruz V.M., Cangelosi A., Di Nuovo S. (2014a), The iCub learns numbers: An embodied cognition study, in «Proc. of the International Joint Conference on Neural Networks», 1-8. Gelman R., Gallistel C.R. (1978), The Child’s Understanding of Number, Cambridge(MA), Harvard Univ. Press. Gentner D. (1982), Why nouns are learned before verbs: Linguistic relativity versus natural partitioning, Champaign, Ill, University of Illinois at Urbana-Champaign, Center for the Study of Reading. Glenberg A.M., Sato M., Cattaneo L., Riggio L., Palumbo D., Buccino G. (2008), Processing abstract language modulates motor system activity, in «Quarterly Journal of Experimental Psychology», 61(6), 905-919. Goldberg A.E. (1995), Constructions: A construction grammar approach to argument structure, Chicago, University of Chicago Press. Gómez R.L. (2007), Statistical learning in infant language development, in M. G. Gaskell (ed.), The Oxford Handbook of Psycholinguistics, Oxford(UK), Oxford University Press, 601-616. Graham T.A. (1999), The role of gesture in children’s learning to count, in «Journal of Experimental Child Psychology», 74(4), 333-355. Harnad S. (1990), The Symbol Grounding Problem, in «Physica D», 42, 335346. Jeannerod M. (1994), The representing brain: Neural correlates of motor intention and imagery, in «Behavioral and Brain Sciences», 17(2), 187201. Jordan M.I. (1997), Serial order: A parallel distributed processing approach, in «Advances in Psychology», 121, 471-495. Kirkwood H.R. (1969), Aspects of word order and its communicative function in English and German, in «Journal of Linguistics», 5, 85-107. Le Corre M., Carey S. (2007), One, two, three, four, nothing more: An investigation of the conceptual sources of the verbal counting principles, Cognition, 105(2), 395-438. Marocco D., Cangelosi A., Belpaeme T., Fischer K. (2010), Grounding action words in the sensory-motor interaction with the world: Experiments with the iCub humanoid robot, in «Frontiers in Neurorobotics», 4(7).
29
Moeller K., Martignon L., Wessolowski S., Engel J., Nuerk H.C. (2011), Effects of ¿nger counting on numerical development - the opposing views of neurocognition and mathematics education, in «Frontiers in Psychology», 2, 328. Morse A.F., DeGreeff J., Belpeame T., Cangelosi A. (2010), Epigenetic Robotics Architecture (ERA), in «IEEE Transactions on Autonomous Mental Development», 2(4), 325-339. Pezzulo G., Barsalou L., Cangelosi A., Fischer,M., McRae K., Spivey M. (2013), Computational Grounded Cognition: A New Alliance between Grounded Cognition and Computational Modeling, in «Frontiers in Psychology», 3, 612. Rucinski M. (2014), Modelling Learning to Count in Humanoid Robots, PhD Thesis, Plymouth University, UK. Rucinski M., Cangelosi A., Belpaeme T. (2012), Robotic model of the contribution of gesture to learning to count, in «Proceedings of the IEEE International Conference on Development and Learning and Epigenetic Robotics», 1-6. Samuelson L.K., Smith L.B., Perry L.K., Spencer J.P. (2011), Grounding word learning in space, in «PLoS ONE», 6(12). Stramandinoli F., Cangelosi A., Marocco D., (2011), Towards the Grounding of Abstract Words: A Neural Network Model for Cognitive Robots, in «Proceedings of the 2011 International Joint Conference on Neural Networks», 467-474. Stramandinoli F., Marocco D., Cangelosi A., (2012), The Grounding of Higher Order Concepts in Action and Language: a Cognitive Robotics Model, in «Neural Networks», 32, 165-173. Tomasello M. (2003), Constructing a Language. A usage-based approach, Cambridge, Harvard University Press. Wiemer-Hastings K., Krug J., Xu X. (2001), Imagery, context availability, contextual constraint, and abstractness, in «Proceedings of the 23rd Annual Conference of the Cognitive Science Society», 1134-1139.
30
Lihat lebih banyak...
Comentários