Conceptos naturales y conceptos artificiales

July 24, 2017 | Autor: Javier Sainz | Categoria: Cognitive Psychology, Cognitive Science, Concept Formation, Formación De Conceptos
Share Embed


Descrição do Produto

1 Sainz, J.S. (1991). Conceptos naturales y conceptos artificiales. En Mayor, J. y Pinillos, J.L. Tratado de Psicología General,V. Martinez Arias, M.R. y Yela, M. Pensamiento e Inteligencia, 181-302. Madrid: Alhambra Longman. ISBN: 84-205-1980-4. Conceptos Naturales y Conceptos Artificiales Javier Sáinz "No importa cuán fuerte haya llegado a ser la euforia conductista, nunca hemos dejado de explicar nuestra conducta y la conducta de otros en términos de creencias y deseos" (Putnam, 1988). ! I. PERSPECTIVAS TEORICAS. El punto de vista que prevalece en el análisis de los procesos de formación de conceptos, y, más específicamente, en el análisis de la categorización en la especie humana, es el de que un concepto resulta de aplicar un conjunto de procesos u operaciones de propósito general a un conjunto específico y finito de propiedades que se extraen en el análisis perceptivo o se derivan de relaciones entre conceptos más primitivos. La integración de un conjunto de propiedades en un concepto proporciona una descripción de un estado del mundo. Un concepto provee una descripción de una clase de equivalencia, una clase de estados de entidades del mundo que siendo discriminables se tratan como funcionalmente idénticos respecto del concepto en que se clasifican. Las propiedades que se integran en un concepto se toman como unidades o elementos de la descripción que la categoría en que se integran proporciona. Si estas propiedades proceden del análisis de relaciones entre estados del mundo, tal como es dado en el procesamiento perceptivo, los conceptos en que se integran como descriptores son primitivos; si, por el contrario, proceden del análisis de relaciones entre conceptos más primitivos, los conceptos en que se integran como descriptores son derivados. La noción de forma lógica se refiere a la estructura sintáctica de un concepto; la estructura de las propiedades que se integran en un concepto y definen su identidad al adquirir ciertas relaciones. A la forma que toman estas propiedades se la conoce bajo el término de forma lógica. La perspectiva que se adopta en el análisis de la categorización es: (a) analítica, porque deriva la interpretación de un concepto recurriendo a relaciones especificables entre sus propiedades componentes; (b) sintáctica, porque la composición de propiedades en un concepto se explica por la aplicación de procesos u operaciones independientes de su contenido semántico y de sus propiedades como representación referencial; y, c) abstracta, porque las relaciones entre los elementos componentes de un concepto o entre conceptos son independientes de su extensión en el mundo. De acuerdo con esta perspectiva, (a) un concepto puede descomponerse en partes, (b) cualquier relación entre partes especificarse según ciertas relaciones sintácticas, y, (c) su unidad o coherencia como representación tratarse como una propiedad emergente de relaciones contingentes entre sus propiedades componentes. Un concepto se trata como una unidad de representación de un dominio conceptual o un esquema. Un esquema especifica en qué transiciones semánticas puede participar un concepto. Esta noción de esquema traduce el hecho de que las asociaciones entre conceptos no sean equiprobables, de ahí que tampoco lo sean las transiciones semánticas en que participan. Los procesos que determinan la formación de un concepto se suponen que son procesos de propósito general. La adopción de este supuesto no debe asociarse necesariamente con una teoría sintáctica de la categorización. Este supuesto expresa un criterio racional de simplicidad. Para reducir la complejidad del sistema cognitivo se supone que la composición de los atributos en un concepto proviene de la aplicación de un conjunto finito de operaciones de propósito general a un conjunto asimismo finito y específico de propiedades. Si dicho conjunto de operaciones no fuera de propósito

2 general no se darían interacciones entre dominios de conocimiento que no compartieran el mismo conjunto de operaciones o se requeriría un nuevo conjunto de operaciones de conversión o transformación entre operaciones de dominios no relacionados. Implícitamente se asume que no es razonable, en principio, suponer que existan dominios de conocimiento no relacionables. En este capítulo se presentan, primero, las dos perspectivas teóricas desde las que se tratan de analizar los procesos de formación de conceptos, los modelos de aprendizaje basado en instancias y los modelos de aprendizaje basado en explicaciones; se presentan, segundo, las bases de una notación simbólica para la descripción de las propiedades de los objectos y acontecimientos del medio, y las dos notaciones desarrolladas para definir la composición de los atributos extraídos en el análisis del estímulo y de la respuesta en un concepto. Estas notaciones parten del análisis métrico de la semejanza, los denominados algoritmos de generalización, o de la representación matricial de la estructura de los atributos que se componen, los denominados algoritmos de recuperación y generalización. Por último, en los modelos de aprendizaje de categorización basado en instancias, se presentan las hipótesis alternativas en que se debaten esta clase de modelos, los fenómenos empíricos mejor contrastados a partir de la crítica al modelo clásico, y los modelos actuales más significativos. Como modelos métricos de generalización se presentan los modelos de contexto y de contexto generalizado y el modelo racional; como modelos matriciales de recuperación y generalización se presenta el modelo MINERVA de Hintzman. El modelo racional de Anderson se incluye como un modelo ejemplar de la primera perspectiva aunque tiene características propias. En esta organización del capítulo el lector más experto puede notar ciertas ausencias. La primera y mas obvia ausencia se refiere a una detenida exposición de los modelos de aprendizaje basado en explicaciones, que sí se presentan, en cambio, de forma general. Otras se refieren a la historia del debate y, en particular, a su historia mas reciente en la tradición de la psicología experimental, una mas detallada presentación de los modelos de categorización probabilísticos y de ejemplar. En la historia mas reciente faltan otros modelos y desarrollos. Estas y otras ausencias responden al criterio de presentar el debate actual en torno al proceso de categorización en tanto es psicológicamente relevante renunciando al mismo tiempo a la presentación de un inventario exhaustivo de los modelos propuestos con independencia de su relevancia y terminación. Se adopta una perspectiva comprensiva, representativa y actual del debate y se huye de exposiciones históricas más convencionales -accesibles en la mayor parte de los manuales- a la vez que de exposiciones exhaustivas y complejas -a las que se puede acceder una vez se posee un marco mejor definido. 1. Modelos de aprendizaje basado en instancias ejemplares (ABI) y basado en explicaciones (ABE). Dos tipos de teorías generales tratan de explicar la formación de representaciones conceptuales: a) los modelos de aprendizaje basado en ejemplares o instancias (ABI); y, b) los modelos de aprendizaje basado en explicaciones (ABE). A fin de precisar estos enfoques teóricos, trataré estas perspectivas como diferentes aunque existan intentos de integrar ambas en una perspectiva teórica común (cf. Pazzani, 1985; Pazzani, Dyer and Flowers, 1987; Lebowitz, 1986; Flann and Dietterich, 1986; Danyluk, 1987). Ambos tipos de teorías aunque se proponen como teorías analíticas, sintácticas y abstractas , difieren en: (a) cómo describen las propiedades que se integran en un concepto; y, en (b) cómo explican la función de composición que afecta a la integración de estas propiedades en una representación conceptual. Más especifícamente los modelos de aprendizaje basado en explicaciones difieren de los modelos de aprendizaje basado en instancias en el papel que atribuyen al conocimiento previo en la formación de un concepto. Por el papel que atribuyen al conocimiento previo en la categorización estos modelos se conocen también bajo los términos de

3 modelos de aprendizaje inductivo y modelos de aprendizaje deductivo. Estos términos, sin embargo, no son adecuados si se interpretan de forma estricta; los términos de inducción y deducción expresan una concepción diferente de las funciones de composición e interpretación que establecen, respectivamente, cómo se integran series de propiedades en un concepto, y cómo se asigna un concepto ó reconocen sus ejemplares. 1.1. Modelos de categorización basados en instancias (ABI).

La categorización en los modelos de aprendizaje basado en instancias depende críticamente de la discriminación efectiva de los ejemplares en el conjunto de los que se someten a clasificación. Determinar cómo se discrimina un ejemplar en el conjunto a que pertenece consiste en determinar en qué propiedades, rasgos o dimensiones, difieren los ejemplares entre sí. El resultado de la discriminación es la identificación de cada ejemplar en el conjunto. Un concepto define una clase de equivalencia de entidades o sucesos discriminables. Esta clase de equivalencia se expresa en términos de alguna configuración de propiedades discriminables o recuperables en una descripción independiente de los ejemplares. Dependiendo del número de clases que se requieran para describir el conjunto y de la estructura de propiedades de los ejemplares será necesario identificar y retener todas y cada una de las propiedades que los discriminan o sólo un subconjunto de aquellas. En otros términos, los modelos de categorización basados en instancias predicen la clasificación a partir de la identificación de los ejemplares en el conjunto. Eventualmente, este conjunto puede describirse de acuerdo con una métrica en un espacio único de rasgos o dimensiones. En la investigación empírica que emplea conceptos artificiales -definidos por el experimentador-, la interpretación de un conjunto de estímulos como un dominio depende primordialmente de las propiedades utilizadas para construirlo o definirlo. Las propiedades que definen un ejemplar se tratan como primitivas y son idealmente todas las precisas -necesarias y suficientes- para llevar a cabo una cierta clasificación. En tanto los modelos de categorización se basan en la discriminación de los ejemplares en un contexto, la descripción de sus diferencias y semejanzas mutuas basta para decidir cómo se clasifican los ejemplares. De ahí que el término modelos de categorización basados en la semejanza de las instancias se utilize a menudo para referirse a los modelos de categorización basados en instancias. Sin embargo, los modelos basados en la semejanza constituyen un subconjunto de los modelos basados en instancias. En efecto, existen modelos de categorización basados en instancias donde la categorización no depende criticamente de una evaluación de la semejanza de los ejemplares, a partir de su discriminación. En los modelos basados en la semejanza de las instancias, los ejemplares se contrastan en relación a sus atributos. Los modelos basados en instancias que no basan sus predicciones en la semejanza atienden, en cambio, a la estructura de sus atributos. 1.2. Modelos de categorización basados en explicaciones (ABE).

La categorización en los modelos de aprendizaje basado en explicaciones depende de la descripción de los ejemplares que se clasifican en el contexto proporcionado por una teoría del dominio al que pertenecen. Es el conocimiento previo el que al proporcionar un conjunto de relaciones críticas entre algunas de las propiedades que describen los ejemplares determina la construcción de un concepto a partir de la observación de un ejemplar miembro potencial. De ahí que se haya empleado para referirse a estos modelos el término de modelos de aprendizaje basados en observación. El conocimiento previo provee de una estructura a partir de la cual se evalúan las relaciones funcionales del nuevo concepto con las que existen entre los conceptos disponibles en el mismo dominio. Una explicación consiste en especificar una cierta relación funcional entre una descripción de una entidad y una descripción proporcionada por el conocimiento previo, organizada bajo la forma de una teoría del dominio. "Es mejor pensar (una especificación funcional) como un procedimiento efectivo

4 con el que reconocer cuando un objeto tiene la función que se desea. De este modo, en ABE, los conceptos se individualizan según sus funciones respectivas. Cualquier objeto con la función especificada es necesariamente un ejemplo del concepto. Incidentalmente, una función no debe interpretarse en un sentido motor como un "tipo de acción". Esta noción de función tiene sólo que ver con el papel que juega en el dominio." (DeJong, 1989, p. 54). Los modelos de categorización basados en explicaciones no asumen ningún compromiso específico con un formalismo particular, aunque habitualmente empleen la lógica de predicados de primer grado como notación, ni requieren que la explicación se construya de algún modo específico. Puede hacerse por medio de un procedimiento de comprobación de teoremas por resolución interno al sistema de aprendizaje, por medio de un mecanismo retroactivo de deducción natural, o la explicación misma puede simplemente darse como entrada al sistema. La explicación, una vez construida, puede por sí misma guiar el proceso de generalización." (DeJong, 1989, p. 55). Este proceso de generalización puede eventualmente dar lugar a un nuevo concepto alterando el dominio de conocimiento. Una explicación hace explícita qué rasgos de una entidad son necesarios y cuáles irrelevantes. Sin embargo, (...) los atributos de un ejemplo de entrenamiento, aunque suficientes para satisfacer el objetivo funcional, pueden no ser necesarios. Algunos pueden representar puntos particulares a lo largo de un continuo de valores satisfactorios. Otros representar una resolución particular de un conjunto de restricciones mutuas. Pero, quizás, otros procedimientos de resolución son posibles también. Examinando la estructura de la explicación de un particular ejemplo de entrenamiento a la luz del conocimiento de un dominio del sistema, puede descubrirse parte de la variabilidad. El resultado puede ser un nuevo concepto que es mucho mas general que la instancia observada." (DeJong, 1989, p. 55). 2. Componentes sintácticos y semánticos de los modelos de ABI y de ABE. Los modelos de categorización basados en instancias difieren de los modelos de categorización basados en explicaciones en el papel que atribuyen al conocimiento previo en el proceso de categorización. En un modelo basado en explicaciones, la estructura conceptual del conocimiento previo determina si se forma o no un nuevo concepto y cómo debe clasificarse una cierta entidad. El conocimiento previo afecta a la determinación de qué propiedades se toman en cuenta y a cómo se integran en una nueva representación conceptual. En un modelo basado en instancias, por el contrario, los rasgos que se toman en cuenta para la formación de un concepto se derivan estrictamente de los atributos de estímulo que permiten discriminar los ejemplares en el conjunto que se somete a clasificación. "Propiedades tales como utilidad esperada y carácter semánticamente bien formado dependen del conjunto de entrenamiento como un todo (p. ej, cuán representativo es del concepto en cuestión)." (DeJong, 1989, p. 56-7). Ningún otro tipo de atributos derivables de aquellos primitivos, que supongan la intervención del conocimiento previo, se requieren para la formación de un concepto. La función de composición que determina como combinar estos atributos para formar un concepto es puramente sintáctica: la forma lógica de un nuevo concepto no es afectada por la forma lógica de los conceptos que pertenecen al mismo dominio. Michalski (1983) ha proporcionado una taxonomía de generalizaciones sintácticas. Una generalización se forma a partir del modo en que difieren los ejemplares en el conjunto calculando sus semejanzas y diferencias mutuas. La especificación del concepto es alguna especificación del conjunto posible de especificaciones que pueden construirse a partir de algún subconjunto de ejemplares contenidos en la extensión del concepto. Dado que el conjunto de ejemplares proporcionado es un subconjunto de la extensión total del concepto es probable que el número de atributos en que difieren sea menor que el real. De ahí que los modelos de categorización basados en instancias tiendan a sobreestimar la extensión del concepto. En dominios en que los ejemplares pueden formar grupos bien definidos de objetos u acontecimientos, el sistema no requiere mas información que la que se deriva de contrastar las instancias en el conjunto. "'Bien formado' significa que cada instancia es más

5 semejante (utilizando una cierta métrica) a las instancias de su propio conjunto que a una cierta instancia de otros conjuntos diferentes." (DeJong, 1989, p.53). En dominios en que los ejemplares no forman grupos bien definidos, los modelos de categorización basados en instancias requieren la existencia de un sistema tutor para clasificar los ejemplares en las categorías correctas. Este sistema tutor viene representado habitualmente por la realimentación en una tarea de categorización, o por una indicación explícita de cómo se clasifican los ejemplares. Esta información constituye habitualmente el único componente semántico de los modelos de categorización basados en instancias. La generalización conceptual depende de la forma de los ejemplares en un dominio, y del orden en que se experimentan en tiempo real. "Un sistema ABI, después de exaiminar muchos ejemplos positivos y negativos, construirá una descripción general que idealmente es satisfecha por todos los ejemplos positivos y ninguno de los ejemplos negativos. A menudo, muchas descripciones diferentes serán consistentes con los ejemplos conocidos." (DeJong, 1989, p. 51). La extensión de un concepto puede describirse definiendo alguna función booleana entre atributos proporcionados por una descripción independiente de los ejemplares. Los modelos basados en instancias presentan los siguientes problemas: (a) Escasa tolerancia al ruido: el sistema no es capaz de detectar cuando las instancias han sido clasificadas mal por el tutor; (b) Limitada capacidad de abstracción: ningún tipo de nuevas propiedades emergen a partir del conjunto de propiedades detectadas en la discriminación; (c) Limitada capacidad para reducir el número de atributos: se consideran irrelevantes sólo aquellos que no permiten decidir cómo se clasifica un ejemplar del conjunto presentado; y, (d) Los roles de los ejemplares son invariantes dado el mismo contexto, es decir, son insensibles a objetivos. Formulaciones recientes tratan de superar estas limitaciones incorporando cierto tipo de conocimiento en el sistema (Aha, 1989; Stepp and Michalski, 1986). Los modelos de categorización basados en instancias son modelos sólo parcialmente válidos. Pueden explicar la formación de nuevos conceptos a partir de la discriminación perceptiva pero los conceptos formados son primitivos al ignorar la intervención del conocimiento previo en el proceso. En suma, son modelos de conceptualización estrictamente basados en el aprendizaje por discriminación como opuestos a aquellos modelos que basan su aprendizaje en el uso del conocimiento registrado en la memoria. "La cantidad de conocimiento previo es relativamente pequeña y siempre opcional; la ausencia de conocimiento previo no excluye la formación de una descripción conceptual." (DeJong, 1989, p. 53). El proceso de generalización en los modelos basados en explicaciones incluye componentes sintácticos y semánticos. "Una clase cualitativamente nueva de límite se encuentra presente: el (concepto de límite) representa la extensión, en el espacio de atributos, del concepto de objetivo funcional en tanto apoyado por la teoría del dominio. Este concepto de límite puede definirse por regresión de objetivos (Waldinger, 1977; Nilsson, 1980). Su forma puede ser muy compleja, incluso vinculando distintas áreas disjuntas. Su determinación es intratable excepto en los dominios de conocimiento más simples. En su lugar, los modelos de ABE descansan sobre técnicas de generalización eficientes que pueden subestimar la extensión del concepto pero no traspasar sus verdaderos límites." (DeJong, 1989, p. 57). Dos tipos de constricciones contribuyen a definir los limites de un concepto; la primera constricción se expresa por los límites conceptuales que la especificación de un objetivo funcional impone sobre la explicación. La segunda constricción expresa los límites impuestos por la estructura de la explicación A menos que la teoría del dominio misma dé lugar a conceptos de límites borrosos, los modelos basados en explicaciones subestiman la extensión de un concepto en vez de sobreextenderlo. El proceso de generalización puede llevarse a cabo: (1) eliminando los atributos irrelevantes, los atributos que no se utilizan para fundamentar una conclusión pueden eliminarse; (2) eliminando objetos inconsistentes, objetos en que las variables que los definen mantienen relaciones de no compatibilidad habitualmente explícitas o implícitas en la explicación; (3) eliminando explicaciones deducibles de una cierta explicación, cualquier explicación constituyente de una explicación operacional (a partir de Mostow, 1983) en la que su valor de verdad

6 puede deducirse o fácilmente verificarse; y (4) alterando la estructura interna de la explicación misma a través de un proceso de generalización estructural. "Los tres tipos de generalización previos, eliminación de rasgos irrelevantes, eliminación por identidad y eliminación de explicaciones deducibles, no alteran la estructura de la explicación para el ejemplo de entrenamiento, excepto quizás en que elimina nodos en la red que lo representa. La generalización estructural incluye reagrupar, transformar y añadir componentes a la explicación. Discutiremos brevemente tres importantes subtipos de generalización estructural: incremento por disyunción, generalización temporal, y generalización del número." a) el incremento por disyunción implica añadir opciones alternativas a una explicación componente. Si, formando parte de la teoría del dominio, el sistema conoce un método diferente pero aceptable de fundamentar una explicación componente, esa alternativa se especifica junto con el método utilizado en el ejemplo."; b) "La generalización temporal se refiere en particular a la planificación. Un plan es una secuencia de operadores que alcanza un objetivo. El ejemplo de entrenamiento demuestra cómo un objetivo se alcanza por medio de una secuencia particular de operadores. Es posible que una diferente secuencia de los mismos operadores funcione también. La explicación del ejemplo expresa explícitamente las relaciones de dependencia ordenada que se requiere entre estados y operadores. El orden temporal de algunos operadores puede ser cuestión de convención; otras secuencias de operadores pueden requerir un orden particular pero permiten que otras secuencias medien las primeras, y así sucesivamente. El problema general de resolver un concepto debería permitir variaciones en el orden de los operadores."; c) "La generalización del número se refiere al reconocimiento de que puede reproducirse una subexplicación particular. (...). La generalización del número implica transformar una representación de la explicación de forma que ciertos "conjuntos" o "bucles" se incluyen en la ontología de la teoría." (DeJong, 1989, p. 63). El componente semántico en los modelos basados en explicaciones viene representado por el papel del conocimiento previo en la formación de nuevos conceptos. El sistema genera una descripción de un ejemplar o un conjunto de ejemplares por referencia a su función en el contexto de un dominio en el que el ejemplar o los ejemplares eventualmente se clasifican. La especificación funcional de un concepto es determinada por un proceso de observación, guiado por una teoría del dominio, de la función de un ejemplar en el dominio conceptual a que pertenece. De este modo, el sistema no depende de las semejanzas y diferencias entre un ejemplar (o de una explicación del ejemplar) e instancias previas, sino de cómo puede especificarse funcionalmente un ejemplar. Para un modelo de categorización basado en explicaciones, una "silla" y una "escalera" pueden devenir en objetos clasificables como ejemplares del mismo concepto en tanto pueden compartir una misma especificación funcional -ambos objetos pueden emplearse como medio para alcanzar otros objetos distantes; para un modelo de categorización basado en la discriminación, una "silla" y una "escalera" deben pertenecer a conceptos diferentes, si no existe algún conjunto de atributos críticos que pueda asociarse a todas y cada una de las instancias de uno y otro conceptos. Aunque se pueden unir mediante una disyunción predicados característicos de cualquier par de entidades, una disyunción a menudo no permite representar las instancias del concepto funcional que contiene a ese par de entidades como miembros. Los modelos de categorización basados en instancias sólo pueden superar esta limitación recurriendo a la inscripción jerárquica de los conceptos en taxonomías (cf. Anderson, 1990). Sin embargo, ningún modelo de categorización basado en instancias tiene en cuenta la inscripción jerárquica de un concepto en una taxonomía para efectuar sus predicciones. Las relaciones taxonómicas o partonómicas entre conceptos no se encuentran representadas en los actuales modelos de categorización basados en instancias. Esta limitación de los modelos de categorización basados en instancias es además esencial: una relación taxonómica o partonómica debe describirse por referencia a la función y no por referencia a la forma de los ejemplares que se clasifican. Otras serias limitaciones afectan, sin embargo, a los modelos basados en explicaciones.

7 2.1. Formalización de los modelos de aprendizaje basado en instancias. La formalización de un modelo de categorización que no incluye entre sus procesos un componente semántico es fácil. "Formalizar la investigación significa separar la ciencia del modelo de la implementación del sistema." (DeJong, 1989, p. 67). Este supuesto puede ser satisfecho por un modelo de categorización cuyo proceso de generalización es meramente sintáctico. Si la descripción de un ejemplar depende únicamente de su contraste con cada uno de los ejemplares del conjunto a que pertenece, es posible definir un espacio de rasgos y hallar una métrica que preserve todas aquellas diferencias relevantes a la clasificación. En un modelo de categorización basado en la discriminación de las instancias, la función que determina cómo se integran los atributos que distinguen los ejemplares y permite una generalización es de naturaleza sintáctica: los atributos se combinan con independencia de su contenido semántico por su valor para distribuir un cierto conjunto de (descripciones de) ejemplares en un cierto conjunto de clases o categorías. La caracterización del proceso de generalización en términos sintácticos a partir de una descripción neutral de las instancias permite adoptar el principio de que un concepto deriva de la aplicación de un conjunto de operaciones de propósito general a un conjunto definido y finito de atributos, sean estos rasgos o dimensiones. Si, (a) la descripción de los ejemplares puede basarse exclusivamente en la discriminación de sus atributos o rasgos, (b) es posible definir una métrica común para todos los ejemplares en términos de sus atributos o rasgos, y, (c) puede definirse una regla de composición o un algoritmo para integrar los rasgos relevantes a una cierta clasificación, puede formularse un modelo de categorización estrictamente sintáctico, válido para cualquier dominio conceptual. Una regla de composición implementa un conjunto de operaciones de propósito general independiente del dominio conceptual que dicha regla define. Una regla se expresa en la aplicación de un conjunto de operaciones a un conjunto específico de descripciones. Cualquier operación lógica booleana puede ser tratada como un ejemplo de operación independiente del contenido semántico de los conceptos que define. Una regla especifica una relación entre atributos en términos de alguna operación. Al requerir la especificación de los valores de las variables -variables que representan las dimensiones de un espacio de rasgos común para los ejemplares-, una regla incorpora información semántica, en tanto una operación no. Los modelos de categorización basados en instancias suponen que es posible definir un espacio común de rasgos a partir de la discriminación de los ejemplares. Un concepto viene expresado por alguna configuración de valores de las dimensiones que definen ese espacio común. 2.2. Formalización de los modelos de aprendizaje basado en explicaciones. La formalización de un modelo basado en explicaciones, al contrario que un modelo de categorización basado en instancias, es difícil sino imposible. En tanto es posible definir un procedimiento sintáctico para el caso de generalizaciones basadas en la eliminación de atributos irrelevantes, la eliminación por identidad y la reducción operacional, no es posible definir un procedimiento sintáctico para el caso de generalizaciones basadas en la generalización estructural. De ahí que no sea posible definir un conjunto de operaciones de propósito general independientes de cualquier dominio teórico. Ello es debido a que la generalización estructural modifica el estatuto del conocimiento previo, es decir, su forma operacional. "Lo que queremos idealmente es un módulo de generalización al que se puedan conectar teorías del dominio. Entonces para implementar un sistema de ABE en un nuevo dominio, sólo necesitamos especificar el dominio. El resto del sistema se mantiene igual. La vía más fácil para la formalización es proporcionar una especificación libre de cualquier dominio. Desgraciadamente, esto no es posible en el caso de la generalización estructural. Una generalización estructural depende de ciertos aspectos del dominio mismo. Esto, sin embargo, no significa que una especificación independiente del dominio sea imposible. Sólo significa que el

8 algoritmo de generalización debe conocer ciertas características cruciales del dominio, y que la implementación del dominio debe observar cierta disciplina, a saber, que las características relevantes del dominio se codifiquen explícitamente. Parte de la formalización de la generalización estructural consiste en proporcionar una taxonomía de características de dominios sobre las que depende una generalización estructural. De este modo, formalizar una generalización estructural requiere dar unos cuantos pasos hacia adelante en la cuestión de la representación del conocimiento." (DeJong, 1989, p. 70). Para un modelo basado en explicaciones el problema crítico es contar con una taxonomía de dominios de conocimiento que permita expresar una generalización estructural en términos de algún algoritmo sintáctico, de un modo tal que el proceso de generalización sea independiente del contenido semántico del dominio en base al que se lleva a cabo la especificación funcional de una instancia. El segundo problema que enfrenta la formalización de un modelo de aprendizaje basado en explicaciones se refiere al lenguaje que se emplea en la descripción de una instancia y en la descripción de una teoría. La generalización depende de forma crucial de la notación simbólica que se adopta. "Dominios hay que se caracterizan por medio de teorías que son necesariamente incompletas, incorrectas o inconsistentes.La mayor parte de los dominios del mundo real no pueden ser captados por medio de reglas claras basadas en la lógica de predicados de primer grado. Además, los seres humanos se comportan increiblemente bien con perspectivas inconsistentes del mundo, incorrectas o incompletas." (DeJong, 1989, p. 71). Al igual que el primero, este problema afecta a la formalización de los modelos basados en explicaciones y al rendimiento de estos modelos para expresar generalizaciones en términos sintácticos. Sin embargo, estos problemas no han impedido formular modelos explícitos. Los modelos formulados desde esta perspectiva se han puesto en cuestión como modelos de aprendizaje. Dado que las explicaciones se construyen a partir de la teoría original del dominio que tiene el sistema, parecería que cualquier concepto adquirido por un proceso de ABE debe estar implícitamente contenido en la teoría del dominio, aunque en una forma intratable e inmanejable." (DeJong, 1989, p. 74). Un análisis de los modelos formulados desde esta perspectiva revela que ninguno permite expresar generalizaciones no deducibles de la teoría. Dietterich (1986) se ha referido a este nivel de conocimiento, formalizando un término previamente acuñado por Newell (1981), como aprendizaje de nivel de conocimiento no deducible. Una evaluación de este problema requiere un análisis más preciso de; (a) las nociones de conocimiento y de aprendizaje; (b) los conceptos de inducción y deducción; y, (c) la noción de agente racional en los términos propuestos por Newell (1982). Estos problemas, a saber, (1) la definición no sintáctica del proceso de generalización; (2) la dependencia de la teoría de la notación simbólica que se utiliza en la descripción de los ejemplares y de un dominio; y, (3) la ausencia de aprendizaje de conocimiento no deducible del conocimiento previo, afectan a la implementación de un modelo plausible de categorización psicológicamente realista. Además de estos problemas relativos a la implementación teórica de un modelo basado en explicaciones, un modelo de este tenor presenta dos nuevos problemas respecto de su implementación práctica. El primero de estos problemas se refiere a la construcción de una teoría del dominio: ningún modelo ofrece, en efecto, una explicación de su construcción. El segundo se refiere a la evaluación de la aplicabilidad de un concepto que determina como se operacionaliza, el concepto formado, en el mundo real. El modelo provee un concepto del que no es posible determinar su posible extensión. "La operacionalidad se trata como una noción libre de contexto; la operacionalidad se asigna a una unidad sin considerar la relación de la unidad a otras unidades en la explicación, o a un predicado sin considerar sus argumentos." (DeJong, 1989, p. 70). "Minton (1985) ha señalado el problema de la libre adquisición de conceptos. La actuación del sistema puede degradarse por consumir una

9 desmesurada cantidad de tiempo evaluando a través de complejas pruebas de aplicabilidad conceptos irrelevantes. La solución obvia es ser selectivo en el proceso de aprendizaje conceptual y simplificar las pruebas que contrastan su aplicabilidad. Segre (1987) ha propuesto que se retengan sólo los conceptos que satisfagan un criterio de aprendizaje. En particular, su sistema generaliza y retiene sólo aquella porción de experiencia que incluye la explicación de subobjetivos interactuando de un modo novedoso. Un método interesante de simplificación de estas pruebas de aplicabilidad ha sido propuesto por Keller (1987). Keller sugiere retener un conjunto de problemas de prueba para cada concepto. Los problemas de prueba son mejores si son representativos de los que el sistema afrontará. Las condiciones de aplicabilidad (y los conceptos mismos) se simplifican sintácticamente mientras se analiza la ejecución sobre este conjunto de problemas de prueba. La simplificación se lleva a cabo hasta un punto en que un concepto satisface algunos criterios externos de velocidad y eficacia sobre su respectivo conjunto de prueba." (DeJong, 1989, p. 72-73). Una integración de ambas perspectivas, de los modelos de categorización basados en la discriminación de las instancias y de los modelos basados en explicaciones puede resolver, al menos en parte, estos problemas. La combinación puede darse en ambas direcciones. Cierto conocimiento puede preceder a la formación de un concepto dada la existencia de conocimiento innato. La formación de los conceptos más primitivos, si no se dan de forma innata, puede derivar de la especificación funcional de hechos de experiencia en relación con algun dominio definido por objetivos disponibles de forma innata. En este caso, un proceso de aprendizaje basado en la discriminación podría seguir a la construcción de una explicación más que precederla. A su vez, una discriminación previa de las instancias puede ser la condición para formular una teoría del dominio. Así, un proceso de aprendizaje basado en la discriminación tomaría en este caso precedencia sobre la formación de una explicación. La cuestión obvia en estas combinaciones es el papel que cabe atribuir al conocimiento previo en el proceso de categorización. Y esto en dos sentidos: el conocimiento previo al proceso de categorización mismo y el conocimiento que se deriva durante el proceso y que condiciona en que forma se desarrolla. II. NOTACION SIMBOLICA DE PROPIEDADES Y RELACIONES. El desarrollo de una notación simbólica es una condición básica para el desarrollo de un modelo formalizado de categorización. Un modelo de categorización representa cómo un sistema de procesamiento de información describe su entorno, es decir, en términos de qué categorías o clases de equivalencia clasifica el conjunto de los objetos y sucesos que, constituyendo su medio, resultan ser relevantes para su adaptación. El medio, es decir, los objetos ó sucesos de que se constituye, se describe en términos de un conjunto de propiedades y relaciones que afectan a las primeras. El desarrollo de una notación no debe ser, por tanto, desde una perspectiva psicológica realista, cuestión de convención. Ningún sistema de procesamiento de información cuenta presumiblemente con distintos tipos de mecanismos o procedimientos para la representación de su medio. El sistema perceptivo no provee de descripciones alternativas y optativas; por el contrario, parece proveer de descripciones únicas y deterministas. De ahí que haya sido corriente referirse a la percepción, bajo la forma aparente de una metáfora, como fuente de verdad. El sistema perceptivo dota a un sistema de procesamiento de información de una notación simbólica natural no convencional para la descripción del medio. Los modelos de categorización basados en explicaciones, desarrollados en el área de la inteligencia artificial, marginan este hecho al no proponerse explicítamente como modelos psicológicos y adoptar una notación simbólica específica. Esta autolimitación determina que el rendimiento de los modelos dependa de la extensión de los conceptos representados en una teoría del dominio, como es concebida por el programador, y del lenguaje y notación simbólica empleados. Los modelos de categorización basados en instancias adoptan, en cambio, una perspectiva mas realista al hacer depender la categorización de una teoría perceptiva. El desarrollo de una notación

10 simbólica común para la descripción de una instancia y de un dominio conceptual depende del desarrollo de una teoría formal de la percepción. El sistema perceptivo de un sistema de procesamiento de información provee de descripciones neutrales del medio. Por descripción neutral debe entenderse una descripción del medio independientemente de los estados simbólicos en que puede hallarse un sistema de procesamiento de información y de las funciones semánticas implementables en él. Estas descripciones son neutrales sólo respecto de estos estados simbólicos y de las transiciones semánticas en que estos estados participan; al haberse configurado como tal en la evolución, un sistema perceptivo incorpora conocimiento muy específico acerca del tipo de representaciones conceptuales eventualmente relevantes a la supervivencia de una especie. Un sistema cognitivo debe estar en condiciones de procesar información perceptiva con independencia del estado en que se encuentra y de las asociaciones que pueden afectar al objeto o suceso percibido. Al carecer de una teoría formal de la percepción, la adopción de una teoría perceptiva puede ser un aspecto crítico en la construcción de un modelo de categorización. Un criterio, compartido por la mayor parte de los investigadores en este área, es que debe adoptarse una teoría perceptiva de alto nivel, una teoría que provea de descripciones de objetos y de sus propiedades en tanto afectan a la segmentación del entorno en categorías o clases de equivalencia. Esta teoría perceptiva se adopta como un procedimiento natural para la descripción del medio. De ahí que tienda a adoptarse una teoría perceptiva paramétrica. La adopción de una teoría perceptiva es sólo crítica para aquellos modelos de categorización que se proponen como modelos psicológicos realistas. En tanto los modelos de categorización basados en explicaciones no se proponen como modelos psicológicos y adoptan una notación convencional para la descripción de un dominio y de sus ejemplares, sólo es posible referirse a una teoría perceptiva en el contexto de un modelo de categorización basado en instancias. 1. Descripciones de propiedades y relaciones.

Dos estrategias se han utilizado para obtener una descripción perceptiva neutral de los ejemplares en una tarea de clasificación. La primera consiste en recurrir a una teoría psicofísica para describir un conjunto de ejemplares; la segunda consiste en partir de una descripción matricial de un conjunto de ejemplares. En tanto una teoría psicofísica proporciona una descripción psicológicamente fundada de un conjunto de estímulos, la segunda es, en principio, un procedimiento instrumental convencional en la descripción de un conjunto de ejemplares. Una descripción matricial puede tratarse como una descripción realista de un conjunto de estímulos si las dimensiones de la matriz definen propiedades no convencionales de este conjunto. De acuerdo con la primera de estas estrategias los estímulos difieren entre sí de forma absoluta. De acuerdo con la segunda los estímulos difieren entre sí sólo de forma relativa, dependiendo del contexto proporcionado por el conjunto de los ejemplares. En el primer caso podemos disponer idealmente de una descripción independiente de cada estímulo; en el segundo, la descripción de un estímulo depende de la forma en que se describe el conjunto. El trabajo de Shepard (1986) representa, en este área, la primera de estas estrategias al emplear el escalamiento multidimensional como un método para la descripción de un conjunto de estímulos. El método de escalamiento multidimensional provee de una descripción de alto nivel de un conjunto de estímulos. Los métodos psicofísicos varían en su poder descriptivo dependiendo del poder explicativo de la teoría. El trabajo de Estes (1986) representa la segunda de estas estrategias. La representación matricial de los estímulos ha sido ampliamente utilizada, sin embargo, con anterioridad a esta formulación teórica. Ambas estrategias proporcionan una descripción teóricamente independiente de cualesquiera demandas de clasificación. En tanto el primer procedimiento requiere eventualmente una métrica, el segundo sólo proporciona una descripción parcialmente independiente, no requiriendo ningún tipo de métrica. El investigador, lejos de escoger

11 un conjunto arbitrario de objetos y/o acontecimientos, escoge un conjunto de objetos o acontecimientos que varían en una forma predefinida. Este conjunto es sometido a clasificación en términos de un cierto número de clases que definen conjuntos disjuntos de propiedades. Ningún objeto, en este caso, puede ser miembro simultáneamente de más de una clase. En investigaciones más recientes se ha estudiado el proceso de categorización en el caso en que los atributos que discriminan entre ejemplares se solapan entre categorías y el sujeto debe definir clases disjuntas de propiedades para clasificarlos (Medin y Edelson, 1988). La estrategia de escoger un conjunto definido y finito de objetos es correcta si la descripción de este conjunto es independiente de la definición de las clases que se requieren formar. 1.1. Propiedades. Descripciones (no léxicas) de propiedades. La categorización en los modelos basados en instancias depende de la discriminación efectiva de los ejemplares en el conjunto de los que se someten a clasificación. Determinar cómo se discrimina un ejemplar en el conjunto a que pertenece consiste en determinar en qué propiedades, rasgos o dimensiones, difieren los ejemplares entre sí. Cualquier sistema no convencional que permita una serie de clasificaciones implica que los miembros de una clase comparten ciertas propiedades y difieren conjuntamente en otras respecto de miembros de otras categorías alternativas. Un concepto viene definido por alguna configuración de propiedades discriminables proporcionada por una descripción independiente de los ejemplares. La clasificación es esencial si se supone que debemos detectar la recurrencia e invarianza del mundo de un modo tal que podamos predecir los resultados de nuestra acción y comportarnos de forma apropiada ante los objetos y acontecimientos ya experimentados previamente. 1.1.1. Propiedades primitivas y derivadas. Descripciones de propiedades Cada una de las propiedades que permite asignar un objeto o acontecimiento a una clase es una propiedad discriminable. El conjunto de propiedades discriminables que distinguen una clase de otras se denomina conjunto discriminante. El conjunto de propiedades discriminables que permiten distinguir una clase de otras constituye un conjunto discriminante de propiedades. Este conjunto discriminante de propiedades, dada una cierta clasificación, es un subconjunto del conjunto de propiedades discriminables. En otros términos, la categorización puede requerir que una clase se distinga de otras clases en el conjunto en un número menor de propiedades de las que requiere la identificación de sus ejemplares. Observemos que la detección de una propiedad requiere una comparación explícita de los ejemplares para los que la propiedad se discrimina. Dada una descripción neutral de los ejemplares, las propiedades que permiten discriminarlos se denominan primitivas . Una propiedad es, en cambio, derivada si viene definida por alguna combinación de propiedades primitivas discriminables.

La definición de propiedad primitiva es convencional. Se refiere a aquel tipo de propiedad que permite distinguir al menos dos ejemplares en un conjunto, dada una descripción. Si la descripción que se proporciona del conjunto no es neutral en un sentido absoluto, la definición de un conjunto de propiedades como un conjunto de propiedades primitivas es convencional. Sin embargo, esto no quiere decir que no sea teóricamente posible ofrecer una definición no convencional del concepto de propiedad primitiva. La descripción psicofísica de una señal ofrece, en algún sentido, una definición no convencional del concepto de primitivo. Pero una definición completa de las propiedades primitivas que permiten la descripción de cualquier objeto u acontecimiento requiere una teoría formal completa de la percepción. Una propiedad primitiva, en un sentido convencional, es algún tipo de indicio analizable que permite discriminar al menos dos ejemplares en un conjunto de ejemplares dado. Una propiedad primitiva, en un sentido absoluto, es algún indicio inanalizable o atributo capaz

12 de discriminar el estímulo que lo presenta de cualquier otro que no lo presenta. La primera definición supone que un objeto o acontecimiento puede ser clasificado como tal sólo si todas sus descripciones primitivas definen una clase de identidad que se reconoce distinta en relación con otras clases de identidad definidas en el mismo dominio; la segunda definición supone que existe y es posible hallar una descripción primitiva única para cada objeto. En otros términos, de acuerdo con esta primera definición, las descripciones psicofísicas objetiva o conceptualmente compatibles de un estímulo definen únicamente un subconjunto de las constricciones que operan en la definición de este estímulo como un objeto en particular. Estas descripciones de objeto sólo proporcionan un conjunto de propiedades discriminables en el contexto de otras descripciones del mismo objeto y de descripciones de otros objetos. Si la percepción es el resultado de un proceso de satisfacción de constricciones, la descripción psicofísica de una señal de estímulo sólo define un conjunto de restricciones dependiendo del conjunto de descripciones de objetos eventualmente compatibles e incompatibles con esa descripción primitiva. Qué toda señal perceptiva sea interpretada como presentando un objeto en condiciones de degradación perceptiva, oclusión parcial del objeto y ambigüedad perceptiva indica que la percepción de un objeto es resultado de un proceso complejo de satisfacción de restricciones y que no es posible interpretar una descripción con independencia del conjunto de descripciones con que se contrasta. La tesis implícita en esta formulación es , en términos de la teoría de la detección de la señal, que el contexto afecta a la interpretación de una señal, es decir, a la susceptibilidad o sensibilidad del sistema a la señal y no meramente al juicio perceptivo. Un corolario de esta tesis es que no es posible definir una métrica de la semejanza con independencia del conjunto respecto del cual se contrastan los ejemplares, o, en otros términos, que no son posibles descripciones únicas de objetos. El término conjunto de contraste es, al menos en un sentido, ambiguo. En efecto, este conjunto puede venir definido por el conjunto de las descripciones en tiempo real de los ejemplares que se someten a clasificación y/o el conjunto de las descripciones de los mismos ejemplares en la memoria. Dado que es inverosímil que las descripciones que pueden recuperarse de la memoria de los ejemplares sean idénticas a las descripciones que pueden formarse de los ejemplares en el momento de su procesamiento en tiempo real, ambos tipos de descripciones deben tener un distinto rol funcional en el proceso de categorización. Asumir que el sistema registra cuanta información es precisa para la identificación de un estímulo no implica asumir que el sistema registre toda la información que se requiere para distinguir este estímulo de cualquier otro en cualquier contexto. Un sistema que identifica un estímulo bajo una descripción que satisface ciertas constricciones registra toda la información que se requiere para reducir una cierta medida de incertidumbre. Este medida de incertidumbre es función de la información ya disponible y de las nuevas demandas de diferenciación de la realidad. Cualquier descripción debe contrastarse con el conjunto de representaciones que proporcionan descripciones en el mismo dominio conceptual. Así, por ejemplo, las culturas difieren en el número de colores que su lengua permite nombrar. Dos tipos de mecanismos parecen afectar a la partición del dominio semántico del color en clases de equivalencia: a) la disposición del sistema visual a discriminar distintas longitudes de onda; y, b) la existencia de una descripción en el mismo dominio. Así pues, si no existen regularidades interculturales en el número de colores (lexicalizados) que se describen en cada lengua, sí existe una regularidad sistemática en su adquisición, de un modo tal que la distinción del violeta siempre sigue a la distinción del rojo y no al contrario (cf. Mervis, Catlin y Rosch, 1975). En el origen del concepto de número parece haber sido crítica la diferenciación morfoléxica del número gramatical en el lenguaje natural. La distinción morfoléxica entre singular y plural no origina la serie de los números naturales; por el contrario, la distinción entre singular, dual y plural parece originarla, ya que la distinción entre singular y dual implica el reconocimiento del sucesor, y la distinción entre singular y plural no. Este es el caso del origen del número en la cultura griega clásica, cuyo lenguaje efectúa esta distinción

13 entre uno y dos en la noción gramatical de número. Una vez se origina, la noción de número no requiere una distinción gramatical, pero la distinción gramatical puede haber jugado un papel crítico en el reconocimiento de la función de sucesión. La discriminación de una propiedad relevante a la formación de un nuevo concepto puede ser directa, sobre el contraste de ejemplares dados a la percepción, o, indirecta, por el contraste de ejemplares dados a la percepción y ejemplares representados. La complicación del sistema conceptual procede de la adquisición de nueva información en el contexto de la ya adquirida. Para un sistema cuya experiencia esta ordenada en el tiempo esta propiedad resulta ser crucial. 1.1.2. Propiedades de estímulo. Noción de forma. Los objetos pueden diferir entre sí en ciertas propiedades que representan: (1) valores sobre dimensiones continuas; (2) rasgos discretos; y (3) partes componentes. Rasgos y dimensiones son términos que designan propiedades primitivas de un objeto dado un cierto nivel de descripción. El término parte componente define un tipo de propiedad compleja que se caracteriza por proceder de la composición de rasgos y/o dimensiones segun ciertas descripciones estructurales. 1.1.2.1. "Dimensiones. Una dimensión puede definirse como un conjunto de valores discretos o continuamente variables a partir de los que uno puede, y, al menos en principio, debe, caracterizar cualquier estímulo simple al que la dimensión se aplica (es decir, es en la modalidad sensorial relevante y en el nivel correcto de descripción). Los valores de la misma dimensión se resaltan sistemáticamente respecto de cualquier otro en términos de alguna relación de semejanza o de desemejanza. Cualquier valor se define por contraste en la misma dimensión. Las dimensiones forman una jerarquía ordenada en función de la que se caracterizan las entidades del mundo." (Treisman, 1986, p. 35-3). 1.1.2.2. "Atributos. Algunas dimensiones implican cambios continuos de variación; otros pueden comprender un amplio número de valores discretos. (...). La distinción entre dimensiones continuas y atributos categoriales discretos pueden en ciertos casos reflejar diferencias en el código neural subyacente. Sin embargo, estas diferencias pueden no tener efectos substanciales en las operaciones que se ejecutan posteriormente." 1.1.2.3. "Partes o componentes localizados. Los objectos y el contexto en que aparecen pueden describirse como consistiendo de partes localizadas espacialmente o componentes ordenados, que tienen también ciertas propiedades características. La división en partes difiere del análisis dimensional en que las partes no son ni mutuamente excluyentes ni implican características necesarias de un estímulo. Dado un objeto completo, cualquiera de sus partes pueden potencialmente eliminarse sin alterarle como tal (aunque la remoción de una parte puede cambiar el carácter del objeto)." (Treisman, 1986, p. 35-4). "Las partes de un objeto se ensamblan habitualmente de acuerdo con ciertas relaciones estructurales. Algunos objetos pueden diferir sólo en el orden de sus partes y no en alguna parte individual. El análisis en partes puede repetirse a más de un nivel, dando lugar a una descripción jerárquica que contiene partes de partes: las letras son partes de palabras; y las líneas, curvas y ángulos son partes de letras. De nuevo, la elección de qué partes físicas es útil denominar por separado es, en buena medida, una cuestión de conveniencia descriptiva, dependiendo del objetivo de la descripción." (Treisman, 1986, p. 35-4). El término de forma se refiere a una descripción estructural de las propiedades de un objeto; una descripción estructural permite la discriminación de un objeto de cualquier otro en el mismo contexto. Si los objetos y acontecimientos del medio se describen en términos de sus atributos el problema es entonces cómo definir las relaciones estructurales que integran estos atributos en una descripción estructural. A la descripción de un

14 objeto o de un acontecimiento en términos de sus atributos se le denomina descripción paramétrica. 1.1.3. Descripción de las propiedades de estímulo. Para determinar el nivel en que es posible describir un conjunto de ejemplares, dado un contexto, deben discriminarse las propiedades en que los ejemplares de ese conjunto difieren. El nivel de descripción se establece constrastando, de forma ordenada, las propiedades que definen los ejemplares, bajo el supuesto de que son independientes. El sistema perceptivo proporciona descripciones neutrales y primitivas de los objetos y acontecimientos del mundo real. Cualquier descripción de un conjunto de ejemplares define, por hipótesis, un espacio de variantes acotado y computacionalmente cerrado. El contexto viene expresado por aquellas propiedades de los ejemplares que resultan ser invariantes en el conjunto cerrado de los ejemplares que se comparan. Cualesquiera propiedades covariantes se tratan como propiedades únicas si covarían en los subconjuntos de ejemplares que discriminan. Estos principios imponen límites precisos a la discriminación de las propiedades en que se distinguen los ejemplares, lo que permite explicar algunos de los hallazgos de aprendizaje competitivo y orden de presentación. Si estas propiedades covariantes se tratan como propiedades únicas, su discriminación posterior compite con lo anteriormente aprendido, de acuerdo con un principio de cerramiento computacional. De acuerdo con este principio, la presentación de una nueva serie de ejemplares que difiere en un cierto número de propiedades de un conjunto previamente aprendido puede afectar al estatuto de este conjunto de ejemplares en la memoria. Se observan entonces un efecto de orden de presentación y un efecto de aprendizaje competitivo. La discriminación de un estímulo dado, en el contexto en que se presenta, sólo se verifica si el sistema se rige según un principio de cerramiento computacional. Se ha aportado evidencia a favor de la existencia de este principio en numerosos estudios empíricos de aprendizaje animal y humano (cf. 1.3. El principio de cerramiento y la descripción de propiedades y relaciones). De dos modos pueden compararse (las descripciones de) los ejemplares de un conjunto: (a) comparando todas las propiedades que caracterizan los ejemplares y definiendo como resultado de la comparación cuáles resultan relevantes y cuáles no a su discriminación; y, (b) comparando propiedad a propiedad un cierto conjunto de ejemplares de acuerdo con una función de probabilidad que especifica su importancia relativa. Una serie de problemas teóricos surgen a partir de estas dos alternativas: (1) si el algoritmo de comparación es paralelo o secuencial; (2) si las propiedades que se corresponden dependen o no de su localización en una descripción que preserva propiedades analógicas o si las respectivas descripciones que se comparan incluyen información espacial y la comparación depende de esta; y, (3) si el espacio de memoria en el que se efectúa la comparación es estático o se establece dinámicamente y cuál es su amplitud. Idealmente, el proceso de comparación debería ser en paralelo, independiente de la localización de las propiedades -a menos que se encuentre explicítamente codificada o se requiera codificar como propiedad-, y el espacio de memoria reservarse dinámicamente y ser ilimitado. La independencia de las propiedades de su localización espacial añade flexibilidad al sistema pero incrementa la complejidad computacional del proceso. Un proceso de comparación completamente dependiente de la localización espacial de las propiedades hace al sistema inflexible y compromete la clasificación de un ejemplar. Sin embargo, si la comparación no se efectúa de forma ordenada, el sistema requerirá la comparación de todas las propiedades entre sí, dado que el sistema no puede interpretar descripciones neutrales de objetos sin compararlos. La codificación de las propiedades en que difieren los ejemplares y sus relaciones estructurales puede disociarse de su integración espacial en el ejemplar que permiten definir. La memoria semántica cumpliría un papel en la discriminación de estas propiedades y de sus relaciones; la memoria activa cumpliría el suyo integrando estas representaciones en un objeto que preserva las

15 relaciones y propiedades codificadas en la memoria semántica. Esta representación mantendría ciertas relaciones analógicas con las representaciones perceptivas del mismo objeto. La comparación podría entonces tener lugar no entre representaciones de memoria, sino entre una representación de memoria y una representación perceptiva. Un procedimiento para el reconocimiento de las propiedades físicas descriptivas de un conjunto de ejemplares consiste en la comparación sistemática en paralelo de pares de descripciones de ejemplares del conjunto. El resultado de la comparación define para cada propiedad discriminante una dimensión de comparación en una matriz de comparación de estímulos. Cualquier propiedad que no se utiliza para discriminar algún ejemplar se interpreta como una invariante del contexto y no define ninguna nueva dimensión en la misma matriz. Que el sistema puede comparar pares de descripciones y calcular las diferencias puede, por ejemplo, encontrarse en la percepción estereoscópica. El establecimiento de correspondencias punto a punto entre las matrices de luminancia en la percepción binocular explica el proceso que sigue el sistema en la identificación estereoscópica de un objeto en la visión humana. El proceso puede ejecutarse en paralelo entre ejemplares disponibles, definiéndose tantas dimensiones en la matriz como propiedades resultan ser diferentes para algun subconjunto de los ejemplares. En el caso de una comparación en paralelo el sistema puede eliminar dinámicamente de la matriz todas aquellas propiedades en que la comparación ha dado como resultado la identidad, y establecer en orden sistemático de asignación de dimensiones. En el caso de ejecutarse en forma secuencial, el sistema puede ir formando una matriz a medida que la comparación provee de propiedades que discriminan un par de ejemplares al menos. En una tarea de categorización, en la que los ejemplares se presentan secuencialmente, el número de dimensiones de la matriz de comparación puede aumentar a medida que aumenta el número de propiedades en que se distinguen los ejemplares. Un modelo psicológico realista debe distinguir entre codificar un ejemplar y recuperar información relativa a él. Toda la información que describiera un conjunto de ejemplares podría codificarse. Sin embargo, sólo se recuperarían a propósito de la clasificación aquellas propiedades en que los ejemplares difieren. Una matriz de comparación define, en este caso, las propiedades en que difieren los ejemplares en el conjunto. Esta distinción funcional entre codificación y recuperación podría, no obstante, ser inútil en el caso en que un ejemplar pudiera perfectamente identificarse en un dominio relevante codificando sólo aquellas propiedades que eventualmente le distinguen de cualquier otro. En otros términos, la codificación y la recuperación difieren si variando los roles de los ejemplares, las mismas descripciones ejemplares pueden recuperarse en distintos dominios. Matrices de conexión asociativa. Cada una de las casillas de una matriz de comparación puede reflejar asociaciones entre las pautas que se comparan. Estas relaciones asociativas se expresan en una matriz de conexiones. El número de matrices de conexión que se requieren es menor o igual al número de pautas que se necesitan registrar para distinguir cualquier par de pautas si se dan todas las pautas que definen una matriz de comparación de dimensiones establecidas. Con un ejemplo puede explicarse como se expresan, mediante una matriz de conexión, estas relaciones asociativas, codificando en la memoria relaciones de semejanza entre pares de pautas. Existe obviamente un límite al número de diferentes asociaciones que simultáneamente pueden representarse en una matriz única de conexiones, y que el igual al número de unidades en cada uno de los conjuntos. Así con dos unidades en cada conjunto, sólo pueden establecerse dos asociaciones, pero una red neural podría representar un número indefinido de asociaciones. Pautas de entrada semejantes dán origen a pautas de respuesta semejantes, así que para evitar interferencia, las pautas de entrada deben ser entre sí ortogonales o no relacionadas. Esta idea tiene una formulación matemática precisa: un par de pautas es ortogonal si el producto cruzado de sus componentes suma

16 cero. Así, por ejemplo, para las dos pautas visuales, +1 -1 y +1 +1, el producto cruzado es (+1 x +1) + (-1 x +1) = 0.) Sin embargo, el número de asociaciones puede ser mayor, de hecho, si una matriz de conexiones permite representar relaciones asociativas entre pautas de propiedades complementarias a las representadas. Supongamos que las pautas ejemplares que se comparan se representan en una notación ternaria, correspondiendo "+" y "+1" a "+1", "-" y "-1" a "-1", y representando el "0" un valor de indiferencia (una dimension no utilizada). La fuerza de conexión entre dos unidades es la misma en ambas direcciones, tomando las pautas que se asocian unas como pautas de estímulo y otras como pautas de respuesta, ó viceversa. Cada unidad transmite a otra una activación igual a su propia activación multiplicada por la fuerza de la conexión, es decir, una unidad activa (+1) con una conexión inhibitoria de -0.5 con otra unidad la transmite un valor de -0.5. El nivel de activación de una unidad es igual a la suma de todas las activaciones que recibe de otras unidades. Utilizando este principio, los valores representados en la matriz de conexión son los que establecen esta asociación entre pautas. Una matriz hipersimétrica conserva sus propiedades de simetría con la notación propuesta si el valor de indiferencia "0" o valor neutral no se utiliza para representar información sino únicamente para reservar espacio de memoria, tal como se expresa en el algoritmo. Así, por ejemplo, se representan únicamente las relaciones asociativas entre (+1 +1) y (+1 -1); estas relaciones vienen expresadas por la submatriz simple representada en el paso 4, lo que corresponde a la generación de valores de una submatriz asociativa para las pautas (+1 +1) y (+1 -1). La Figura 3 que reproduce esta submatriz ternaria de la Figura 2 presenta los valores generados para las submatrices que representan las relaciones asociativas de este par de pautas representadas en la diagonal principal de la matriz. En la Figura 3, la submatriz A expresa la relación autoasociativa de la pauta (+1+1), la submatriz B expresa la relación autoasociativa de la pauta (+1-1). Sumando ambas submatrices se obtiene la submatriz C. La submatriz C representa las relaciones asociativas de las pautas (+1+1) y (+1-1), pero también representa las pautas complementarias (-1+1) y (-1-1). Estas submatrices representan elementos de la matriz binaria hipersimétrica de comparación. ! + +

+ --

!

!

+

+

!

!

+

--

!

!

!

+1+1

-- -- -- ?

!

+ 1

.5

.5

!

+ 1

.5

--.5

!

1

0

+1+1

-- ?

-- -- !

+ 1

.5

.5

!

-- 1

--.5

--.5

!

0

1

!

B

!

C

Submatriz ternaria

!

A

Figura 3. Representación de una submatriz ternaria de comparación y generación de valores matriciales para el caso de autoasociaciones de las pautas (+1+1) y (+1-1) Observemos que la matriz final C verifica la propiedad de simetría de los elementos de la diagonal principal, lo que permite completar la diagonal de la matriz de comparación. Esta propiedad de simetría se verifica entre los elementos correspondientes de la matriz de comparación directamente o por complementación. Así las relaciones asociativas entre las pautas (+1-1) y (+1+1) y su inversa se representa por la matriz D (por el caracter simétrico de la matriz ninguna otra operación se requiere) (veáse Figura 4). La submatriz D representa en este caso la matriz final de esta relación asociativa. Considérese ahora la matriz completa; los valores representados para la submatriz de pautas ya codificadas permiten obtener, por complementación, los valores restantes de la matriz para pares de pautas con valores complementarios en las dimensiones respectivas

17 !

+

+

!

!

!

!

!

!

!

!

+ 1

.5

.5

!

!

--1

0

!

--.5

--.5

!

-- 1

--.5

--.5

!

!

0

1

!

.5

.5

!

D

!

E

!

F

Figura 4. Generación de valores matriciales para el caso de asociaciones entre pautas complementarias a (+1+1) y (+1-1). Para hallar los valores que expresan las respectivas relaciones asociativas sólo se requiere hallar los valores complementarios de cada una de las submatrices finales de las pautas de la submatriz ya codificada. La matriz E es la complementaria de la matriz C y representa las asociaciones de la diagonal secundaria (la matriz complementaria E nace de la complementación de los valores o pesos de las matrices A y B; también puede obtenerse directamente). Obsérvese que la ortogonalidad entre las pautas se conserva cuando se emplea la operación complementaria a la suma, es decir, la resta. Esta propiedad de simetría se conserva para la matriz F que es la complementación de la matriz D y representa las asociaciones complementarias de la submatriz origen. De ahí que, de acuerdo con la fórmula n=2c-1, si las pautas pueden expresarse en esta notación, sólo dos pautas necesitan codificarse para representar relaciones asociativas entre pautas que difieren en dos dimensiones. Las relaciones entre estas pautas se expresan por dos matrices de asociaciones distribuidas. En una matriz de comparación hipersimétrica puede aumentarse el número de dimensiones y modificarse los pesos de asociaciones previas. La concatenación de una nueva matriz para definir una nueva dimensión no debe suponer cambios en la estructura de las asociaciones representadas, dado el carácter lineal de esta representación y la ortogonalidad de las dimensiones que se representan. El proceso de codificación de información debe ser independiente: la codificación de nuevas propiedades no debe afectar directamente a las pautas ya codificadas. El conocimiento previo se modifica por procesos de evaluación internos al sistema. Sin embargo, en un sistema modular no se excluye que la información previa no afecte a la codificación de nueva información. Para poder representar en una matriz de comparación en qué propiedades difiere un conjunto de pautas ejemplares deben satisfacerse los principios siguientes. Las propiedades que discriminan entre pautas deben : a) basarse en el análisis del estímulo; b) ser independientes; c) definirse en un mismo nivel de descripción; y, d) ordenarse en una cierta forma estándar. Este orden permite justificar bajo ciertas condiciones la existencia de asimetrías en el procesamiento de las propiedades que distinguen entre pautas. La semejanza entre pautas ejemplares varía dependiendo del conjunto de dimensiones o rasgos representados, un efecto que se conoce bajo el nombre de efecto del rango. La satisfacción de estos principios es requerida por la representación de los ejemplares de acuerdo con un sistema lineal y por la necesidad de evitar interferencia entre pautas representadas. Dado un nivel de descripción y un conjunto de ejemplares, la descripción de este conjunto en términos de una serie de propiedades discriminantes debe ser independiente de su partición posterior en clases o categorías. Las propiedades no lineales de una descripción del conjunto, recurriendo a clases o categorías, deriva de la integración de aquellos atributos en clases. En una representación matricial las propiedades que definen un conjunto de estímulos y que permiten su partición en categorías o clases de equivalencia se suponen independientes en tanto se emplean como criterios de decisión (cf. Ashby y Townsend, 1986). 1.1.4. Propiedades de respuesta. Noción de función.

18 Las acciones pueden describirse en términos de una matriz ordenada de comparación que permite contrastarlas entre sí por los movimientos simples que las configuran. Dos clases de constricciones actuan sobre las acciones que pueden formarse: a) constricciones sintácticas que se originan en el sistema motor, y b) constricciones semánticas que se originan en el propio sistema representacional. Estas últimas constricciones semánticas resultan de relaciones que se establecen entre representaciones de estados externos y acciones y entre representaciones de estados externos y representaciones de estados internos. Desde la perspectiva de la acción, un concepto es una descripción de un estado externo precediendo o siguiendo a una acción. Los estados internos se organizan en clases de objetivos. Un objetivo es alguna descripción de estados internos. Las relaciones entre una representación de estados externos o un concepto y una representación de un estado interno o un objetivo constituyen o definen una relación funcional o función. La información de un concepto se evalúa por relación a la descripción que proporciona y la función que esta descripción satisface en alguna teoría relacionando descripciones del medio o conceptos y descripciones de estados internos u objetivos. Mediante la realimentación informativa se evalúa el valor de verdad de una descripción en función de que satisfaga o no un cierto objetivo (cf. Logan, 1985). Porque el sistema tiene acceso a una descripción neutral, independiente del medio, en la percepción, puede alterar sus representaciones conceptuales en dirección a la satisfacción de ciertos objetivos. Las relaciones causales entre una clase de acciones y un estado externo y entre un estado externo y un estado interno son independientes del sistema representacional. Son objeto de la física y de la psicofísica. Las relaciones entre un concepto y un objetivo, y entre un concepto y una clase de acciones son objeto de la psicología cognitiva. El sistema se limita a establecer relaciones sintácticas entre un conjunto de descripciones. Sin embargo, estas relaciones sintácticas son un subconjunto de las que pueden teóricamente establecerse. De ahí que estas relaciones constituyan una descripción de lo real. Porque el sistema registra ciertas propiedades y no otras, ordena estas propiedades bajo ciertas relaciones y no otras, formando conceptos, y ordena estos conceptos bajo ciertas relaciones y no otras, formando teorías, el sistema cuenta con un modelo del mundo en el que es capaz de satisfacer ciertos objetivos. Son las regularidades causales del mundo las que constriñen qué clases de representaciones pueden formarse. El componente semántico de una representación viene dado por las restricciones que se incorporan en una particular organización sintáctica de sus componentes. Así, una representación resulta ser compatible sólo con un conjunto de descripciones independientes proporcionadas en la percepción y no con cualquier conjunto. En tanto la ciencia tiene por objetivo contar con una descripción integrada y unificada del mundo compatible con cualquier descripción neutral e independiente de él dada en la percepción, un sistema de procesamiento de información tiene como criterio, un criterio de eficacia: se trata de si dado un estado del mundo pueden satisfacerse potencialmente cualesquiera objetivos relevantes. Un concepto se define por el modo en que un conjunto de descripciones independientes de pautas ejemplares se ordena o distribuye en un conjunto de clases o categorías. El concepto formado se expresa por las acciones que su activación suscita. Estas acciones se encuentran representadas en el laboratorio por un conjunto de respuestas simples. Aunque las acciones pueden ser complejas y derivar de una compleja activación de una serie de conceptos, las acciones que se requieren en una tarea de clasificación vienen representadas por un conjunto predefinido de respuestas simples. Estas respuestas simples constituyen de hecho clases de respuestas en tanto su realización efectiva varía físicamente. Si la respuesta que se requiere se emite pulsando un botón, el recorrido del botón puede variar dentro de un rango independientemente de que esta pulsación cuente como un tipo específico de respuesta. A pesar de que el recorrido del botón podría indicar la confianza del sujeto en la emisión de esa respuesta, una medida de interferencia de esa respuesta con otras respuestas alternativas, etc., esta variación no se toma en cuenta al considerar esta pulsación como un tipo de respuesta. Así, una respuesta define una clase de respuestas de las que la emitida es un caso

19 ejemplar. Un conjunto de respuestas efectivas se distribuye en un conjunto de clases de respuestas. En una tarea simple de clasificación, cada una de las clases de respuesta constituye una alternativa del conjunto. Sin embargo, en un contexto menos simple, cada una de las clases de respuesta puede venir definida por un cierto conjunto de respuestas alternativas. Así pueden existir modos alternativos de respuesta definiendo una misma clase. El conjunto de las respuestas define, en una tarea de clasificación, en cuantas clases o categorías debe distribuirse un conjunto de descripciones de pautas ejemplares o estímulos. Cada una de las partes que resultan de esta distribución se denomina partición. Dada una descripción, pueden existir tantas particiones como pautas es posible discriminar o una partición única. En una partición única todas las pautas que se discriminan pertenecen a una misma clase. En una partición múltiple algun subconjunto de todas las pautas discriminables pertenece a una única clase, en tanto algún otro subconjunto pertenece a una clase alternativa. Una partición puede venir dada por alguna combinación lineal o no lineal de propiedades. En una combinación no lineal la partición se determina dada alguna transformación de las propiedades tomadas como primitivas. La realimentación informativa determina como combinar un cierto conjunto de propiedades para definir alguna partición de las pautas ejemplares. Si distribuimos el conjunto de pautas representadas en la matriz de comparación de la Figura 1 en dos clases o alternativas de respuesta podemos obtener cualquiera de las particiones que se representan en la Figura 6. La Figura 5 presenta las particiones que pueden hacerse en la matriz de comparación presentada en la Figura 2 para estímulos que difieren en dos dimensiones. Las Figuras 5 y 6 presentan primero la matriz de comparación que define el conjunto (Figura 5A y Figura 6A), las particiones posibles de este conjunto en dos clases o alternativas de respuesta (Figura 5B y Figura 6B) y tres parámetros que distinguen estas particiones entre sí, el número de dimensiones que implica registrar, el número de representaciones que implica formar, y el número de propiedades o atributos que efectivamente deben codificarse (Figura 5C y Figura 6C). En general, el número de particiones en que puede distribuirse un conjunto n de ejemplares que difieren en d dimensiones binarias viene dado, para el caso en que el conjunto se clasifica en dos categorías con un número idéntico de ejemplares, por n!/[(n-n/2)!]2, siendo n = 2d. Así, para el conjunto representado en la Figura 6, en el que se utiliza ocho estímulos únicos, hay 70 modos distintos para dividirlos en dos grupos de cuatro estímulos cada uno [8!/(4!)2 = 70]. Este conjunto puede reducirse a un número menor de categorías informacionalmente equivalentes. Para el conjunto representado en la Figura 5, donde se utilizan cuatro estímulos únicos, hay 6 modos distintos de dividirlos en dos grupos de dos estímulos cada uno. Estas posibles particiones se agrupan para el conjunto definido por ocho estímulos en seis distintas alternativas; para el conjunto definido por cuatro estímulos se agrupan en dos distintas alternativas. Estas alternativas vienen definidas estructuralmente, es decir, con independencia de las propiedades que se toman como criterio de clasificación. Así pues, estas alternativas definen qué grupos de pautas es posible formar dada una matriz de comparación independientemente de su implementación efectiva. La partición de un conjunto n de objetos crece exponencialmente con n para el caso en que el número de particiones, p, es menor o igual al número de ejemplares, n. Existe una única manera de dividir 1 objeto que es incluirlo en su propia categoría; dos modos de dividir dos objetos, ó pertenecen a la misma categoría ó pertenecen a categorías distintas; cinco de dividir tres objetos a,b,c -- {abc} ó {a}{bc} ó {ac}{b} ó {a}{b}{c}. El número de particiones de n objetos es un número exponencial de Bell (Berge, 1971) y se aproxima por la expresión: (n + 2)! / (3 * 2n)

Ecuación (1)

Si se asume que las categorías en que se describe un conjunto de ejemplares son independientes entre sí, la partición del conjunto empieza a ser computacionalmente intratable incluso dado un

20 número muy pequeño de ejemplares. Sin embargo, la hipótesis de independencia debe ser ciertamente errónea tanto por lo que se refiere a la estructura del entorno como a la estructura de los procesos de formación de conceptos. Desde una perspectiva formal, la descomposición analítica de los objetos y la no independencia de las categorías dado un conjunto puede reducir el valor de n en la expresión, si n debe representar el número de distintos objetos. En la partición secuencial de un conjunto de objetos, clases o categorías definidas de acuerdo con una partición diferente pueden ser además informacionalmente equivalentes. Además de estas constricciones sintácticas, otras constricciones semánticas afectan al número de particiones que necesitan tenerse en cuenta en una descripción realista del entorno. Además, existen un número indefinido de procedimientos capaces de satisfacer el mismo objetivo. La más importante de estas constricciones se refleja en la sensibilidad del sistema al orden de presentación de la información. La ecuación (1) hace abstracción del nivel de descripción en el que se define una partición, es decir, la clase y el número de descriptores que permiten distinguir entre los ejemplares. Dado un nivel de descripción, n objetos distintos pueden diferir a lo sumo en n-1 atributos únicos. Si se acepta la composición de propiedades primitivas, el número de atributos únicos que se requiere para distinguir entre ejemplares se reduce drásticamente. Estos descriptores primitivos pueden restringir qué particiones pueden a priori ser informativas. ! ++

+-

-+

--

--

-?

?-

??

-?

--

??

?-

?-

??

--

-?

??

?-

-?

--

(A) Matriz de comparación para cuatro estímulos de dos dimensiones. I.

11

01

10

00

II.

11

10

00

01

(B) Posibles particiones (binarias) del conjunto definido por la matriz (A). Dimensiones

Representaciones

Propiedades

1

(1-0)

1

1

2

(11-00) 2

(1) (11/00)

4

(1)

(1100)

(C) Algunos de los parámetros que definen cada una de las particiones de (B). Figura 5. Partición de una matriz de cuatro estímulos de dos dimensiones. +++

++-

+- +

+- -

- ++

-+-

--+

---

---

- -?

-?-

-??

?- -

?-?

??-

???

21 - -?

---

-??

-?-

?-?

?- -

???

??-

-?-

-??

---

- -?

??-

???

?- -

?-?

-??

-?-

-?-

---

???

??-

?-?

?- -

?- -

?-?

??-

???

---

- -?

-?-

-??

?-?

?- -

???

??-

- -?

---

-??

-?-

??-

???

?- -

?-?

-?-

-??

---

- -?

???

??-

?-?

?- -

-??

-?-

-?-

---

(A) Matriz de comparación para ocho estímulos de tres dimensiones. I.

IV.

111

011

101

II.

111

011

001

110

110

010

100

000

111

000

101

011

010

111

001

001

101

110

000

000

100

010

100

111

011

111

011

011

100

110

001

010

110

101

010

101

010

001

101

110

001

000

100

100

000

V.

III.

VI.

Ej.: Negro 1, Blanco, 0; Triángulo, 1, Cuadrado, 0; Grande, 1, Pequeño, 0 (B) Posibles particiones (binarias) del conjunto definido por la matriz (A). Dimensiones

Representaciones

Propiedades

1

(1-0)

1

(1)

1

(1)

2

(11-00)

2

(11/00)

4

(1100)

3

(111-000)

3

(11/1-1/10)

6

(111-110)

3

(111-000)

3

(11/1-1/11)

6

(111-111)

3

(111-000)

3

(11/1-1/000)

7

(111-1000)

3

(111-000)

4

(111/100/010/001)

12

(111100010001)

(C) Algunos de los parámetros que definen cada una de las particiones de (B). Figura 6. Partición de una matriz de ocho estímulos de tres dimensiones. Al expresar las particiones de un conjunto de pautas ejemplares en una matriz de comparación, hemos adoptado implicítamente un método de reducción para describir como se forman estas particiones. De acuerdo con este método, una partición puede describirse por el número de

22 dimensiones que implica registrar, el número de representaciones que deben formarse y el número de propiedades que efectivamente se codifican.De acuerdo con un método de discriminación, una partición puede representarse por un árbol de decisión. Cada partición se expresa por el número de dimensiones que se deben tener en cuenta para efectuar una decisión, el número de pruebas que se requieren ejecutar para decidir sobre dónde incluir una pauta, y el número de ramas que permiten decidir en un árbol de decisión dónde agrupar una pauta de estímulo. Una partición define clases de respuestas que se asocian a las categorías en que se describe el conjunto. El término función se refiere a los objetivos que una clase de respuestas permite satisfacer. Todas las propiedades que se representan en una matriz de comparación son, por hipótesis, independientes, basadas en el estímulo, describibles en un único nivel de descripción, y ordenadas en el espacio y/o en el tiempo. Las propiedades representadas en una matriz de comparación se suponen, además, primitivas dado un cierto nivel de descripción. Sin embargo, no todas las propiedades que permiten discriminar entre pautas de estímulo satisfacen estos requerimientos. Es posible definir propiedades que no satisfacen estos requerimientos o que se derivan a partir de propiedades primitivas. Estas propiedades derivadas nacen de la composición de propiedades primitivas en una particular configuración. Entre estas propiedades derivadas caben distinguir, a) propiedades configurales basadas en el estimulo; b) propiedades configurales basadas en la respuesta; y c) propiedades derivadas estrictas. Una propiedad configural se supone basada en el estímulo si deriva de la integración espacial de propiedades primitivas. Entre las propiedades configurales basadas en el estímulo se encuentran propiedades configurales intraestímulo y propiedades configurales interestímulo. La simetría es un ejemplo de propiedad configural intraestímulo; en cambio, la redundancia es un ejemplo de propiedad interestímulo. Una propiedad configural se supone basada en la respuesta si deriva de la integración de propiedades primitivas dada una particular partición. Por ejemplo, la existencia de propiedades correlacionadas o correlaciones entre propiedades puede ser tratada como una propiedad configural basada en la respuesta ya que emerge en el contexto de una particular partición del conjunto de pautas. Por último, una propiedad es estrictamente derivada si nace de una integración contingente de propiedades primitivas. Una integración es contigente si resulta de un proceso de aprendizaje. Una propiedad estrictamente derivada es un concepto empleado como una descripción de nivel superior. Esta descripción de nivel superior supone la existencia de una partición previa del conjunto de propiedades primitivas. El nuevo conjunto se somete a una nueva partición. Todas estas propiedades derivadas suponen la integración de un cierto conjunto de propiedades primitivas de acuerdo con una relación. Esta relación puede ser obligatoria, como en el caso de propiedades configurales basadas en el estímulo y basadas en la respuesta, o contingente u optativa, como en el caso de propiedades estrictamente derivadas. Estas últimas propiedades son, sin duda, las mas importantes, ya que suponen la formación de un número indefinido de descripciones en distintos niveles de complejidad. Una descripción derivada incluye un proceso computacional. Una propiedad derivada altera la descripción de propiedades de un conjunto tanto si se establece en el mismo nivel como si se establece en un nivel distinto del de partida. 1.2. Relaciones. Descripciones (no léxicas) de relaciones. Las relaciones se utilizan para describir relaciones entre elementos de conjuntos de propiedades u objetos. Formalmente una relación es justamente un subconjunto de un producto cruzado de dos conjuntos. Sea X e Y conjuntos. Una relación R de X a Y es simplemente un subconjunto de X x Y. Si pertenece a R, escribimos aRb. Si no pertenece a R, escribimos a/Rb. Si X = Y, decimos que R es una relación en X. Una relación puede ser etiquetada o no etiquetada. Una relación etiquetada es una expresión o enunciado refiriendo una relación. Una relación es etiquetada si existe algún término o proposición que la describe o puede tratarse como unidad en la codificación o

23 recuperación de nueva información. Una relación etiquetada puede tratarse, entonces, como una nueva propiedad susceptible de ser tratada mediante un nuevo conjunto de relaciones. Una relación es deducible si se deduce de cómo se halla codificada o se activa la informacion, o si se deduce mediante algun método de prueba de algún otro conjunto de relaciones. En caso contrario, no es deducible. El concepto de deducibilidad puede establecerse al menos en dos sentidos; si una relación o un enunciado de relaciones se establece por referencia a relaciones o enunciados de relaciones a través de la sintaxis de las expresiones tomadas como premisas, la relación es formal o sintácticamente deducible; si una relación o un enunciado de relaciones se establece por referencia a relaciones o enunciados de relaciones a traves del valor que toman las expresiones, adoptadas como premisas, en un modelo del mundo, la relación no es formalmente deducible, sino semánticamente deducible. La lógica de predicados de segundo grado no es formalmente (sintácticamente) deducible de la lógica de predicados de primer grado. Es decir, no existe una teoría lógica capaz de deducir sintácticamente enunciados establecidos en la lógica de segundo grado de enunciados establecidos en la lógica de primer grado. Sin embargo, puede existir una heurística abstracta común a la lógica de primer grado y a la lógica de segundo grado que permite relacionar ambos tipos de formalización logica a partir del valor de verdad que toman sus expresiones atómicas y moleculares (Johnson-Laird, 1983). Una relación es no deducible si expresa algún tipo de constricción predefinida en la arquitectura funcional del sistema y no se deriva ni sintáctica ni semánticamente de relaciones o enunciados de relaciones. Un término que se refiere a una relación puede o no pertenecer al mismo conjunto de elementos a partir de los que la relación se define. Si un operador, al combinar objetos de un tipo dado, produce un objeto del mismo tipo, el conjunto definido es cerrado bajo el operador en cuestión. Un operador que afecte a un único objeto se denomina unario; si afecta a dos objetos se denomina binario, y si afecta a mas de dos objetos se denomina n-ario. Si la propiedad de cerramiento se verifica en un conjunto bajo una cierta operación, ningún elemento de los definidos por esa operación define una nueva propiedad para el conjunto. Si la propiedad de cerramiento no se verifica en un conjunto bajo una cierta operación, cualquier elemento de los definidos por esa operación define nuevas propiedades para el conjunto. El nuevo conjunto se caracteriza por satisfacer un conjunto de propiedades nuevo respecto de las que caracterizan los elementos afectados por dicha operación. Esta propiedad de cerramiento deriva de la composición sintáctica de elementos o atributos primitivos. La extensión del nuevo conjunto varía respecto de la extensión que implica el conjunto de elementos a que aquella operación afecta. Es importante señalar, recurriendo, como ejemplo, a la teoría del número, que el nuevo conjunto puede contener todos los elementos del conjunto mas primitivo como elementos suyos. En otros términos, en la teoría del número se verifica que un número de un conjunto de nivel superior puede operacionalizarse en términos de alguna descripción establecida mediante números de un conjunto de nivel inferior. Los resultados de operaciones que se ejecutan entre elementos de nivel superior pueden interpretarse en términos de relaciones que pueden especificarse entre elementos de inferior nivel. Sin embargo, descripciones de objetos o elementos de nivel inferior no revelan relaciones que implican propiedades solo especificables en un nivel superior. Los números enteros derivan de la necesidad de resolver operaciones entre naturales de la forma establecida por la ecuación a - b = c, en el caso en que b > a, y b>0 y a> 0. Para que exista solución a esta ecuación c no debe pertenecer a los naturales si es preciso distinguir c de 0 en algún modelo del mundo. Los números enteros nacen, precisamente, de relaciones establecidas entre números naturales, relaciones en términos de las que resultan ser interpretables; y ello con independencia de que se definan de acuerdo con propiedades que no se verifican para los elementos a que afectan las operaciones que originan el nuevo conjunto. Es importante subrayar que el nuevo conjunto define un nuevo conjunto de números, los enteros negativos, para los que se cumplen las mismas propiedades y operaciones que se cumplían para números naturales. Los naturales se definen,

24 entonces, como enteros positivos, dado que son aquellos numeros que satisfacen la ecuación de forma (-a) - (-b) = c, en el caso en que |b| > |a| y |a| > 0 y |b| > 0. Para que exista solución a esta ecuación con enteros negativos, c no puede ser un elemento del conjunto, es decir, debe ser un entero positivo. Todavía, el conjunto de los enteros deriva de la composición sintáctica de elementos de un conjunto de nivel inferior. La extensión del nuevo conjunto varía pero su interpretación es inmediata toda vez que sus relaciones pueden, bajo ciertas condiciones, establecerse entre elementos de alguno de sus subconjuntos. Observemos, que no bajo cualquier condición se pueden establecer estas relaciones entre elementos de un conjunto de nivel inferior. En suma, los elementos definidos por operaciones que no satisfacen la propiedad de cerramiento respecto del conjunto de los elementos a que dichas operaciones afectan definen un conjunto cuya especificación incluye propiedades emergentes. Supóngase que bajo una operación sintactica,elementos de un conjunto de nivel inferior se combinan definiendo elementos de un conjunto de nivel superior. El primer conjunto no es cerrado bajo aquella operación. Los nuevos elementos definidos no pertenecen al mismo conjunto de partida. El conjunto de nivel superior definido satisface un nuevo conjunto de propiedades. Supongamos que entre las propiedades que el nuevo conjunto satisface se encuentra la de que cualquiera de los elementos resulta directamente interpretable por referencia a la interpretación de los elementos de nivel inferior y las relaciones que estos satisfacen bajo una cierta descripción neutral del mundo. Dichas relaciones son especificadas por alguna operación que afecta a elementos de nivel primitivo. Si estas condiciones se satisfacen, aunque cualquier elemento del conjunto de nivel superior es directamente interpretable, sólo algun subconjunto de los elementos puede verificarse. Si los únicos elementos de este conjunto superior que se conservan son los que se verifican en algún modelo del mundo, el subconjunto definido codifica o registra información semántica, codifica relaciones que sólo se verifican para algún modelo del mundo y no en cualquier modelo de los que puede construirse. Sea un mundo constituido por un número finito de objetos relacionados, ciertas combinaciones pueden resultar imposibles o no interpretables por constricciones implícitas en la construcción de un modelo, otras ser posibles pero no verificarse, y otras, por último, posibles y verificables. Si en la memoria del sistema sólo se registran combinaciones posibles y verificables de objetos, el sistema es capaz de interpretar cualesquiera descripciones de ese mundo para el caso en que conozca todas las combinaciones posibles y verificables. En otros términos, un sistema de procesamiento registra información semántica en tanto sólo conserva combinaciones que se verifican en alguna descripción de ese mundo. El conjunto definido por las relaciones de los objetos primitivos entre sí puede satisfacer propiedades no explícitas en alguna descripción de estos objetos, dado que sólo ciertas combinaciones se codifican. Las combinaciones ya registradas pueden incrementar el número de las combinaciones imposibles o posibles pero no verificables. De ahí, que las combinaciones ya registradas alteren de forma crucial la forma de las combinaciones que se codifican. A su vez, relaciones que pueden establecerse en un nivel superior al definido por estas combinaciones resultan ser dependientes de las codificadas. Una propiedad derivada es alguna propiedad que resultando de la combinación sintáctica de propiedades primitivas puede tratarse como una propiedad de nivel superior. Las relaciones que pueden especificarse entre propiedades a distintos niveles pueden definirse de acuerdo con una función recursiva definiendo niveles distintos de complejidad. Así, por ejemplo, la velocidad puede definirse como la derivada del espacio respecto del tiempo, y la aceleración como la derivada de la velocidad respecto del tiempo. Un concepto de un nivel, el espacio, permite definir un concepto de un nivel superior, la velocidad. Un conjunto idéntico de operaciones genera descripciones de distinta complejidad satisfaciendo propiedades diferentes. Todavía estos conceptos pueden ser directamente interpretables. 1.2.1. Relaciones primitivas y derivadas. Descripciones de relaciones.

25 El número de descripciones que pueden formarse de un objeto o acontecimiento es prácticamente ilimitado. Esta variación descriptiva parece reflejar dependencias sistemáticas de los objetivos a satisfacer de alguna clase de descripciones perceptivas neutrales de un objeto. En un cierto contexto una descripción de un objeto varía según el dominio de representaciones en el que este objeto se identifica, y este dominio a su vez depende del conjunto de representaciones que se activan en relación con dicho contexto. El contraste de un objeto con su dominio es evidente en aquellas situaciones en que se le requiere a un sujeto su descripción (Grice, 1975; Tversky y Hemenway, 1984). Dado que no hay un criterio para determinar cuál es el contexto implícito de referencia en que un objeto se discrimina, no es posible determinar si las desviaciones de las predicciones de un modelo de categorización lineal basado en la semejanza de las instancias derivan de una descripción inadecuada de los objetos o de específicas asunciones teóricas de los modelos. De ahí que el lenguaje en el que se describe un objeto sea crítico para determinar en qué relaciones está implicado. Nuestra definición del concepto de relación es formal; una relación es un subconjunto de un conjunto definido por el producto cruzado de elementos de dos conjuntos de objetos o propiedades. Esta definición es meramente sintáctica y no distingue entre distintas clases de relaciones según expliquen alguna clase diferente de comportamiento. El punto de vista adoptado es que una relación es semánticamente indiferente. Una relación resulta de aplicar un conjunto simple de operaciones a conjuntos finitos de propiedades u objetos, definiendo, así, una función entre elementos miembros de los conjuntos que se relacionan. En un mecanismo computacional simple, una máquina de Turing, estas propiedades u objetos estan representados por estados en la máquina; las transiciones entre estados se especifican por algun conjunto de funciones entre estados. La acción inmediata de una máquina de Turing está determinada únicamente por el estado en el que está y el símbolo que está revisando. La conducta de una máquina se caracteriza por un conjunto finito de instrucciones, cada una de las cuales especifica que acción la máquina lleva a cabo (y a qué estado cambia) en función de su estado actual y el símbolo que revisa. Cada instrucción especifica, por consiguiente, lo siguiente: el estado actual de la máquina, el símbolo en el cuadrado o unidad revisada, la acción a llevar a cabo, y el próximo estado de la máquina, el que se produce como consecuencia de la acción que se lleva a cabo por indicación de la instrucción. El conjunto de operaciones que se ejecutan para satisfacer lo especificado por una instrucción es independiente de los estados a que se aplican. Aunque la definición del concepto es formal, el hecho de que una relación se especifique bajo una descripción de conjuntos de propiedades u objetos impone un límite sobre la extensión de aquella. Una relación puede describirse mejor como lo especificado por una regla. Una regla es la aplicación de un conjunto definido de operaciones a conjuntos definidos de propiedades u objetos. Una relación es primitiva si resulta de la aplicación de un cierto conjunto de operaciones a elementos de conjuntos de propiedades primitivas. Una relación es derivada si resulta de la aplicación de un cierto conjunto de operaciones a elementos de conjuntos de propiedades derivadas. En tanto definidas sobre conjuntos finitos de elementos preespecificados, las relaciones primitivas o derivadas pueden tratarse como reglas implícitas o explícitas. Una regla explícita es una relación que puede directamente recuperarse por estar etiquetada. Una regla es implícita o no etiquetada si no puede recuperarse como tal. Una operación es una caracterización formal de una clase de reglas, es decir, con independencia de los conjuntos de propiedades u objetos sobre los que estas reglas se definen. En la lógica proposicional cualquier conectiva lógica puede definirse a partir de alguna o algunas conectivas tomadas como primitivas. La definición de una conectiva en términos de otras o su convertibilidad lógica es posible si se supone que existe una operación única que se modifica dependiendo de la forma que toman los enunciados atómicos o moleculares que afecta definiendo las reglas que las conectivas en cuestión describen. Una operación puede formalmente caracterizarse si es posible definir algun conjunto finito de propiedades inherentes a todas las reglas que genera,

26 dados ciertos conjuntos de descripciones. El problema que subsiste para determinar una relación es cómo caracterizar o describir los objetos en los que la relación se basa. La cuestión es que de cualquier objeto o acontecimiento existe un número indefinido de descripciones y que no es posible acotar a priori este conjunto (Shanon, 1988). Si se supone que existe alguna descripción perceptiva neutral de estos objetos es posible establecer un conjunto finito de propiedades primitivas a partir del que, a su vez, sería posible especificar un conjunto finito de relaciones primitivas. Sin embargo, la especificación de estas relaciones primitivas dado algun lenguaje descriptivo neutral de estos objetos depende de cómo se determinen; si la forma de estas relaciones es sintáctica, la cuestión se limita a determinar que conjunto de propiedades primitivas es crítico. Si no es posible especificar por criterios sintácticos en qué propiedades una relación se basa, o dado un conjunto de relaciones, cuáles efectivamente se realizan o seleccionan en una cierta representación, la especificación de estas relaciones sólo puede ser semántica. En este caso, la especificación de un cierto conjunto de relaciones depende de cómo se seleccionan en función de los objetivos y del conocimiento previo. Si es posible describir en un lenguaje neutral un conjunto de objetos, la comparación de estos objetos entre sí basta para determinar en qué propiedades difieren. Dada una descripción de un conjunto de propiedades y objetos, si la operación que establece una relación puede recursivamente aplicarse a nuevos conjuntos de propiedades definiendo propiedades de un nivel superior de complejidad, el nuevo conjunto de descripciones que resulta es abierto bajo esa operación. En este caso, existe un número indefinido de descripciones derivadas con propiedades emergentes. Si los elementos de un conjunto definido por la aplicación de una operación a elementos de un conjunto primitivo es abierto bajo una operacion, "el orden de una relación viene determinado por el orden de sus argumentos. Una relación de primer order toma objetos como sus argumentos. Una relación de segundo orden tiene al menos una relación de primer orden entre sus argumentos; y en general una relación de orden n tiene como argumento al menos una relación de orden (n-1)." (Gentner, 1983, p. 157). Si por el contrario, el conjunto definido bajo esa operación es cerrado, la relación definida por esa operación entre cualesquiera elementos de la serie es del mismo orden o nivel de complejidad. En un conjunto cerrado bajo una operación no se generan descripciones de un nivel distinto de complejidad. Si a y b son propiedades de un objeto A, y la relación aRb define un elemento del mismo conjunto, la aplicación recursiva de la misma operación genera un numero indefinido de nuevos elementos de la misma complejidad. Este es el caso de un sistema de composición lineal. Ninguna relación generada por esa operación es cualitativamente diferente. Si, por el contrario, el elemento definido por la relación aRb define un nuevo conjunto de propiedades derivadas, un nuevo conjunto enteramente original de relaciones puede establecerse generando descripciones de un nuevo nivel de complejidad. Para un conjunto de elementos abierto bajo una operación, existe un numero indefinido de descripciones de distinto nivel de complejidad si es posible su aplicación recursiva. Este es el caso de un sistema de composición no lineal. En un conjunto abierto bajo una operación no es posible definir un límite al conjunto de descripciones posibles. Sin embargo, la cuestión no es que pueda generarse un número indefinido de elementos ni un número indefinido de descripciones dada una cierta operación, sino qué relaciones de las que formalmente pueden darse se verifican de hecho en algún estado del mundo dado un modelo o descripción. No cualquier relación formalmente posible entre cualesquiera elementos de conjuntos de propiedades u objetos puede efectivamente realizarse. Si el mundo es regular existen relaciones mutuamente inconsistentes entre elementos definidos a partir de una descripción neutral de este mundo. Del subconjunto de relaciones definidas por el producto cruzado de elementos de dos conjuntos de objetos o propiedades, sólo algún subconjunto es teóricamente posible para cualquier descripción primitiva del mundo y de este

27 conjunto de descripciones sólo algún subconjunto es efectivamente realizable. Qué se dé o no una cierta relación depende de los objetivos que el reconocimiento de esta relación permite obtener y del conocimiento previo. Este razonamiento tiene dos partes: 1) dada una operación que genera un conjunto de elementos definiendo un nuevo nivel de complejidad, no existe a priori un límite, formal o sintáctico, del número de descripciones que pueden formarse ni de la clase ni del número de relaciones que puede reconocerse entre ellas; y 2) dado un conjunto de constricciones semánticas limitando la clase y número de aquellas relaciones sintácticas es posible reconocer relaciones inconsistentes, dado un conjunto de posibles relaciones sintácticas, en términos de algún criterio semántico. Especificadas que relaciones se verifican en algún modelo del mundo, pueden reconocerse nuevas propiedades sintácticas y semánticas definiendo el nuevo conjunto. El criterio para determinar qué subconjunto de relaciones puede efectivamente verificarse se denomina criterio de consistencia predictiva. El criterio de consistencia predictiva establece qué particiones deben efectuarse, dada una descripción de objetos o acontecimientos, de acuerdo con un conjunto de objetivos predeterminados. Entre un conjunto de estados definido como objetivo y un conjunto de descripciones de objetos o acontecimientos debe existir un único conjunto de transiciones consistentes y especificables. Dada una descripción de una serie de objetos, el criterio de consistencia permite determinar, con experiencia suficiente, si existe alguna relación causal entre un suceso y un elemento de la serie, entre un suceso y la serie misma, o no hay consistencia predictiva. En un extremo sólo se registra la mera existencia de un objeto, de modo que la representación funciona como un determinante abstracto de una posición espacial individualizable y enumerable. En el otro extremo, el objeto puede ser por completo identificado y pueden generarse predicciones e inferencias causales acerca de su pasado y su conducta futura. El único prerequisito para percibir un objeto podría ser alguna continuidad espacial y temporal mínima del estímulo. Una cierta descripción es consistente si anticipa algun otro estado que puede describirse en el mismo lenguaje. En resumen, una relación puede especificarse formalmente a partir del producto cruzado de elementos miembros de conjuntos de propiedades u objetos. Solo un subconjunto de las relaciones especificables puede efectivamente realizarse, dada una descripción neutral del mundo a través de la percepción. Qué relaciones efectivamente se realizan depende de cuáles se seleccionen de un conjunto definido por criterios sintácticos, dependiendo la selección misma de la consistencia predictiva de cada una de estas relaciones con los estados que anticipan. De este modo, la selección de un conjunto posible de relaciones se efectúa semánticamente. El conjunto de relaciones que se satisfacen en un modelo del mundo se limita a medida que se incrementa la experiencia. Esta concepción impone una interpretación muy precisa del proceso de categorización; la clasificación de un objeto depende de relaciones de consistencia que afectan a este objeto representado y a los estados que su clasificación permite anticipar, dado que ambas clases de representaciones pueden establecerse en el mismo lenguaje. Si esta relación de consistencia depende de la sucesión de los ejemplares en una serie, la única información que se codifica de un ejemplar es aquella que permite reconocer la sucesión. Si esta relación de consistencia depende de alguna partición estricta de propiedades que permiten discriminar entre los ejemplares, la información que se codifica de un ejemplar es aquella que se requiera para su clasificación. Entre la identificación de un objeto ejemplar como miembro de una serie y su identificación en un dominio de conocimiento, se sitúa la clasificación de un objeto como miembro de una clase. Sin embargo, esta interpretación no supone que las propiedades que permiten discriminar entre los estímulos basten para efectuar una clasificación. Una partición puede basarse en propiedades no disponibles en la comparación de un cierto conjunto de pautas ejemplares. Una partición depende de qué propiedades y relaciones, primitivas y derivadas, se reconozcan y a qué nivel se ajuste la descripción.

28 1.2.2. Modelos descriptivos de nivel único y modelos descriptivos multinivel. Si las propiedades que discriminan entre instancias se describen en una notación común en un mismo nivel de complejidad, el conjunto de estas propiedades define un nivel idéntico de descripción. Un supuesto común de los modelos de categorización basados en instancias es que la clasificación de una serie de ejemplares deriva de su discriminación en el contexto de los ejemplares que se presentan. Que los atributos de un conjunto de estímulos puedan representarse bajo una notación comun no expresa simplemente una convención metodológica, sino una hipótesis específica acerca de cómo el sistema registra efectivamente la información. En efecto, puede emplearse una notación en la que todas las propiedades que permiten discriminar un conjunto de objetos se tratan como primitivas o una notación en la que algunas propiedades se tratan como primitivas y otras se tratan como derivadas. La cuestión crítica es determinar cómo el sistema discrimina entre instancias y se representa la información que contienen. Por ejemplo, los atributos correlacionados de un conjunto de pautas clasificables en una misma categoría se describen en el modelo de contexto como perteneciendo al mismo conjunto que al que pertenecen atributos mas simples; en un modelo de red neural, por el contrario, los atributos correlacionados se describen en un distinto nivel de descripción al que se supone pertenecen los atributos elementales. La notación introducida para representar un cierto conjunto de pautas o instancias tiene implicaciones teóricas más abstractas acerca de como el sistema representa la información. Los modelos de categorización que no reconocen más de un nivel de representación se denominan modelos descriptivos de nivel único; los modelos de categorización que reconocen más de un nivel de representación se denominan modelos descriptivos multinivel. De acuerdo con un modelo descriptivo de nivel único, la categorización resulta de la partición de un conjunto de propiedades que discriminan entre ejemplares en la identificación. La clasificación de un objeto es función de la identificación de ese objeto en un contexto (cf. Nosofsky, 1984). Las propiedades que discriminan entre pautas y la relación o relaciones que la formación de una categoría impone sobre estas propiedades puede describirse bajo una misma notación e implica naturalmente un mismo nivel de descripción. De acuerdo con un modelo descriptivo multinivel, la categorización no resulta necesariamente de la discriminación de propiedades de las pautas. Las relaciones establecidas entre propiedades dan lugar a la aparición de propiedades emergentes definiendo un nuevo nivel de descripción; la relación que define una clase o categoría no puede describirse en el mismo nivel de los ejemplares representados. En los modelos de ejemplar, al asumir que la representación de una categoría consiste en sus ejemplares, la clase misma deriva de la comparación de una cierta pauta con los ejemplares que representan la categoría que no es representada como tal. Los modelos probabilísticos tampoco reconocen mas de un único nivel de representación que es definido, por ejemplo, en el modelo de prototipo, por el prototipo de una categoría y los prototipos de categorias relacionadas. En un modelo descriptivo multinivel como, por ejemplo, en un modelo de red neural, las relaciones definen un nivel de descripción distinto del definido por las propiedades que se relacionan (Estes, 1986). Los modelos basados en explicaciones caracterizan el proceso de categorización reconociendo distintos niveles de descripción en la formación de una categoria. La evidencia empírica favorece un modelo de categorización multinivel, en el que las relaciones que definen un objeto se describen en un nivel distinto del definido por sus atributos (Treisman, 1986; Goldstone, 1988). En tanto una clase es distinta de sus ejemplares miembros (Wittgenstein, 1958). "Los casos ejemplares pueden activarse en la memoria mas fácilmente por medio de un término categorial más que por alguno de sus atributos" (Glass, Holyoak, y Santa, 1979, p. 351). La definición de un conjunto numérico por simetrización de otro conjunto numérico o la definición de figuras geométricas por simetrización de los atributos que definen otras figuras geométricas son ejemplos que muestran las propiedades generatrices de una relación. Definiendo, por ejemplo, un triángulo como la figura definida por tres rectas y un trilátero como la

29 figura definida por tres puntos, triángulo y trilátero resultan ser figuras formalmente idénticas, tres rectas definen tres puntos y tres puntos definen tres rectas. Esta relación de identidad no se verifica entre cuadrángulo y cuadrilátero; en un cuadrángulo cuatro rectas definen seis puntos mientras en un cuadrilátero cuatro puntos generan seis rectas. El carácter generatriz de una relación se comprueba en que una relación descrita en un nivel de descripción superior n genera elementos en un nivel inferior de descripción n-1. El conjunto vacío representado por el simbolo 0 puede definirse en virtud de relaciones de nivel superior como subconjunto de cualquier conjunto. 1.3. El lenguaje natural y la descripción de propiedades y relaciones. Un objetivo común a todos los modelos de categorización propuestos es el de hallar una notación simbólica para la descripción de un concepto y de sus miembros realista o psicológicamente plausible e independiente del lenguaje. Si bien, el lenguaje natural proporciona una notación en la que describir las propiedades de un conjunto de objetos u acontecimientos y las relaciones en que participan, las relaciones en que participan las palabras en el léxico no reflejan necesariamente la estructura de relaciones que afectan a los conceptos en el sistema conceptual independientemente de la capacidad del lenguaje para describirlas. El lenguaje proporciona descripciones de alto nivel orientadas a la comunicación de informacion. El léxico debe entonces distinguirse del sistema conceptual. De dos modos la estructura del léxico puede afectar al sistema conceptual: a) en la codificación al imponer la discriminación perceptiva en términos de un conjunto finito y lexicalmente relacionado de palabras (Brownell y Caramazza, 1978); y, b) en la recuperación de informacion, al constreñir el proceso de búsqueda y definir la identidad de un concepto independiente de las relaciones que especifican su función en un dominio. "Un nombre significa únicamente lo que es un elemento de la realidad, lo que no puede ser destruido, lo que permanece igual en todos los cambios" (Wittgenstein, 1958: 1978, p. 57-59). El lenguaje proporciona constancia a conceptos cuyo estatuto cambia en el sistema conceptual. En este sentido el lenguaje pertenece al mundo natural dado en la percepción (Putnam, 1988). El análisis lógico del lenguaje natural permite reconocer algunas de las constricciones sintácticas que operan en la interpretación semántica de descripciones lingüísticas. La descripción verbal de la información afecta a los juicios de frecuencia y de relativa probabilidad a través de las instrucciones. !I. EL ANALISIS METRICO DE LA SEMEJANZA 1. Algoritmos de generalización: El análisis métrico de la semejanza. 1.1. Modelos de propiedades: El análisis métrico La hipótesis crítica que subyace a los modelos de categorización basados en el análisis métrico de la semejanza es que la clasificación de un ejemplar en una categoría, dado un conjunto de ejemplares, es función de su identificación en dicho conjunto. De acuerdo con esta hipótesis de correspondencia (Nosofsky,1987) la probabilidad de que un estímulo i sea clasificado en una categoría J, es meramente la suma de las probabilidades de que el estímulo i sea identificado como uno de los ejemplares de la categoría J en una tarea de clasificación. El problema se reduce, entonces, a caracterizar la relación identificación-categorización en términos de un modelo de generalización basado en instancias a partir de una descripción de sus semejanzas y diferencias en un espacio métrico de comparación (Nosofsky, 1986). La hipótesis de correspondencia es un modo de formalizar la idea de que los procesos de generalización basada en instancias que determinan la identificación de un ejemplar también determinan su clasificación en un conjunto dado de categorías. Esta hipótesis implica que la categorización se basa estrictamente en la forma y no en la función. Identificación y categorización sólo pueden discriminarse si la descripción de una instancia no es función de su descripción estructural,es

30 decir, si ciertas propiedades críticas en la clasificación de un ejemplar se infieren del dominio en que se integra y no de una descripción neutral proporcionada en el análisis perceptivo (Sáinz, 1985a). En otros términos, identificación y categorización se distinguen si la categorización incluye atributos no presentes en una descripción perceptiva del estímulo. Los modelos basados en el análisis de escalamiento multidimensional y el modelo de contraste o de conjunto teórico constituyen los dos tipos de métricas desarrolladas para expresar esta hipótesis de correspondencia. 1.2. El modelo de escalamiento multidimensional. Una asunción común de los modelos de escalamiento multidimensional es que es posible representar en un espacio geométrico común de dimensiones las semejanzas y diferencias de cualquier conjunto ordenado de instancias (Carroll y Arabie, 1980). Las dimensiones que definen ese espacio geométrico común se interpretan como ejes de coordenadas y como dimensiones psicológicas respecto de las que varían los ejemplares, representados como puntos en dicho espacio. Un algoritmo de escalamiento multidimensional permite generar una representación geométrica de semejanza psicológica bajo el supuesto de que pueden combinarse en un espacio común escalas ordenadas e independientes que representan las dimensiones, sea en términos de una métrica euclidiana o alguna otra métrica del mismo tipo. Los datos que se utilizan para definir un espacio multidimensional se supone reflejan la semejanza o indistinción relativa de los objetos a representar en este espacio. Estos datos se obtienen solicitando a los sujetos que evalúen en una escala numérica la semejanza de cada par de objetos o sometiendo cada uno de los pares a una tarea de discriminación. Estos métodos proporcionan una medida de la probabilidad de confundir un objeto o una latencia de respuesta que expresa la distinción relativa de ese objeto en el conjunto. Los modelos de escalamiento multidimensional suponen que estas medidas reflejan la distancia de los objetos entre sí en un espacio definido por una expresión potencial, la expresión métrica de Minkowsky, en el que la distancia dij entre dos objetos i y j viene dada en el espacio m-dimensional por m d

i j

= [ S (x i ! k=1

! k

- xjk)

r

]

1 / r

Ecuación (2) !

donde xik es la coordenada del objeto i en la dimensión k, r expresa la métrica del espacio y m el número de dimensiones; para r se verifica que 0 = s(a',b') si y sólo si s(c,d) >= s(c',d'). La semejanza de dos estímulos a y b viene expresada por s(a,b) = x * f (A B) - y * f (A - B) - x * f (B - Ecuación (5) A) La ecuación (5) puede interpretarse como: la semejanza de dos estímulos a y b es igual a los rasgos A y B que a y b comparten menos los rasgos A que tiene a y b no tiene, menos los rasgos B que b tiene y a no tiene. Los términos x, y, y z son pesos que representan el papel de los estímulos en la comparación que verifican x,y,z >= 0. Eventualmente Tversky asume que la función f satisface f(x * y) = f(x) + f(y). (x * y expresa la conjunción de x e y). Para dar cuenta de un efecto de marca léxica y de un efecto de tipicidad asociado a los atributos de un estímulo, Tversky (1977; Tversky y Gati, 1982) introduce dos postulados auxiliares en el modelo: (1) en los juicios de semejanza los atributos comunes pesan más que los atributos distintivos, y, en los juicios de desemejanza, los atributos distintivos pesan mas que los atributos comunes; y, (2) los atributos o rasgos diagnósticos, que resultan ser mas informativos o importantes, pesan más que los atributos o rasgos no diagnósticos.

35 Gati y Tversky (1982) observan que el postulado de independencia en apariencia no se verifica en ciertos casos. La satisfacción de este postulado es criterio de si la descripción de entrada al modelo es o no correcta. Que no se verifique este postulado puede ser un problema del modelo o resultado de una incorrecta especificación de los atributos de los estímulos. Un ejemplo de esto último aparece cuando la adición de un nuevo rasgo dá lugar a una nueva propiedad. Así, por ejemplo, los estímulos "AZ" y "BZ" resultan ser mas similares entre sí que lo que son "AZA" y "BZA": aunque el nuevo rasgo incrementa el número de atributos compartidos, lo que según los postulados de monotonicidad y de independencia debería dar lugar a un aumento de la semejanza, el juicio perceptivo del sujeto contradice esta predicción del modelo. La razón es que "AZA" incluye un nuevo atributo -el atributo de simetría- que "BZA" no incluye. Los postulados de independencia y de monotonicidad no se satisfacen cuando los nuevos atributos se combinan con otros atributos previos primitivos dando lugar a propiedades derivadas o emergentes. Tversky señala que situaciones de este tipo pueden aparecer siempre que no se disponga de una descripción correcta de las pautas de estímulo. Observemos que este es un problema de difícil control experimental: pueden eventualmente darse propiedades emergentes que pasen desapercibidas al experimentador. Puede observarse en el ejemplo que el rasgo de pronunciabilidad puede, también, estar afectando al juicio de semejanza de estas cadenas de letras. El modelo de contraste puede emplearse también en el caso en que los atributos definen dimensiones continuas o cuantitativas. Estas dimensiones continuas pueden introducirse en el modelo como una serie de atributos discretos ligados: un color, por ejemplo, puede describirse por un conjunto de rasgos discretos bajo la condición de que colores adyacentes compartan con él mas atributos comunes que colores más distantes. El modelo proporciona de este modo una base matemática común para describir la semejanza de cualquier conjunto de estímulos. Buena parte de los fenómenos incompatibles con un modelo de representación espacial pueden explicarse a partir del modelo de contraste. Así, por ejemplo, se encuentra que añadir un nuevo atributo a un conjunto de estímulos aumenta su semejanza (Gati y Tversky, 1982). Este fenómeno pone en cuestión el postulado de distancia mínima (1) de un modelo de escalamiento en coherencia con otras observaciones empíricas. El modelo de contraste, en cambio, predice este fenómeno a partir del postulado de monotonicidad. Los fenómenos que discuten la validez del postulado de simetría (3) pueden explicarse si el número o relevancia de los atributos difiere entre los estímulos que se comparan. La asimetría de los juicios de semejanza como que a se parezca más a b que b a a nace de estas diferencias y del hecho de que la comparación tenga una dirección. Así F se parece más a E que E a F porque E tiene un rasgo que F no tiene. La dirección de la comparación determina que unos rasgos pesen más que otros como se desprende de los postulados auxiliares del modelo. Los juicios de semejanza y de diferencia no son complementarios. Tversky and Gati (1982) justifican la violación del postulado de desigualdad triangular (4) asumiendo que los intervalos de distintas dimensiones son aditivos en tanto los intervalos de la misma dimensión son subaditivos. La contribución de un rasgo común a la semejanza disminuye a medida que aumenta el número de rasgos comunes. Shepard (1964) contraargumenta a favor de las hipótesis métricas del modelo de escalamiento métrico multidimensional que la semejanza para estímulos que coinciden en una de dos dimensiones es mayor que para estímulos que difieren en dos dimensiones a causa del papel que la atención selectiva tiene en la comparación. La atención explica que no se cumpla el postulado de dominancia (6). Sin embargo,Tversky y Gati (1982) demuestran matemáticamente que las fluctuaciones de la atención no pueden

36 explicar sus datos. La violación del postulado de desigualdad triangular implica que el exponente de la expresión métrica de Minkowski debe ser menor que uno. La dependencia de los postulados relativos a la estructura dimensional de los postulados métricos determina que a menudo estos postulados no sean satisfechos. La violación del postulado de substractividad intradimensional (10) se explica como un efecto de "curvatura relativa" de las escalas que representan dimensiones cualitativas respecto de las escalas que representan dimensiones cuantitativas. Como se observa en la Figura 9 la curvatura de la dimensión B respecto de A viola este postulado dimensional. En efecto, si se asume el postulado de substractividad intradimensional y se cumple d(aq, bq) >= (bp, bq) y d(bq, cq) >= d(bq,br), entonces d(bq,br) >= d(bp,br). Del mismo modo, si d(bp,bq) >= d(aq,bq) y d(bq,br) > d(bq,cq), entonces d(bp,br) >= d(aq, cq). Si la primera condición se cumple en tanto la segunda no se satisface, la dimensión B es curva respecto de A; si la segunda se cumple pero no la primera entonces A es curva respecto de B. Si B se trata como una dimensión cualitativa, entonces los atributos que distinguen entre bq y y br pueden ser distintos de los que distinguen bq y bp. Si A se trata como una dimensión cuantitativa entonces los rasgos que distinguen entre bq y aq deben también distinguir bq y cq. En otros términos, los estímulos bp y br pueden ser mas semejantes de lo que prediría de acuerdo con el postulado de substractividad intradimensional. Gati y Tversky (1982) presentan ejemplos donde esta predicción se verifica como cuando se presentan como estímulos rectángulos de distinta forma y tamaño. br

aq

bq

cq

bp

Figura 9. Curvatura relativa de una dimensión cualitativa B sobre una dimensión cuantitativa A (Gati y Tversky, 1982). Krumhansl (1978, 1982) ha propuesto una teoría que justifica las violaciones de los axiomas métricos de escalamiento multidimensional como el resultado de un efecto de densidad. Krumhansl supone que estas violaciones podrían manejarse dentro de un modelo geométrico suponiendo que la distancia entre dos estímulos es modificada por la densidad de otros estímulos representados como puntos en un espacio de rasgos. Krumhansl sugiere que las regiones densas del espacio de estímulo se expanden de algún modo, en tanto los estímulos representados en estas regiones requieren discriminaciones más finas de rasgos. Esta hipótesis explicaría las violaciones de los axiomas métricos sin sacrificar las hipótesis básicas de los modelos de escalamiento. Sin embargo, un análisis del efecto de densidad pone en cuestión esta explicación de Krumhansl (cf. 3.4. Efectos de estructura intercategorial. 3.4.3. Efecto de densidad). 1.4. Desviaciones de los modelos métricos de la semejanza. Los postulados métricos del modelo de contraste (Gati y Tversky, 1982;Tversky y Gati, 1982)

37 no se verifican en el caso en que se añade o elimina un nuevo atributo a menos que se provea al modelo de una nueva descripción que tome en cuenta los efectos de esta manipulación sobre los atributos de estímulo previos. El modelo de contraste depende críticamente de que la descripción contenga todos los rasgos relevantes a la comparación, una consecuencia directa del postulado de correspondencia y de la adopción de un modelo analítico y lineal de semejanza. De ahí que el modelo incluya, al evaluar la semejanza del par de estímulos "AZA" y "BZA", el rasgo de simetría. La estrategia de tratar una relación entre atributos como un nuevo atributo nos obliga a considerar si bajo esta hipótesis se satisfacen los postulados en que el modelo descansa. Esta hipótesis implica que el conjunto de atributos primitivos en que se distinguen los estímulos es cerrado bajo la función de composición: atributos y relaciones se identifican en el mismo nivel de representación. El sujeto debería, entonces, tratar los atributos derivados de relaciones y los atributos primitivos de los estímulos en los mismos términos al efectuar sus juicios de semejanza. Evidencia reciente muestra que la hipótesis de que relaciones y atributos se tratan de la misma forma es falsa: la "importancia de que se dén o no correspondencias entre atributos o relaciones varía dependiendo de si se hace un juicio de semejanza o de desemejanza, un hecho que sugiere que atributos y relaciones son psicológicamente distintos" (Medin, Goldstone y Gentner, 1990, p. 68). En un estudio empírico en el que trata de contrastar la hipótesis que identifica relaciones y atributos en el mismo nivel de representación, Goldstone (1988) obtiene datos que contradicen el postulado de independencia del modelo de contraste. La Figura 10 presenta una muestra de los estímulos utilizados en su primer experimento.

T

A

T

B

T

C

T

D

Figura 10. Muestra de estímulos empleados por Goldstone (1988, Exp. 1). Cada par de estímulos sobre los que el sujeto efectúa un juicio de semejanza difieren en el número de atributos y relaciones que comparten. Los estímulos de la columna izquierda comparten más atributos que los estímulos de la columna derecha. Los estímulos de la fila superior comparten mas atributos y menos relaciones que los estímulos de la fila inferior.

38 En la Figura 10, el dibujo a la izquierda de cada par de estímulo, etiquetado con la letra T, es idéntico. Los dibujos etiquetados A y C difieren en que un rasgo X de A es un cuadrado en C. Este es también el caso de B y D. La lógica de este diseño es probar si los sujetos tratan por separado la semejanza atribucional y la semejanza relacional, hipótesis que de verificarse falsa la hipótesis del modelo de contraste y pone en cuestión el postulado de independencia. Si la semejanza se evalúa en relación con los atributos que los estímulos comparten, A debe juzgarse más semejante a T que C. Si, por el contrario, la semejanza se evalúa en relación con las relaciones que los estímulos comparten, C debe juzgarse más semejante a T que A, ya que C tiene la misma relación que T, "Idéntica-forma (arriba, abajo)". Los estímulos de la columna derecha sustituyen el rasgo intermedio de A y C por un nuevo elemento. Esta sustitución disminuye la semejanza atribucional del par. Las semejanzas y diferencias relativas de los estímulos de ambas filas se conservan con esta manipulación. El análisis de sus efectos permite, sin embargo, determinar si el postulado de independencia se cumple. De acuerdo con el postulado de independencia del modelo de contraste la contribución de un atributo a la semejanza global debe ser independiente de la contribución de otros atributos de estímulo. La versión fuerte de este postulado exige que el sujeto evalúe los pares de estímulo de la Figura 10 detectando que la semejanza aumenta entre las filas superior e inferior. Como A y C por una parte y B y D por otra difieren exactamente en un rasgo la puntuación del sujeto debe reflejar un efecto uniforme de dicho atributo sobre la semejanza global. La versión débil del postulado de independencia exige, en cambio, que las puntuaciones de semejanza del sujeto reflejen meramente el incremento de la semejanza. Esta versión del postulado expresa un supuesto de independencia ordinal. Analizando las diferencias entre las puntuaciones de semejanza de los sujetos a cada par de estímulos de la Figura 10 puede observarse si cambiar un atributo tiene un efecto uniforme en la semejanza global. Tres pautas de puntuación son posibles: (1) (D-B) = (C-A); (2) (D-B) > (C-A); y, (3) (D-B ) < (C-A). Si la primera expresión se cumple se confirma que la sustitución de un atributo en pares de estímulo que difieren en semejanza atribucional o relacional tiene un efecto uniforme. Este es el resultado que debe esperarse de acuerdo con el modelo de contraste de Tversky. La segunda y tercera expresiones contradicen el postulado de independencia: el efecto de un atributo no es independiente del efecto de otros atributos de estímulo. De acuerdo con la segunda expresión, aumentar la semejanza atribucional afecta positivamente a pares de estímulo que comparten atributos más que a pares de estímulo que comparten relaciones. Un modelo de Semejanza Máxima explica este resultado: la semejanza entre dos estímulos está completamente determinada por el tipo de semejanza, relacional o atribucional, que prevalece. El sujeto atiende selectivamente a uno u otro tipo de semejanza y decide por relación al que tiene más peso en la comparación. De acuerdo con la tercera expresión, aumentar la semejanza atribucional afecta negativa-mente a pares de estímulos que comparten atributos más que a pares de estímulo que comparten relaciones. Un modelo de Semejanza Mínima explica este resultado: la semejanza entre dos estímulos está completamente determinada por el tipo de semejanza, relacional o atribucional, que tiene menor importancia. Bajo el supuesto de que el sujeto accede a sus representaciones de semejanza, un procedimiento de elección forzosa puede proporcionar la misma información que un juicio de semejanza escalar. Sometiendo a prueba en una serie de tres experimentos las hipótesis del modelo de contraste y de estos dos modelos alternativos, Goldstone (1988) aporta evidencia, con un procedimiento de elección forzosa, a favor de la no independencia de los atributos en la determinación de la semejanza global. Sus datos son consistentes con un modelo de Semejanza

39 Máxima. Sólo si el procedimiento de elección forzosa no expresa las representaciones de semejanza que se ha formado el sujeto, la versión débil del postulado de independencia puede sobrevivir a la crítica que proporcionan sus datos. En cualquier caso, los resultados obtenidos ponen en cuestión el postulado de independencia en su versión más fuerte. El sujeto distingue entre atributos y relaciones; la semejanza se trata partiendo de esta distinción como ya observara Gentner (1988; Gentner y Landers, 1985) al distinguir entre semejanza aparente, analogía y semejanza literal. En la semejanza aparente se toman en cuenta los atributos de los estímulos; en la analogía se transfieren predicados relacionales de la base al objetivo; en la semejanza literal ambos aspectos, relaciones y atributos, se toman en cuenta para definir la correspondencia entre los estímulos que se comparan. La semejanza no es un término absoluto; siempre se interpreta en relación con un conjunto inferido (cf. Treisman, 1986). Al efectuar sus juicios de semejanza los sujetos pueden cambiar la base de comparación sobre la que llevan a cabo sus juicios al cambiar la relevancia de las dimensiones (cf. Ortony, Vondruska, y Foss, 1985); las propiedades que, entonces, emergen no se aplican a los mismos objetos (cf. Shepard y Arabie, 1979). Como se observa en la Figura 11, el contexto puede jugar un papel en la evaluación de la semejanza. La Figura 11 también revela que la interpretación de los rasgos no es inequívoca y que las relaciones que adquieren son críticas para interpretar el objeto que emerge. Epstein y Park (1986) han encontrado que transformaciones ópticas continuas no dan lugar necesariamente a descripciones perceptivas únicas e idénticas, un hallazgo que cuestiona a nivel perceptivo la hipótesis de independencia. Los problemas teóricos y empíricos del modelo de escalamiento multidimensional sólo en apariencia pueden ser resueltos en el modelo de contraste. Ambos modelos métricos ignoran que atributos y relaciones definen distintos niveles de representación y que se tratan, por tanto, de distinta manera. Representaciones de nivel superior constriñen la interpretación de los atributos de un objeto (Rumelhart y McClelland, 1986). Existen, además, propiedades configurales no casuales en la interpretación de un objeto (Biederman, 1987).

A

B

C

Figura 11. Las figuras A y B se interpretan en profundidad como dos cubos, si se presentan por separado; el cubo A incluye un rasgo que no se integra en esta interpretación o es casual. Las figuras B y C se interpretan en plano como dos hexágonos, si se presentan por separado; ambos héxagonos incluyen rasgos casuales. La figura B, a partir de la que se han generado las figuras A y C, es ambigua: puede simultáneamente interpretarse en plano y en profundidad y en ésta como un cubo o como una pirámide. Esta ambigüedad puede resolverse por relación al par en que se integra. Los juicios de semejanza reflejan este hecho. En el contexto AB la figura B se juzga muy similar a A, al igual que ocurre en el contexto BC, entre B y C. La figura B es, en ambos casos, idéntica; sin embargo, en estos juicios de semejanza B se refiere a un objeto distinto. 2. Algoritmos de recuperación y generalización: El análisis matricial de la semejanza. De acuerdo con un punto de vista común, la memoria humana puede concebirse como un vasto sistema de almacenes en el que la información se registra según su localización. Este enfoque

40 de la memoria, un enfoque habitual en la psicología de sentido común que procede de una tradición neurológica que supone que ciertas funciones específicas deben corresponderse con específicas localizaciones cerebrales, se denomina localizacionista. La memoria humana, sin embargo, no puede concebirse como un conjunto de unidades de información locales cada uno con un cierto contenido particular. Frente a las múltiples variantes de esta perspectiva, y por oposición al modo en que se registra información en un computador convencional donde los contenidos de memoria se acceden, en última instancia, por medio de instrucciones que contienen direcciones numéricas, el acceso a la información que contiene la memoria se lleva a cabo por relación al contenido semántico de indicios de recuperación proporcionados por el contexto. La información que se registra, a partir de una experiencia, en la memoria a largo plazo, se distribuye sobre un número indefinido de unidades de procesamiento; cada una de estas unidades participa en la representación de un cierto número de experiencias. El contenido semántico de una representación resulta del estado de activación que afecta a un conjunto de unidades sobre las que la representación se distribuye. Este enfoque de memoria, representado por las teorías de procesamiento paralelo y distribuido, puede denominarse conexionista. Un enfoque conexionista supone que la información contenida en la memoria es accesible por medio de direcciones ligadas al contenido de la información que se recupera. 2.1. Modelos de redes: La matriz de conexiones. Un ejemplo común de cómo una memoria direccionable por el contenido trabaja consiste en presentar a un sujeto información parcial de un objeto y solicitarle que determine de qué objeto se trata. Cada unidad de información sirve como un indicio de recuperación de una forma tal que, a medida que el sujeto conoce información, restringe el número de soluciones alternativas posibles hasta determinar la entidad correcta. De algún modo la memoria genera una representación que satisface un cierto conjunto de condiciones proporcionadas por la activación de indicios de recuperación representados por aquellas unidades de información parcial. Este sistema de recuperación independiente de la atención no examina todos los contenidos de memoria, -lo que obligaría a un análisis de información irrelevante-, sino sólo aquellos que satisfacen las condiciones impuestas por los indicios disponibles. De este modo, la información correcta se recupera atendiendo al contenido de lo que estos indicios representan para la memoria. En una memoria direccionable por el contenido, se accede a las unidades de información que se activan por medio de los componentes del concepto que se trata de reconocer. Este proceso de recuperación es posible por la existencia de relaciones asociativas entre pautas, entre aquellas que representan un concepto y los indicios que determinan su recuperación y activan sus componentes. Estas relaciones asociativas pueden expresarse en una matriz de conexión en los términos propuestos más arriba (1.1.3. Descripción de propiedades de estímulo: 1.1.3.2. Matrices de conexión asociativa). Frente a Piatelli-Palmarini (1989) que concibe el proceso de aprendizaje como un proceso de fijación de parámetros entre conexiones preespecificadas en la arquitectura funcional del sistema cognitivo, pueden aducirse las razones de Feldman que señala que"existen razones para creer que no existen conexiones innatas para todos los conceptos que pueden formarse. Por citar una, el genoma humano contiene sólo 109 unidades binarias de información, lo que no es suficiente para especificar por completo 1015 conexiones. Y es inconcebible que el curso entero de la civilización haya sido anticipado (Feldman, 1981, p. 84). La formación de estas conexiones es contingente; depende de la experiencia del sistema en función de las conexiones ya formadas a partir de la experiencia previa. En una matriz de conexión, la activación de un patrón de estímulo activa un cierto patrón de salida; la fuerza asociativa entre las unidades que representan patrones de estímulo y patrones

41 de salida, se expresan mediante los valores o pesos que toman las casillas de esta matriz de conexión. Cada patrón viene representado por un vector -en una notación ternaria en el ejemplo presentado más arriba- en el que cada uno de sus elementos se corresponde con un valor de activación en una cierta unidad. Una unidad de entrada transmite a otra unidad de salida una activación igual a su propia actividad multiplicada por la fuerza de la conexión. El nivel de activación de una unidad de salida es igual a la suma de las activaciones que recibe de otras unidades que la alimentan como entrada. Formalmente, n I

i

!

=S w

i j

x

Ecuación (6)

j

! j=1

!

La ecuación 6 representa la función de transferencia. La ecuación 6 expresa que las unidades i del vector de respuesta I -- cada una de las neuronas que recibe activación de sus entradas- resultan de sumar la activación j de las n unidades de la entrada x premultiplicadas por los valores w i j de la matriz de pesos o matriz de conexión, los pesos que conectan la entrada con la neurona que la recibe. Los pesos w i j representan el conocimiento de que dispone el sistema. Las unidades que procesan la información de entrada se organizan en niveles o estratos, definiendo según los casos, redes neurales o conexionistas monocapa -- cuando las unidades se organizan en un único estrato-- o multicapa --cuando las unidades se organizan en múltiples estratos--. Las unidades de estos niveles o estratos pueden representar un vector de estímulo o un vector que representa elaboraciones intermedias de la información, es decir, asociaciones que se dán entre las pautas; las unidades de procesamiento de una red neural multicapa que representan estas elaboraciones intermedias de la información reciben el nombre especial de unidades ocultas. 3.2. La regla delta. Seguiremos, por simplicidad, en esta presentación la red que define el Asociador Lineal Adaptativo de Widrow y Hoff (1960). En esta red neural, --al igual que en otro tipo de redes neurales-- el sistema aprende ajustando los pesos w i j de las conexiones de forma que al multiplicarse por la entrada, x j, se reproduzca una respuesta deseada, T. En efecto, en el aprendizaje, los pesos w i j deben ajustarse para representar, de la mejor manera posible, los k patrones de estímulo, expresados por la activación x, de sus componentes respectivas j , en los i componentes del patrón de respuesta (suponiendo que cada neurona genere un único componente de salida). Los pesos w i j cambian para minimizar el error que se produce cuando la salida de la red no se corresponde con la respuesta deseada. El sistema utiliza, en primer término, el vector de entrada x para generar su propio vector de salida y; compara, entonces, este vector con el vector de respuesta que se busca u objetivo, t. Si no existe ninguna diferencia, no tendrá lugar ningún aprendizaje; si existe alguna, los pesos se modifican para reducir esta diferencia. El problema es diseñar un proceso iterativo que modifique los pesos de la matriz de conexión en dirección al objetivo buscado. Este proceso de aprendizaje tiene una precisa formulación matemática (cf. Stone, 1986; Rumelhart, Hinton y Williams, 1986). El cambio del peso w i j dado un patrón x viene dado por el producto del componente j del patrón x de entrada y la diferencia entre el componente i del patrón objetivo o deseado t y el componente del patrón de salida o efectivo y, es decir, el cambio de peso, componente por componente, viene dado por, D w

i j

= a(t

i

- y i)x

j

Ecuación (7)

42 donde t i - y i representa la medida del error entre el objetivo buscado y la salida efectiva producida por la red. Por tanto representa la función de evaluación, la distancia que existe entre el objetivo t y la salida y componente por componente, i. Por su parte, a es un parámetro libre que indica en qué medida la red modifica sus pesos en función del error cometido; varía entre 0 y 1. Un criterio intermedio entre la absoluta conservación y la absoluta innovación establece un a = 0,5. Por último, x j representa obviamente la activación del componente j de la entrada x. La ecuación (7) representa la función de aprendizaje, conocida bajo el nombre de regla delta, por referencia a la letra griega que expresa la magnitud de una diferencia entre la salida objetivo y la salida efectiva. La regla delta supone que el cambio de los pesos de una matriz de conexiones se haya determinada por el producto de los niveles de activación de las unidades de estímulo y de respuesta (en la expresión de la ecuación representada bajo una magnitud de error) . Si se supone que las unidades de respuesta se encuentran por completo determinadas por las unidades de estímulo, la regla del producto coincide con la regla formulada por Hebb. Los nuevos pesos de la matriz de conexiones se expresan, entonces, por w

n i j

=w

+ D w

v i j

Ecuación (8)

i j

Los nuevos índices suscritos n y v, respectivamente a la izquierda y a la derecha de esta equivalencia, representa el vector de pesos nuevo y el vector de pesos viejo. En efecto, el nuevo vector de pesos es el resultado de sumar al viejo el vector delta. Por último, debe establecerse como la red calcula sus respuestas. La información que se transfiere de la entrada a una neurona de la red viene expresada por la función de transferencia, por I. I representa la entrada neta a la red. La salida efectiva de la red viene calculada por una función de activación. La expresión mas simple de esta función de activacióon es la función escalón, que se establece especificando un umbral a partir del cual se produce una respuesta. La función de activación escalón viene expresada por la fórmula, y i = + 1 , ssi

I i >= Umbral, y Umbral = 0

!

y i = - 1 , ssi

I i < Umbral, y Umbral = 0

Ecuación (9)

La fórmula expresa cual será la salida y de una neurona i, especificando un umbral 0. La complicación de esta maquinaria es la que dá fundamento a los modelos de redes neuronales o conexionistas. Para normalizar la longitud del vector de pesos, es decir, para mantener su longitud relativa constante --es decir, para que tenga por módulo la unidad--, la ecuación 7 se modifica normalizando el vector delta por el cuadrado del módulo del vector de entrada, es decir, D w

i j

= [ a(t

i

- y i)x

j

] / | x |

2

Ecuación (10)

La expresión del vector delta es idéntica excepto porque ha sufrido esta normalización de su longitud. La regla de aprendizaje expresada por la ecuación 10 se conoce bajo el término regla delta. Modificando esta primera formulación de la regla delta de Widrow y Hoff (1960), la regla delta generalizada de Rumelhart y McClelland (1986) expresa una regla de aprendizaje que permite definir un conjunto de pesos para generar cualquier correspondencia arbitraria entre un vector de estímulo y un vector de respuesta, es decir, también para el caso en que las asociaciones entre pautas no puedan representarse en términos de un sistema de ecuaciones lineales. La ecuación 10 tiene la misma forma que la ecuación 7 excepto en que descompone el

43 vector de respuesta, para analizarlo en términos de un proceso que converge hacia la solución y minimiza el error. El error viene dado, precisamente, por el cuadrado de las diferencias que definen el error, en la expresión la diferencia entre los respectivos componentes del vector objetivo y el vector efectivo. Los pesos de la matriz de conexiones,tal como se expresa en las ecuaciones precedentes, se calculan en base a los componentes de los vectores que representan las pautas de estímulo y de respuesta. De acuerdo con estas ecuaciones, cada componente vectorial de la salida se corresponde con un valor de activación de alguna de las unidades de un vector de entrada. Smolensky (1986) ha denominado esta forma de representación, representación de nivel de unidad. Geométricamente, cada unidad especifica un valor en una dimensión; el vector se expresa por las coordenadas de un punto en un espacio n-dimensional. La base de este espacio son, pues, los componentes de los vectores de estímulo y de respuesta. Para pasar de una base sobre unidades a una base sobre pautas, debe cambiarse la base del espacio mediante alguna transformación algebraica lineal. Las reglas convencionales del algebra de matrices se aplican en este caso. El mismo análisis puede extenderse al caso en que se asocian conjuntos de patrones de estímulo y conjuntos de patrones de respuesta en la categorización. II. MODELOS DE APRENDIZAJE DE CATEGORIZACION BASADO EN INSTANCIAS. 1. El análisis del proceso de categorización: Hipótesis críticas. Tres niveles de descripción son pertinentes para caracterizar la función que determina como se integran los atributos de un concepto bajo un sistema de relaciones: El nivel físico que describe las propiedades de los estímulos que alcanzan los receptores; el nivel simbólico o funcional que especifica la naturaleza de los códigos perceptivos y operaciones que representan las variaciones de nivel físico en representaciones primitivas; el nivel representacional que concierne a la experiencia consciente, el modo en que las representaciones se suceden de acuerdo con alguna relación implícita especificable en términos de una transición semántica. Las relaciones entre códigos físicos constituyendo representaciones primitivas pueden no ser simples ó directas. La evolución ha conformado presumiblemente el sistema perceptivo para identificar los estados del mundo real. De este modo la variación física de los órganos de los sentidos deben corresponderse con las variables psicológicas que especifican acontecimientos y objetos. A su vez, las relaciones que se dán entre representaciones pueden distinguirse de las relaciones que especifican aquellas. En el procesamiento perceptivo, el sistema perceptivo provee descripciones neutrales del mundo. Las propiedades físicas analizables de estas descripciones pueden recuperarse o no a nivel simbólico según el lenguaje que el sistema emplee en esas descripciones. Debe distinguirse a este fin entre propiedades físicamente analizables en una descripción perceptiva y propiedades recuperables a nivel simbólico. Las variaciones físicas de la luminancia son físicamente analizables pero no recuperables como tales; las variaciones de luminancia permiten obtener descripciones de la forma de los objetos. Aquellas variaciones físicas de la luminancia que afectan a la computación de la forma de un objeto no pueden recuperarse como tales en el nivel simbólico; en cambio, a nivel simbólico puede recuperarse la forma computada a partir del análisis de la luminancia cuando el sistema puede distinguir entre objetos por su forma y este atributo puede recuperarse con independencia del objeto que lo presenta. A nivel del sistema perceptivo tiene lugar un proceso de computación que determina la formación de una representación perceptiva de un objeto a partir de variaciones físicas producidas a nivel de los

44 transductores sensoriales. Estas propiedades físicas no recuperables a nivel simbólico puede indirecta-mente recuperarse si el sujeto dispone de una teoría, un lenguaje descriptivo y un instrumental experimental que le permita su descripción. Así pueden distinguirse las propiedades físicas de la señal, del modo en que las señales se configuran y constituyen componentes de objetos, objetos o escenas eventualmente recuperables. Nada se opone en principio a que la descripción perceptiva de un objeto ó escena se produzca enteramente a nivel físico como una entidad inanalizable. Las propiedades físicas de esta descripción son, en este caso, por completo irrecuperables a nivel simbólico. Una escena integrada por una serie de objetos recuperables a nivel simbólico es irrecuperable a nivel representacional si los objetos de que se constituye no son independientemente recuperables a nivel representacional. Es decir, si los objetos como tales no participan en transiciones semánticas independientes de transiciones semánticas que afectan a la escena en cuestión. El debate que enfrenta la teoría de la percepción directa con la teoría de la percepción como un proceso de inferencia tiene por objeto este problema: qué propiedades resultan ser físicamente analizables en una descripción, qué propiedades son recuperables de esta descripción a nivel simbólico, y qué propiedades son recuperables a nivel representacional. Esta es una cuestión enteramente empírica y depende de la estructura del sistema perceptivo y de sus relaciones con el sistema conceptual (cf. Kanizsa, 1985). La arquitectura funcional del sistema afecta a su versatilidad. Un sistema en el que pueden recuperarse atributos de objetos o acontecimientos es más versátil que un sistema en el que las propiedades de un objeto no puedan recuperarse independientemente. Un sistema en el que se recuperan un mayor rango de variaciones físicas, por medio de la discriminación perceptiva, es más versátil que aquel que puede discriminar entre un rango menor. La cuestión de que información se recupera a distintos niveles de descripción es crítica para caracterizar una representación conceptual. Eventualmente, amplificando la señal es posible recuperar información primitivamente no accesible a nivel simbólico. El sistema debe encontrarse organizado de un modo tal que un conjunto de descripciones son inanalizables o primitivas; es por referencia a estas descripciones que puede formar, por composición, cualquier descripción no primitiva. El término de conocimiento expresa la información de que dispone un sistema de procesamiento de información. Este conocimiento es declarativo si se refiere a informa-ción que proviene de la descripción de objetos o acontecimientos; es procedimental, si se refiere a reglas o procedimientos que permiten manipular información disponible en la base de conocimiento declarativo. El conocimiento declarativo se expresa en forma de representaciones conceptuales. Un concepto sirve para describir un aspecto relevante o significativo de la realidad. El conocimiento procedimental se expresa en forma de reglas; una regla proporciona una descripción de un procedimiento que se aplica a conceptos o a relaciones entre conceptos susceptibles de ser tratadas como un concepto unitario. En base al conocimiento declarativo, las descripciones pueden ser de: (1) atributos, que definen rasgos discretos o dimensiones continuas; (2) partes y objetos; (3) escenas; y, (4) acontecimientos. En base al conocimiento procedimental, las relaciones pueden establecerse en dos sentidos. En un sentido ascendente, las relaciones pueden ser entre: (1) variantes físicas, que definen atributos; (2) atributos, que definen partes y objetos; (3) objetos, que definen escenas; y, (4) escenas, que definen acontecimientos. En un sentido descendente, las relaciones pueden ser entre: (1) acontecimientos, definiendo escenas; (2) escenas, que definen objetos; (3) objetos, que definen atributos y partes; (3) atributos, que definen rasgos discretos o dimensiones; y (4) rasgos o dimensiones, que permiten reconocer variantes físicas perceptivas. Esta jerarquía de descripciones implica la existencia de conceptos de distinto nivel

45 y complejidad. Su expresión precisa depende de la formulación de una teoría formal de la percepción. Esta teoría deberá proporcionar una descripción formal de las descripciones primitivas que el sistema perceptivo provee y las funciones que pueden afectar a su composición. Una convención común supone que las descripciones perceptivas se refieren primariamente a objetos. Es una cuestión empírica, sin embargo, determinar qué descripciones son primitivas. 1.1. Núcleo conceptual y procedimiento de identificación. La primera distinción conceptual que permite definir un modelo de categorización es la que distingue entre núcleo conceptual y procedimiento de identificación. La noción de núcleo conceptual denota la estructura de un concepto, el conjunto ordenado de los atributos que constituyen términos de relaciones entre conceptos y que definen su unidad como representación. En tanto especifica los términos de una serie de relaciones, el núcleo conceptual define el sentido de las proposiciones que toman el concepto como predicado. La noción de procedimiento de identificación denota el procedimiento por el que un concepto se asigna como predicado a una entidad (Frege, 1892; Miller y Johnson-Laird, 1976). En tanto especifica cómo asignar un concepto a un hecho de experiencia, el procedimiento de identificación define la referencia de una proposición que tiene por argumento una descripción de aquella entidad. El núcleo incluye aquella información que permite distinguir un concepto en el dominio a que pertenece; el procedimiento de identificación identifica una instancia de un concepto en un contexto; en tanto el contexto incluye indicios, estos indicios restringen la identificación a aquellos atributos que separan miembros de no miembros de un concepto en ese contexto. El núcleo se refiere a una representación conceptual; el procedimiento de identificación se refiere al uso de un concepto para describir el entorno. El núcleo de un concepto proporciona una descripción suficiente del conjunto ordenado de atributos que permite distinguir todas las instancias de un concepto bajo un modelo del mundo; el procedimiento de identificación especifica, bajo la forma de una regla de inferencia, las propiedades reflejadas a nivel del núcleo. El núcleo establece cómo se forma una regla de inferencia a nivel del procedimiento de identificación, o, en los términos, en que lo expresa Frege (1892), el sentido de una proposición determina su referencia. Cada modelo de categorización adopta implícita o explícitamente un modelo del entorno y define un procedimiento de descripción de los objetos de entrada de un algoritmo de generalización. Un algoritmo de generalización se expresa por una regla de decisión que toma como información de entrada una descripción de los estímulos que se someten a clasificación. Un modelo de categorización debe incluir: (a) una interpretación del entorno como un medio regular y definible; (b) un procedimiento de descripción de objetos y sucesos en términos de series ordenadas de atributos; y, (c) una regla de decisión que emplea descripciones de objetos como entradas de reglas de inferencia. La descripción de una serie de objetos o sucesos permite definir el núcleo conceptual de un concepto; la regla de decisión establece el procedimiento de identificación. Los modelos de categorización se identifican por el modo en que describen el núcleo conceptual de una categoría y definen la regla de decisión que hace posible el reconocimiento de las categorías o clases de equivalencia relevantes a la descripción del medio para una especie. Los modelos de escalamiento multidimensional interpretan los objetos como vectores en un espacio vectorial métrico de atributos de propiedades intervalares; el algoritmo de escalamiento establece qué atributos definen dimensiones en ese espacio vectorial,y en términos de qué dimensiones se define un objeto de estímulo. La distribución en el espacio

46 vectorial del conjunto de los estímulos expresa el núcleo conceptual del dominio al que los distintos objetos pertenecen. El procedimiento de identificación se expresa como una regla de decisión asociada a la distribución de los ejemplares en el espacio vectorial de atributos. Es en términos de esta regla de decisión como se expresa un algoritmo de generalización basado en el escalamiento multidimensional. Este método es instrumental en la descripción de la semejanza de los estímulos que se clasifican. El modelo de contraste interpreta un objeto como un vector en un espacio vectorial no métrico de atributos de propiedades ordinales; el algoritmo del modelo de contraste define una función de semejanza a partir del análisis paramétrico de los objetos de estímulo. El modelo de contraste, al igual que un modelo de escalamiento, proporciona una descripción de los ejemplares en un espacio vectorial de semejanza, sin embargo, ningún algoritmo de generalización se ha propuesto que emplee esta descripción como entrada de una regla de decisión. Al igual que estos modelos métricos, los modelos matriciales descansan sobre un análisis de la semejanza. Los algoritmos de generalización desarrollados a partir de estos modelos de representación matricial definen una regla de decisión que se basa en la semejanza de las instancias. 1.2. Hipótesis formal y distribucional del núcleo conceptual. En relación con la estructura del núcleo conceptual, los modelos de categorización se debaten entre dos hipótesis alternativas. La primera de estas alternativas, la hipótesis formal del núcleo supone que la estructura interna de un concepto puede ser descrita en términos de alguna regla lógica que vincula atributos,extraídos en el análisis perceptivo, de los ejemplares miembros del concepto. Una entidad se asigna a un concepto si satisface lo predicado por la regla de inferencia que define el concepto. La segunda alternativa, la hipótesis distribucional supone que la estructura interna de un concepto debe describirse en términos de una distribución estocástica de propiedades en un espacio definido algebraicamente. Una entidad se asigna a un concepto si satisface una regla de decisión que toma por argumento la descripción del ejemplar en ese espacio de rasgos. A pesar de sus distintos postulados teóricos, los modelos formulados a partir de estas hipótesis pueden ser, eventualmente, conductualmente equivalentes. Adoptar una hipótesis formal del núcleo conceptual no supone ningún compromiso con un procedimiento particular de descripción de los ejemplares miembros de un concepto; cualquier descripción de una entidad en términos de atributos discretos y discriminables puede ser eventualmente válida. Los atributos discriminados se tratan como argumentos de relaciones representadas por reglas de inferencia lógica: los objetos que satisfacen las relaciones expresadas por la regla que define al concepto se clasifican como miembros del concepto. La adopción de la hipótesis formal del núcleo implica rechazar el postulado de correspondencia: la categorización no es función de la identificación del estímulo, de ahí que la estructura interna de un concepto sea independiente de la semejanza de las entidades que se someten a clasificación. Una regla capta la estructura correlacional de los atributos de estímulo indirectamente; los atributos correlacionados pueden aparecer integrados en relaciones expresadas por las reglas. La semejanza de los miembros de un concepto aumenta la probabilidad de que los atributos compartidos por los ejemplares se empleen, como argumentos de relaciones, como criterios de clasificación.Una regla lógica permite representar relaciones no lineales entre atributos de estímulo; esta propiedad incrementa el poder computacional de un modelo basado en reglas formales. El término de modelo clásico representa los modelos de categorización basados en reglas, los modelos de categorización basados en comprobación de hipótesis (Bruner, Goodnow y Austin, 1956; Cauzinille, 1975).Los modelos de inducción de reglas basados en instancias y los modelos de aprendizaje de categorización basado en

47 explicaciones son versiones y extensiones, respectivamente, del modelo clásico de categorización. El modelo clásico de categorización y, por extensión, los modelos de categorización basados en reglas se han tratado de poner en cuestión por su dificultad para explicar la indefinición de límites de un concepto, la indefinición de membrecía conceptual y el problema de la indefinición jerárquica. Como se analiza en su lugar estos fenómenos no ponen en cuestión un modelo de categorización basado en reglas formales. Sin embargo, la adopción de una hipótesis formal del núcleo conceptual enfrenta algunas dificultades desde una perspectiva psicológica. Un concepto, definido en términos de una función booleana entre atributos proporcionados por una descripción independiente de las entidades que se clasifican es un formalismo en exceso poderoso para constituir un modelo plausible de la categorización humana. Este poder se expresa en: (a) la naturaleza sintáctica de una regla formal; una regla es insensible al contenido semántico del concepto que expresa y al contenido semántico del dominio al que el nuevo concepto pertenece: cualquier combinación sintáctica de atributos es teóricamente plausible independientemente de su valor diagnóstico y de su relación con el conocimiento previo; a lo sumo, una regla formal es sensible al orden de presentación de la información; (b) la equivalencia conductual de un número indefinido de reglas que impide formular predicciones explícitas; corolario de esta propiedad formal es que los sujetos construyan reglas idiosincráticas conductualmente equivalentes bajo ciertos parámetros; y, (c) la independencia de una regla formal de limitaciones de capacidad de un sistema de procesamiento de información; los modelos de categorización basados en reglas suponen una capacidad ilimitada de discriminación, de combinación y de retención de información cuando se interpretan como modelos psicológicos de categorización. Sin embargo, la formalización del núcleo conceptual en términos de una regla lógica presenta una propiedad formal interesante: las reglas lógicas son modulares, su complicación y alteración no modifica el estatuto de las reglas previas. Los modelos de categorización que adoptan la hipótesis distribucional representan una concepción alternativa a los modelos de base formal; los problemas que enfrenta el modelo clásico de categorización y sus propiedades tienen tambien en los modelos distribucionales su alternativa. ! III. EL MODELO CLASICO DE CATEGORIZACION ! 1. El modelo clásico de categorización y la hipótesis formal. ! El término de modelo clásico se refiere a los modelos que interpretan el proceso de categorización como un proceso de comprobación de hipótesis. Una hipótesis es una regla que se supone justifica la asignación de una entidad a un concepto (Cauzinille, 1975). La formación de un concepto se identifica con un proceso de solución de problemas; la solución del problema se obtiene determinando los atributos de estímulo y la relación que satisfacen los miembros de un concepto. El término hipótesis designa "una posible solución o una resolución "supuesta" (...) que el sujeto comprueba, es decir, que verifica una posible respuesta" (Dominowski, 1974, p. 261). El término de estrategia se refiere al proceso que el sujeto sigue para obtener la solución. El modelo clásico explica la formación de conceptos como resultado de un proceso secuencial por el que se construye una regla de inferencia que permite reconocer los miembros del concepto en cuestión. La formación de esta regla deriva de la verificación secuencial de

48 hipótesis que representan relaciones entre atributos extraídos en el análisis perceptivo de los estímulos. El modelo clásico no adopta ningún compromiso sobre la forma última de estas reglas. Cualquier función booleana entre atributos basta para caracterizar cualquier asignación conceptual dada una descripción correcta de los ejemplares que se clasifican. Los miembros de un concepto no necesitan tener todos y cada uno de los atributos y relaciones explícitos en la regla que define el concepto, sino sólo alguna combinación crítica de propiedades, a saber, aquella que establece relaciones no incompatibles de atributos tal como aquellas que la regla expresa. Si la regla establece que pertenece al concepto el ejemplar que contenga un cuadrado azul o un triángulo verde o rojo, un ejemplar que se clasifica no debe necesariamente tener un cuadrado azul, un triángulo rojo y un triángulo verde, sino sólo alguna combinación compatible con esta descripción. Por ejemplo, cuadrado rojo, triángulo azul, círculo azul son descripciones no compatibles y triangulo verde, cuadrado azul, y, triángulo verde y triángulo rojo son descripciones compatibles. La hipótesis crítica del modelo clásico es que existe alguna descripción sumaria del concepto natural susceptible de expresarse en términos de una regla formal. ! 1.1. Indefinición de límites. ! Uno de los fenómenos mas consistentes en la categorización humana es el fenómeno de indefinición de límites. El fenómeno se caracteriza por la imposibilidad de determinar a priori la extensión de un concepto dada su intensión o comprensión lógica (cf. Labov, 1973; Lakoff, 1973, 1982; Andersen, 1974). Este fenómeno se caracteriza empíricamente presentando a los sujetos una serie de objetos cuyos rasgos varían continuamente en un cierto rango. La partición de este conjunto en categorías no es consistente, ni individual ni colectivamente; dependiendo del contexto en que se somete a clasificación, un sujeto asigna el mismo objeto a dos conceptos diferentes en momentos distintos de tiempo (McCloskey y Glucksberg, 1978; Roth y Mervis, 1983). La justificación del fenómeno se ha centrado en el análisis del diferente repertorio de representaciones conceptuales de que dispone cada sujeto (Andersen, 1974), en las diferentes pautas de aceptabilidad de las descripciones según el contexto (Landau, 1982), en el conjunto de representaciones que puede ser diferente en distintos momentos en el tiempo (Jacoby, 1983; Tulving, 1976), en el repertorio de términos proporcionados en el momento de la clasificación (Brownell y Caramazza, 1978), y, en el papel de la distribución. Fried y Holyoak (1984) explica el fenómeno como un efecto de densidad de distribución. La asignación de un ejemplar a un concepto depende de la variabilidad y densidad de la distribuciones de las categorías a las que el nuevo estímulo puede pertenecer. Dado que una representación de la distribución se forma a medida que se presentan los ejemplares, el orden de presentación puede afectar a la variabilidad inferida de la distribución. Dependiendo del orden en que se presentan los ejemplares pueden obtenerse clasificaciones alternativas del mismo ejemplar. El modelo de densidad categorial de Fried y Holyoak (1984) predice que, en el caso de categorías equiprobables un ejemplar se asigna a la categoría de menor densidad o mayor variabilidad. Una explicación del fenómeno recurriendo a la lógica borrosa de Zadeh (1982) ha sido criticada empíricamente (Roth y Mervis, 1983). El fenómeno de indefinición de límites se aporta como evidencia a favor de una hipótesis distribucional del núcleo conceptual. Esta interpretación asume, sin embargo, que el modelo clásico de categorización predice que cada uno de los miembros de una categoría incluye todos

49 y cada uno de los atributos que integran el núcleo conceptual. El núcleo de un concepto, sin embargo, puede venir definido por una regla lógica y sus ejemplares satisfacer sólo algún subconjunto de los atributos representados (Sáinz, 1988). Esta interpretación alternativa resta valor a este fenómeno como evidencia a favor de una hipótesis distribucional. Que los ejemplares se asignen en función de la distribución inferida de las categorías tampoco es evidencia concluyente: "los conceptos de más baja variabilidad son también los que presentan una mayor semejanza intracategorial y aceptan, por tanto, un número mayor de descripciones alternativas igualmente plausibles, lo que determina que sean menos restrictivas que las categorías de variabilidad más alta. Con vistas a optimizar el rendimiento de la clasificación, el sujeto acepta siempre la categoría más restrictiva." (Sáinz, 1985b, p. 89). Evidencia a favor de esta interpretación ha sido aportada por Medin, Dewey y Murphy (1983): la variabilidad de las categorías facilita la abstracción de las dimensiones relevantes a la clasificación. ! 1.2. Indefinición de membrecía. ! Los miembros de un concepto no son igualmente representativos del concepto en que se clasifican. Este fenómeno, conocido bajo el término de tipicidad, ha servido para definir una de las propiedades de más difícil justificación de la categorización humana: el hecho de que los miembros de un concepto no incluyan toda la información semántica del núcleo del concepto en que se clasifican. El fenómeno de tipicidad implica que no es posible una definición intensional de un concepto dado uno de sus miembros; definir su intensión implica definir su extensión. El grado de membrecía no es, además, estable. Un miembro es más o menos típico según el contexto en que se presenta (Medin y Shoben, 1988). El efecto de tipicidad se ha aportado como evidencia en contra de una hipótesis formal y a favor de una hipótesis distribucional del núcleo conceptual. La variación que se observa entre los miembros de un concepto no sería de acuerdo a esta última hipótesis más que una manifestación de la naturaleza probabilística de la representación conceptual. El problema con una representación probabilística de atributos es que no es posible definir un criterio para determinar la estructura de una categoría, su cohesión como unidad de representación (Medin, 1983). (Evidencia a favor del efecto de tipicidad se presenta en 3.1. Efectos de estructura de la partición: 3.1.1. Efecto de prototipo). La interpretación del fenómeno de tipicidad o de prototipo como una evidencia a favor de la hipótesis distribucional ha sido puesta en cuestión empíricamente. Efectos de tipicidad se obtienen en casos en que los ejemplares miembros de un concepto expresan una regla. Landau (1982) obtuvo un efecto de tipicidad utilizando como estímulos términos de parentesco, en torno a los que existe acuerdo de que se definen formalmente (Miller y Johnson-Laird, 1976). Bourne (1982) obtuvo un efecto de tipicidad a pesar de emplear conceptos artificiales formalmente definidos. Landau (1982) señala que la identificación de un estímulo como miembro de un concepto está sujeta al contexto, de un modo tal que el reconocimiento de un ejemplar no se rige estrictamente por constricciones lógicas y semánticas representadas en el núcleo conceptual. El efecto de tipicidad puede, en parte, interpretarse como un efecto de orden de presentación (cf. 3.1. Efectos de estructura de la partición: 3.1.3. Efecto de orden). El efecto de tipicidad tendría valor como argumento en contra de una hipótesis formal del núcleo si existiera evidencia independiente que asegurara que la tipicidad refleja la forma de la representación. Chumbley (1986) ha demostrado que el efecto de tipicidad no refleja la

50 estructura de la memoria y que es independiente de variables que si se asocian con la estructura representacional de la memoria. ! 1.3. Indefinición jerárquica. ! De acuerdo con la lógica formal los conceptos se organizan en taxonomías y partonomías conceptuales. Estas taxonomías y partonomías lógicas definen una estructura jerárquica en términos de la cual, los conceptos de un nivel comparten con los de un nivel superior todos sus predicados. Expresado como un principio lógico, un concepto gana en intensión lo que pierde en extensión y al contrario. Si el lenguaje natural expresa eficientemente la estructura del sistema conceptual, un modelo de categorización como el modelo clásico que adopta la hipótesis formal del núcleo conceptual debe efectuar la predicción siguiente: la verificación de un enunciado que tiene por argumento un concepto y por predicado un concepto próximo en la jerarquía debe ser más rápida y eficiente que en el caso en que el predicado se refiere a un concepto más distante. El fenómeno de indefinición jerárquica tiene lugar cuando esta predicción no se verifica (McCloskey, 1980; Roth y Mervis, 1983). El fenómeno de indefinición jerárquica se ha analizado como evidencia en contra del modelo clásico de categorización. Keil (1980) ha tratado de restringir esta predicción al caso en que los enunciados se refieren a conceptos ontológicos. Carey (1983) y Gerard y Mandler (1983) muestran que tampoco en este caso existe evidencia de que los conceptos se organizan de forma jerárquica de un modo tal que se satisfaga la hipótesis atribuida al modelo clásico. El fenómeno parece ser más complejo de lo normalmente aceptado por quienes argumentan a favor o en contra de este modelo. En primer lugar, existe un problema de medida: si la latencia de respuesta o la tasa de errores revela la estructura jerárquica del sistema conceptual y si el lenguaje es el vehículo apropiado. En segundo lugar, si las relaciones taxonómicas y partonómicas incluyen cualquier tipo de relación jerárquica, si estas relaciones son independientes entre sí e independientes de otras relaciones heterárquicas, y, en tercer lugar, si las relaciones entre conceptos pueden modelizarse en términos lógicos y la lógica es el procedimiento más adecuado para su descripción. Osherson y Smith (1981) han sugerido que la estructura de los conceptos en niveles categoriales pueden establecerse a posteriori, una vez que los conceptos comprometidos en la jerarquía han sido aprendidos. Si el sistema conceptual se trata como un sistema dinámico, una jerarquía conceptual sería un tipo de transición semántica. Una transición semántica puede venir expresado por una relación semántica entre términos léxicos (cf. Chaffin y Herrmann, 1984). Estos problemas revelan la dificultad de tratar este fenómeno como evidencia a favor de una hipótesis distribucional del núcleo conceptual. !IV. MODELOS DE CATEGORIZACION. I. LOS MODELOS PROBABILISTICOS Y LA HIPOTESIS DISTRIBUCIONAL. Propuestos como alternativa al modelo clásico, los modelos probabilísticos defienden la hipótesis distribucional del núcleo conceptual. La hipótesis distribucional supone que la estructura interna de una categoría puede describirse en términos de una distribución estocástica de atributos en un espacio geométrico multidimensional. La regla de decisión de estos modelos viene definida por una expresión que representa la semejanza de los ejemplares en ese espacio de rasgos. El

51 concepto se define de acuerdo con esta regla de decisión a partir de la información representada de los ejemplares miembros. La hipótesis distribucional se expresa en los modelos probabilísticos en términos de un prototipo cuyos rasgos o dimensiones reflejan la variabilidad inferida de los miembros que permite clasificar (Hampton, 1979; McCloskey y Glucksberg, 1979; Rosch y Mervis, 1975) o, en términos de alguna descripción de los ejemplares, los denominados modelos de ejemplar (Brooks, 1978; Medin y Schaffer, 1978; Mervis, 1980; Reber y Allen, 1978; Rosch, 1978; Smith y Medin, 1981). En los modelos probabilísticos una instancia se asigna a un concepto si posee un número crítico o una suma ponderada de propiedades de las que el prototipo del concepto incluye o se asemeja a los miembros representados (cf. Smith y Medin, 1981). Que el sistema cognitivo registre o no miembros específicos del concepto depende de la partición del conjunto que se somete a clasificación. En tanto una cierta partición requiere registrar todos los ejemplares presentados, otras particiones no requieren registrar más que un subconjunto o una cierta combinación de atributos (cf. 1.1.4. Propiedades de respuesta. Noción de función). La estructura de la partición depende de la estructura interna de las categorías. Aunque los modelos probabilísticos clásicos han fracasado a la hora de justificar el proceso de categorización (Martin y Caramazza, 1980; Sáinz, 1985a; 1988) han aportado al estudio del proceso nueva evidencia experimental. El estudio y explicación de esta evidencia es una aportación crítica a los análisis más elaborados del proceso de categorización. 1. Efectos de estructura de la partición. En una tarea de clasificación, un sujeto puede proceder de dos maneras distintas: en un método de libre clasificación, el sujeto divide un conjunto de ejemplares de acuerdo con un criterio que el mismo establece; en un método de clasificación constreñida, el sujeto divide una serie de ejemplares según la información que recibe del experimentador y la realimentación que recibe tras su actuación. Las categorías en que divide el conjunto de los ejemplares definen una partición. Estos distintos métodos afectan a la estructura de la partición. Los fenómenos detectados en relación con la estructura de la partición son: (1) el efecto de prototipo; (2) el efecto de ejemplar; y, (3) el efecto de orden. 1.1. Efecto de prototipo. El efecto de prototipo es uno de los fenómenos más estables y mejor contrastados en la literatura empírica sobre el proceso de categorización. En el que puede ser el estudio más clásico sobre este fenómeno, Posner y Keele (1968) presentan a estudio, a sus sujetos, nubes de puntos. Estas pautas se construían a partir de cuatro prototipos, cuatro nubes de puntos que servían de referencia. Los sujetos tenían que aprender a clasificar este conjunto de pautas en tres categorías. Después de alcanzar un cierto nivel de ejecución sobre el material de estímulo, Posner y Keele pidieron a sus sujetos que clasificaran un nuevo conjunto de ejemplares. En este nuevo conjunto presentaron como ejemplares las nubes de puntos de referencia o prototipos, que no se habían presentado previamente, pautas previas, nuevas pautas construidas de la misma forma que las previamente presentadas en la etapa de estudio, y pautas de puntos generadas al azar. Los resultados muestran un efecto de tendencia central o de prototipo. Los sujetos reconocen el prototipo de un concepto mejor,incluso, que pautas previamente presentadas, pautas más próximas al prototipo mejor que pautas más lejanas, y pautas previas mejor que nuevas pautas. (cf. Hintzman, 1986; Homa y Vosburgh, 1976; Homa y Cultice, 1984; Reed, 1972). 1.2. Efecto de ejemplar.

52 Depende de la estructura de la partición, qué información se codifica de un conjunto de ejemplares. El efecto de prototipo y el efecto de ejemplar son un resultado del modo en que un conjunto de entidades se divide en una serie dada de categorías. El trabajo de Medin y Schaffer (1978) fué el primero en mostrar que se registra información específica de los ejemplares y que así se requiere para efectuar una clasificación. La estructura de las pautas presentadas por Medin y Schaffer en su primer experimento variaba en cuatro dimensiones binarias, tamaño, forma, color y posición, de acuerdo con la estructura que se presenta en la Figura 12. Estas pautas se clasificaban en dos categorías, A y B. 1.

1 1 1 1 A

1.

0 1 1 1 A

2.

1 0 1 0 A

2.

1 1 0 1 A

3.

0 1 0 1 A

3.

1 1 1 0 A

4.

0 0 0 0 B

4.

1 0 0 0 B

6.

1 0 1 1 B

5.

0 0 1 0 B

5.

0 1 0 0 B

6.

0 0 0 1 B

Pautas de estudio

Pautas de transferencia

Figura 12. Pautas presentadas en el primer experimento de Medin y Schaffer (1978). Tras la etapa de estudio, en que presentaron las pautas que se muestran en la columna izquierda de la Figura 12, Medin y Schaffer sometieron a clasificación las pautas que se presentan en la columna derecha. Con esta nueva serie de ejemplares, Medin y Schaffer muestran un efecto específico de los ejemplares previos en la clasificación de los nuevos tal y como predice la regla de decisión del modelo de generalización que proponen (cf. 5.3. Modelo de contexto generalizado). Construyendo una matriz binaria de comparación, fácilmente se comprueba que esta partición requiere codificar información específica de los ejemplares. Este es el resultado que Medin y Schaffer (1978) obtienen. El estudio de Elio y Anderson (1981) dá lugar a resultados que combinan los efectos de prototipo y de ejemplar. Elio y Anderson presentaron a sus sujetos dieciseis instancias definidas por cinco dimensiones con cuatro posibles valores cada una. El sujeto debía clasificar este conjunto de pautas en dos categorías. Los sujetos se dividían en la etapa de estudio de acuerdo con dos condiciones experimentales; en la condición de generalización, se presentaban a los sujetos pautas de estímulo que compartían ciertos atributos de una forma tal que llevaban al sujeto a una cierta generalización; en la condición de control, no era posible generalizar. Las pautas presentadas en la etapa de transferencia eran idénticas en ambas condiciones experimentales. En la condición de generalización, sin embargo, las pautas de estudio y las pautas de transferencia compartían de forma consistente tres atributos, al contrario que en la condición de control, en donde pautas de estudio y de transferencia compartían tres atributos pero los atributos compartidos variaban entre pautas. Elio y Anderson encontraron una mejor ejecución en la condición de generalización, lo que favorece un modelo basado en la abstracción de regularidades, un proceso del mismo tipo que el que proponen Posner y Keele (1968) para explicar el efecto de prototipo, y, un efecto de ejemplar. En la condición de generalización en que se mantenía constante un cierto número de

53 atributos compartidos, aún se encontraba un efecto de semejanza a estímulos previos en la etapa de transferencia. Una observación que se explica mejor por un modelo que supone que el sujeto no lleva a cabo ningún proceso de abstracción y que se limita a comparar las pautas de prueba a pautas ya registradas en la memoria. 1.3. Efecto de orden. A pesar de su consistencia, el efecto de orden es uno de los efectos más elusivos en la investigación experimental del proceso de categorización. La influencia de esta variable, se neutraliza, a menudo, presentando aleatoriamente los estímulos e intercambiando los atributos de estímulo que se asignan a los valores de las dimensiones que definen la estructura abstracta de la partición. El efecto de orden se revela en los sesgos con que los sujetos analizan el material, atendiendo a alguno de los atributos de estímulo más que a otros, y en los efectos del orden de presentación del material en el aprendizaje. En un estudio en el que analizan el efecto de orden en el proceso de categorización, Elio y Anderson (1984) demuestran que el orden en que se presenta la información tiene un efecto dramático en el aprendizaje. Para estudiar este efecto, Elio y Anderson presentan a sus sujetos cuatro muestras sucesivas de una serie de estímulos en la que se varía la tipicidad y frecuencia de presentación de los distintos tipos de miembros conjuntamente. En la condición de alta variabilidad, cada muestra era representativa del modo en que la categoría variaba y de la frecuencia con que aparecía cada variante. En la condición de baja variabilidad, la primera muestra sólo incluía los ejemplares más frecuentes de la categoría. En las siguientes muestras se introducían paulatinamente nuevas variantes de un modo tal que la varianza del conjunto aumentaba. Al término del experimento todos los sujetos habían visto los mismos ejemplares en un orden distinto.Los resultados muestran que la transferencia era mejor en la condición de baja variabilidad que en la condición de alta variabilidad. Cuando los sujetos eran inducidos a seguir una estrategia analítica para aprender el material, el aprendizaje era mejor en la condición de alta variabilidad. Estos resultados refuerzan un efecto de orden de presentación hallado antes por Kline (1983). Una clara demostración del efecto de orden de presentación en el reconocimiento y en el aprendizaje ha sido proporcionada por Medin (1990) en un estudio cuyos datos no han sido publicados. Medin construyó, primero, una serie de estímulos a partir de cuatro dimensiones binarias. Esta serie de estímulos se presentó en dos órdenes distintos a un grupo de sujetos. En la condición de cambio mínimo un sujeto recibía la serie ordenada de tal forma que cada ejemplar precedía al ejemplar más próximo, aquel que difería en un número menor de dimensiones. En la condición de cambio máximo un sujeto recibía la misma serie ordenada de tal forma que cada ejemplar precedía al ejemplar mas distante, aquel que se distinguía en un número mayor de dimensiones. Los resultados de tres experimentos con el mismo diseño básico fueron contundentes. La ejecución en una tarea de reconocimiento era mejor en la condición de cambio mínimo que en la condición de cambio máximo; los sujetos, de forma espontánea, generalizaban la información proporcionada por los estímulos resultando en un mejor reconocimiento de los ejemplares. La literatura empírica sobre los sesgos debidos al orden de presentación en el análisis de los estímulos es más amplia y compleja. Se ha señalado que los sujetos tienen hipótesis previas acerca de dónde hallar ciertas regularidades en los ejemplares e incluso acerca de la distribución (Fried y Holyoak, 1984; Flanagan, Fried y Holyoak, 1986). Medin, Altom, Edelson y Freko (1982) han señalado que los sujetos tienen prejuicios acerca de que atributos serán

54 más informativos en una tarea de clasificación. Garner (1983) se ha referido a este fenómeno bajo el concepto de asimetrías de estímulo, asimetrías de respuesta y asimetrías de procesamiento (cf. Sáinz, 1985b, 1989). Aunque estos sesgos se han interpretado como un efecto de la atención, estos sesgos pueden estar expresando la intervención de la memoria en la categorización. 2. Efectos de estructura intracategorial. Al definir una partición, se define una serie de conceptos que difieren en su estructura según la estructura de las categorías o clases que representan. Tres son los efectos que se relacionan con la estructura interna de un concepto: (1) los efectos de tamaño y de tasa base; (2) el efecto de frecuencia; y, (3) el efecto de propiedades correlacionadas. 2.1. Efectos de tamaño y de tasa base. El tamaño de una categoría se define como el número de distintos miembros que tiene una categoría. Esta definición implica determinar si reconocer nuevas instancias exige o no codificar nueva información y si la que se codifica es o no redundante respecto de la ya codificada. El tamaño de una categoría afecta a: (1) el aprendizaje de clasificación, y, (2) la transferencia de información en el reconocimiento. En la clasificación, los miembros de categorías más extensas se clasifican mejor que los miembros de categorías de menor extensión; a su vez, los miembros de categorías menos extensas tienden a clasificarse erróneamente en las de mayor extensión. En la transferencia, la tasa de reconocimiento aumenta cuando aumenta el número de ejemplares en la etapa de estudio o entrenamiento (cf. Homa, Cross, Cornell, Goldman y Schwartz, 1973; Homa, Sterling y Trepel, 1981; Homa y Vosburgh, 1976). El primero de estos efectos se conoce bajo el término de efecto de tasa base; al segundo se le conoce como efecto de longitud de lista o efecto de tamaño. Ambos efectos, sin embargo, resultan de manipular el tamaño de una categoría en un contexto experimental. El efecto de tasa base se interpreta como un sesgo hacia las categorías más extensas; el efecto de tamaño se analiza como un sesgo hacia la categoría más probable en el aprendizaje y en la transferencia. En tanto el efecto de tasa base subraya que el número de falsas alarmas se incrementa con los miembros de categorías de menor extensión, el efecto de tamaño muestra que el número de miembros de una categoría afecta a la eficacia con que se reconocen nuevos ejemplares. Desde un punto de vista empírico ambos efectos pueden discriminarse: el efecto de tasa base se pone en evidencia cuando las categorías de una partición difieren en tamaño o extensión; el efecto de tamaño se expresa en que el reconocimiento es mejor cuando se incrementa el número de ejemplares de las categorías de una partición. Ambos efectos subrayan que el sujeto es sensible a la probabilidad de un concepto en el aprendizaje y en la transferencia. En una investigación en la que tratan de analizar el efecto del tamaño de una categoría en la clasificación de un ejemplar, Homa, Burruel y Field (1987) encuentran que el número de instancias diferentes afecta en la etapa de transferencia al reconocimiento de nuevos ejemplares. Dos explicaciones alternativas se han ofrecido del efecto de tamaño en el reconocimiento de nuevos ejemplares. De acuerdo con Homa (Homa, Burruel y Field, 1987) el número de distintas instancias afecta al reconocimiento a través de su efecto sobre la información registrada del concepto; según una tesis alternativa el tamaño de una categoría incide únicamente en la etapa de respuesta. Homa y sus colaboradores han aportado evidencia a favor de la primera explicación. La aportación de Liu (1985) permite matizar sus resultados al ofrecer alguna evidencia a favor de la segunda.

55 Liu interpreta el tamaño de una categoría como el conjunto de reglas de producción que un concepto requiere formar. Esta definición es correlativa a la de Homa (1983); el número de instancias distintas que se presenta incrementa el número o complejidad de las reglas que permiten su clasificación en el conjunto. Definiendo un concepto en términos de un sistema de reglas de producción, Liu (1985) encuentra que el tamaño de una categoría tiene un efecto en la categorización si las reglas de producción que permiten adoptar una decisión no son compatibles. Tomando como variable dependiente el tiempo de categorización, Liu demuestra que el tamaño del conjunto no siempre tiene un efecto en una tarea de clasificación, dependiendo de que efectivamente lo tenga de si las reglas de decisión del concepto son o no compatibles, lo que depende de la estructura de la categoría. Homa, Sterling y Trepel (1981) enseñaron a los sujetos a clasificar pautas miembros de categorías de 5, 10 y 20 ejemplares. Tras el aprendizaje, los sujetos recibieron en la etapa de transferencia estímulos que eran distorsiones de las pautas en que se habían entrenado. La transferencia a estos estímulos se reducía cuando aumentaba el nivel de distorsión y aumentaba cuando aumentaba el tamaño de la categoría. El efecto del nivel de distorsión era menor a medida que aumentaba el tamaño de la categoría. Homa, Sterling y Trepel interpretan este efecto como indicando que cuando el tamaño de la categoría aumenta los miembros registrados de la categoría tienen un papel cada vez mas reducido en la clasificación y una representación abstracta como el prototipo un papel cada vez mas significativo. Sometiendo a prueba la hipótesis de que al efecto de tamaño le subyace un factor de respuesta, Homa, Burruel y Field (1987) manipularon el tamaño de la categoría bajo dos tipos distintos de instrucciones. En la condición liberal, los sujetos eran instruidos a incluir en una categoría resto aquellos ejemplares de la etapa de transferencia que no podían asignarse claramente a una de las categorías previamente aprendidas; en la condición conservadora, los sujetos eran instruidos a evitar el uso de una categoría resto. Bajo estas condiciones se trataba de poner a prueba la hipótesis que asocia el efecto de tamaño a una demanda de respuesta. Homa, Burruel y Field (1987) encuentran un efecto de tamaño de la categoría en estas dos condiciones experimentales idéntico e independiente de las instrucciones. La manipulación de las instrucciones afectaba a la clasificación de los nuevos estímulos pero su efecto era aditivo sobre el efecto de tamaño de la categoría. El efecto de tamaño es, además, independiente de la frecuencia de la categoría.Homa señala que sus resultados discuten la influencia de las instrucciones sobre la determinación del límite de una categoría; la distorsión de los estímulos que afecta a la facilidad con que un estímulo se incluye en alguna de las categorías alternativas tiene un efecto independiente de las instrucciones. Esto invalida la hipótesis que atribuye a cambios en la interpretación de las instrucciones el fenómeno de la indefinición de límites de un concepto. 2.2. Efecto de frecuencia. La primera condición que debe satisfacerse para estudiar el efecto de frecuencia de categoría en el proceso de categorización es que el sujeto sea efectivamente sensible a la manipulación de la variable en un cierto contexto experimental. Esta sensibilidad a la frecuencia puede ser objetiva o no según si las estimaciones del sujeto reproducen la frecuencia efectiva de aparición de la información. Cuando el sujeto muestra sensibilidad a la frecuencia pero su efecto varía en función de la distribución de los atributos entre categorías en una partición se habla de un efecto de tasa base. El primer problema es determinar si el sujeto es sensible a la frecuencia de presentación de información y bajo qué condiciones sus representaciones reflejan la frecuencia objetiva.

56 Barsalou y Ross (1986), en un estudio en que comparan el procesamiento estratégico y el procesamiento automático, encuentran que los sujetos son sensibles a la frecuencia objetiva de presentación de miembros de categorías supraordenadas -efecto de frecuencia de supraordenadas- pero no a la frecuencia de presentación de atributos de estímulo, al menos en la medida en que esta sensibilidad se refleja en las estimaciones de frecuencia proporcionadas por los sujetos. La sensibilidad a la frecuencia de atributos parecía ser de naturaleza estratégica, al contrario que la sensibilidad a la frecuencia de categorías supraordenadas que demostró ser automática; sin embargo, la sensibilidad a la frecuencia dependía de qué información había sido ya registrada. El procesamiento estratégico afecta a la sensibilidad a la frecuencia, reduciendo la sensibilidad, cuando la frecuencia objetiva entra en conflicto con representaciones ya establecidas. Basándose en un estudio de Gluck y Bower (1988) en el que los sujetos muestran ser sensibles a la frecuencia objetiva de presentación de los atributos de estímulo, Anderson (1990) señala que la sensibilidad a la frecuencia objetiva depende de que se presente un gran número de instancias y de que una particular configuración de atributos se asocie sólo probabilísticamente con una categoría. La misma investigación de Gluck y Bower (1988) muestra que los sujetos estiman la probabilidad de un atributo a partir de una categoría, un sesgo hacia la validez categorial, mejor que al contrario, estimar la probabilidad de una categoría dado un indicio, que expresaría un sesgo hacia la validez de indicación. El papel de la frecuencia en el aprendizaje y en la transferencia de información se encuentra bien documentada (Fried y Holyoak, 1984; Flanagan, Fried y Holyoak, 1986). En una investigación en la que analiza el efecto conjunto de la semejanza y la frecuencia en el aprendizaje, Nosofsky (1988) encuentra que los sujetos son más eficaces en la clasificación de ejemplares de alta frecuencia por el efecto que la frecuencia tiene en su codificación. Este efecto se extiende a aquellos ejemplares semejantes a los de alta frecuencia independientemente de su frecuencia objetiva. Manipulando la frecuencia de presentación de una categoría pueden aislarse los efectos de tamaño y de tasa base. Tratando de aislar el efecto de tamaño del efecto de frecuencia Homa, Burruel y Field (1987) manipularon la frecuencia de presentación de los estímulos, encontrando que la frecuencia afectaba a la codificación de información específica pero no a la formación de un concepto de estructura no bien definida. Sólo los ejemplares previamente presentados se veían afectados por la manipulación de la frecuencia; la manipulación experimental de esta variable no tenía ningún efecto en la etapa transferencia una vez el sujeto había aprendido el material. Los efectos de tamaño de categoría y frecuencia ponen en cuestión aquellos modelos de categorización que asumen que los nuevos ejemplares se tratan de la misma forma que ejemplares ya registrados. 2.3. Efecto de propiedades correlacionadas. Un fenómeno relacionado con la estructura interna de una categoría es el efecto que tiene la presencia de atributos correlacionados en el aprendizaje. Este efecto se detecta en la sensibilidad de los sujetos a las relaciones contingentes que afectan a los atributos, en su habilidad para percibir regularidades que afectan a la construcción de reglas de decisión orientadas a la clasificación de los ejemplares. Este efecto representa la disposición del sistema cognitivo a la información configural de los estímulos más que a atributos independientes (Medin, Altom, Edelson y Freko, 1982). Esta disposición se refleja en cómo se codifica información; la información se integra en una forma tal que preserva las relaciones

57 formadas en la codificación (Whitlow, Smith y Medin, 1982). En el primer estudio que demuestra que la existencia de atributos correlacionados tiene un efecto sobre el aprendizaje, los sujetos tenían que aprender a clasificar en una o dos enfermedades ficticias una serie de casos hipotéticos, algunos de cuyos atributos estaban correlacionados y otros eran independientes. La estructura de la categoría empleada en el tercer experimento, representativa del procedimiento utilizado, se presenta en la Figura 13. La descripción de cada caso envolvía cinco tipos de síntomas distintos con dos valores: (a) tensión arterial, alta o baja, (b) condición de la piel, decoloración o irritación, (c) condición muscular, rigidez o flacidez muscular, (d) condición de los ojos, inflamación o depresión ocular, y, (d) peso corporal, pérdida o ganancia de peso. Después de estudiar los casos presentados en la Figura 13 como portadores de burlosis, los sujetos recibían, en la etapa de transferencia, los casos de la Tabla 3. Como se observa en la Figura 13, los síntomas Condición de los ojos y Peso corporal están correlacionados, en tanto el resto varía independientemente.

58 SINTOMAS DE BURLOSIS Caso

Tensión Arterial

Condición de la piel

Condición Muscular

Condición de los ojos

Peso corporal

1.R.L.

0

1

0

1

1

2. L.F.

1

1

0

1

1

3. J.J.

0

0

1

1

1

4. R.M.

1

0

1

1

1

5. A.M.

1

1

1

1

1

6. J.S.

1

1

1

1

1

7. S.T.

1

0

0

0

0

8. S.E.

0

1

1

0

0

9. E.M.

1

1

1

0

0

Figura 13. Casos del tercer experimento de Medin, Altom, Edelson y Freko (1982). La tarea de los sujetos en la etapa de transferencia era elegir entre los casos a o b cuál era más probable que padeciera también de burlosis. Las proporciones de elecciones de la alternativa a se presentan en la Tabla 3. Los pares críticos en la etapa de transferencia son los pares 1 a 4 y 5 a 9. En general la presencia de unos representa síntomas más diagnósticos de burlosis que la presencia de ceros. En los casos 1 a 0 los casos de la columna b contienen mas unos. En los casos 5 a 9, la columna a, sin embargo, tiene dos unos o dos ceros en la cuarta y quinta dimension.Como puede observarse en estos datos los sujetos mostraron ser sensibles a la configuración de los atributos escogiendo entre cada par de nuevos casos aquel que preservaba la correlación entre síntomas. En tanto escogen más a menudo los casos de la columna b en los pares 1 a 4, escogen más a menudo los casos de la columna a en los pares 5 a 9. Medin, Altom, Edelson y Freko (1982) obtienen el mismo resultado en los tres restantes experimentos de este estudio. Los diagnósticos de los sujetos se basaban primariamente en reconocer esta relación entre síntomas. Estos resultados cuestionan aquellos modelos que suponen que la categorización de un ejemplar se basa en una regla de decisión que combina, de forma aditiva, atributos independientes, una vez ponderados.

59

Tabla 3. Estímulos de la tarea de transferencia y proporciones de respuesta del tercer experimento de Medin, Altom, Edelson y Freko (1982). Estímulo

Par de prueba

% elecciones de la alternativa a

a

b

Observados

1

01110

11101

.37

2

11001

11110

.43

3

01010

11010

.50

4

10001

10101

.23

5

11100

11101

.57

6

00111

11101

.57

7

01011

11110

.70

8

00100

00101

.53

9

10000

10010

.63

10

11000

01100

.33

11

10100

01100

.33

12

10011

11100

.50

13

10011

01011

.40

14

01111

11011

.60

15

00011

01100

.37

16

00100

10000

.57

17

11100

01011

.50

18

00111

01011

.60

19

10111

11011

.53

20

11001

01101

.40

El efecto de la presencia de atributos correlacionados es sólo un caso de un fenómeno más general, a saber, la sensibilidad de los sujetos a la detección de relaciones entre atributos,

60 tal como se pusiera de manifiesto en la crítica a los modelos métricos de la semejanza (cf. 3.4. Desviaciones de los modelos métricos de la semejanza). 3. Efectos de estructura intercategorial. Las categorías definidas en la partición de un conjunto de instancias mantienen entre sí relaciones heterárquicas mutuamente inhibitorias o excluyentes. Este mismo conjunto de instancias puede eventualmente segmentarse de acuerdo con una distinta partición. Las categorías de distintas particiones pueden mantener entre sí relaciones heterárquicas inhibitorias o excitatorias. Una relación jerárquica implica una relación excitatoria entre categorías a distintos niveles de descripción. Si una relación jerárquica inclusiva es transitiva define una taxonomía, si es intransitiva define una partonomía. La realidad psicológica de estas relaciones jerárquicas y heterárquicas entre conceptos se comprueba en los efectos de estructura intercategorial, a saber, (1) el efecto de jerarquía; (2) el efecto de aprendizaje competitivo; y, (3) el efecto de densidad. 3.1. Efecto de jerarquía. En un trabajo hoy clásico,el primero de los que dan consistencia empírica a la hipótesis del modelo clásico, Rosch, Mervis, Gray, Johnson y Boyes-Braem (1976) propusieron que los conceptos se organizan en jerarquías conceptuales de un modo tal que un objeto puede categorizarse en el nivel básico -p.ej. martillo- más rápidamente que en un nivel subordinado p. ej. maza- o en un nivel supraordenado -p.ej. herramienta. Rosch y sus colaboradores atribuyeron este fenómeno a que las categorías de nivel básico contienen más atributos distintivos que las categorías de un nivel mas abstracto o específico de descripción. Discutiendo la evidencia aportada en este trabajo, Murphy y Smith (1982) señalaron que otras regularidades características de estas categorías de nivel básico podrían afectar a la obtención del fenómeno. Entre estas apuntan tres, las categorías de nivel básico tienen un nombre mas corto y frecuente que el que tienen las categorías de nivel subordinado y supraordenado, se aprenden antes y son más comunes. Para someter a prueba estas hipótesis, Murphy y Smith (1982) manipularon sistemáticamente estos factores en tres experimentos utilizando, como estímulos, dieciséis objetos identificados como herramientas ficticias por los sujetos. Estos estímulos se construían de acuerdo con cuatro dimensiones, dos con cuatro valores, una con cinco, y otra con dos. Los objetos presentados definían dos categorías supraordenadas, cuatro categorías de nivel básico o intermedio y ocho categorías de nivel subordinado o específico. Los resultados obtenidos en estos tres experimentos mostraron que los sujetos son más rápidos en clasificar el material de nivel intermedio, el nivel que Murphy y Smith suponían representaba el nivel básico. Murphy y Smith afirman que, en la aparición del fenómeno, los atributos perceptivos son críticos. Sin embargo, no todos los niveles se definen en los mismos términos. Los objetos definidos a nivel básico compartían dos atributos y dos términos, en tanto los objetos definidos a nivel subordinado incluían un rasgo adicional respecto del nivel básico y los objetos definidos a nivel supraordenado se identificaban únicamente por su etiqueta. Hoffman y Ziessler (1983) estudiaron el papel de esta variable en la obtención de un efecto de jerarquía. La Tabla 4 presenta, siguiendo a Gluck y Corter (1985), la distribución de propiedades de tres condiciones de estructura jerárquica. Como se observa en la Tabla 4, en la primera jerarquía, el atributo contorno de los estímulos puede predecirse a partir de los términos que se asocian a categorías supraordenadas; el contorno y la forma interior de los estímulos pueden predecirse, en la segunda jerarquía, a partir de los términos de categorías intermedias, en tanto los términos de nivel supraordenado no permiten hacer ninguna predicción; en la tercera y última jerarquía, los términos de nivel intermedio y supraordenado

61 no permiten efectuar ninguna predicción. Tabla 4. Estímulos de tres estructuras jerárquicas de Hoffman y Ziessler (1983). JERARQUIA 1 Categorías

Atributos

Ej.

Supraordenado

Intermedio

Subordinado

Contorno

Interior

Inferior

1.

Alta 1

Media 1

Baja1

0

0

0

Baja2

0

0

1

Baja3

0

1

2

Baja4

0

1

3

Baja5

1

2

0

Baja6

1

2

1

Baja7

1

3

2

Baja8

1

3

3

2. 3.

Media 2

4. 5.

Alta 2

Media 3

6. 7.

Media 4

8.

!JERARQUIA 2 Categorías

Atributos

Ej.

Supraordenado

Intermedio

Subordinado

Contorno

Interior

Inferior

1.

Alta 1

Media 1

Baja1

0

0

0

Baja2

0

0

1

Baja3

1

3

2

Baja4

1

3

3

Baja5

1

2

0

Baja6

1

2

1

Baja7

0

1

2

Baja8

0

1

3

2. 3.

Media 2

4. 5.

Alta 2

Media 3

6. 7.

Media 4

8.

JERARQUIA 3 Categorías

Atributos

62 Ej.

Supraordenado

Intermedio

Subordinado

Contorno

Interior

Inferior

1.

Alta 1

Media 1

Baja1

0

0

0

Baja2

1

3

2

Baja3

0

1

3

Baja4

1

2

1

Baja5

1

2

0

Baja6

0

1

2

Baja7

1

3

3

Baja8

0

0

1

2. 3.

Media 2

4. 5.

Alta 2

Media 3

6. 7. 8.

Media 4

Con esta manipulación de la estructura jerárquica, Hoffman y Ziessler encuentran que el nivel básico viene definido, en la primera jerarquía, por las categorías de nivel supraordenado, en la segunda jerarquía, por las categorías de nivel intermedio y, en la tercera jerarquía, por las categorías de nivel subordinado. Los resultados obtenidos por Murphy y Smith parecen resultar así de la información representada en cada nivel jerárquico, más que de la posición que un conjunto particular de categorías ocupa en la estructura. Esta es una constricción clara del efecto de jerarquía. Factores estructurales asociados a la sintaxis o composición de los atributos que se discriminan afectan a la determinación de un nivel básico de categorización. La estructura conceptual es inestable y varía en relación con el contexto (Murphy y Medin, 1985; Barsalou, 1983). Este hecho afecta a la obtención de un efecto de jerarquía de nivel básico en tanto altera la información que se representa en cada nivel. El desarrollo de una métrica para explicar el efecto de jerarquía ha sido uno de los objetivos de la investigación. Inicialmente se sugirió que las categorías de nivel básico son aquellas que maximizan la validez de indicación media de los atributos para una categoría dada -la probabilidad condicional de una categoría dado un atributo- o, la validez categorial media -la probabilidad condicional de los atributos dada una categoría- o, una combinación de ambas medidas, el producto de la validez de indicación y la validez categorial (cf. Rosch y Mervis, 1975; Medin, 1983; Jones, 1983). Estas medidas, sin embargo, no explican la obtención de un efecto de nivel básico; el criterio de validez de indicación predice que en una jerarquía deben preferirse las categorías de nivel más abstracto; el criterio de validez categorial predice que en una jerarquía deben preferirse las categorías de nivel más específico, aquellas que permiten maximizar el número de inferencias que pueden extraerse. La maximización de ambas medidas es, por otra parte, formalmente imposible (cf. Medin, 1983). Estas medidas no permiten dar cuenta del efecto de jerarquía porque no se refieren a la estructura sintáctica de las categorías en una jerarquía, por el contrario, descansan en la extensión relativa de una categoría en términos de las categorías o atributos que incluyen de un nivel inferior de descripción. Para superar estas dificultades teóricas y empíricas, Gluck y Corter (1985) sugieren que el efecto de jerarquía puede explicarse a partir de la noción de incertidumbre. La estructura de una categoría vendría definida en términos de una función de optimización de acuerdo con la cual se maximiza

63 la cantidad de información que puede comunicarse. Gluck y Corter (1985) proponen una medida de utilidad que formaliza esta idea. La noción de incertidumbre se analiza de acuerdo con la teoría de la información (Shannon y Weaver, 1949) y de acuerdo con una teoría que interpreta la incertidumbre como la incapacidad de predecir los atributos de una categoría en un contexto comunicativo.

64 3.2. Efecto de aprendizaje competitivo. El efecto de tasa base expresa dos hechos, que los miembros de categorías más extensas se clasifican y reconocen mejor que los miembros de categorías de menor tamaño, y, que los miembros de estas últimas tienden a clasificarse o reconocerse erróneamente como miembros de las de mayor tamaño. Este sesgo hacia las categorías más extensas se obtiene manipulando la frecuencia de presentación de una categoría, ó, en otros términos, el número de instancias que pertenecen a la categoría. Este efecto expresa que el sujeto es sensible a la frecuencia o probabilidad de las categorías y que esta sensibilidad se refleja en la estructura interna de las categorías que forma para clasificar o reconocer una serie de ejemplares. Este efecto de tasa base, sin embargo, no siempre se observa. El término de efecto de aprendizaje competitivo se refiere a un hecho experimental que contradice el efecto de tasa base. El efecto de aprendizaje competitivo se obtiene cuando el sujeto define una categoría y su estructura interna no refleja las distribuciones de probabilidad objetiva de sus atributos. La existencia de aprendizaje competitivo está bien documentada en la literatura sobre aprendizaje animal. Las primeras teorías de aprendizaje supusieron que la simple contigüidad temporal entre el estímulo condicionado y el estímulo incondicionado bastaba, en el condicionamiento clásico, para el establecimiento de una relación asociativa (cf. Hull, 1943; Spence, 1956). Experimentos posteriores mostraron, sin embargo, que la simple contigüidad temporal no bastaba y que se requería que el estímulo condicionado fuera un predictor fiable y no redundante del estímulo incondicionado (Kamin, 1969; Rescorla, 1968; Wagner, 1969). Kamin (1969) demuestra este hecho utilizando como estímulo condicionado una luz y como estímulo incondicionado una descarga eléctrica. Después de que se estableciera una relación asociativa que permitía predecir, a partir de la señal luminosa, la descarga eléctrica, Kamin empleó como estímulo condicionado un estímulo compuesto de una señal luminosa y un tono. Kamin observó que no se establecía ninguna relación asociativa entre el tono y la descarga eléctrica en el grupo experimental en comparación con un grupo de control que no había sido entrenado a la luz. Este fenómeno, observado ya por Pavlov (1927), muestra que la existencia de una relación asociativa previa bloquea el aprendizaje de una nueva relación asociativa redundante, o en otros términos, que el proceso por el que se establece una nueva relación asociativa compite con el proceso que establece otras relaciones asociativas o con relaciones asociativas preexistentes predictivas del mismo resultado. La efectividad de un estímulo incondicionado (EI) para dar lugar a aprendizaje asociativo depende de la relación entre el estímulo condicionado (EC) y el resultado que se espera. Rescorla y Wagner han proporcionado una formulación matemática precisa de este principio de aprendizaje. Dickinson and Shanks (1985) han mostrado este fenómeno en el aprendizaje humano. Dickinson and Shanks muestran que los juicios humanos de correlación de dos sucesos están influenciados por el estatuto de otros acontecimientos presentes, un fenómeno que revela el carácter no independiente de los atributos de estímulo. En un estudio llevado a cabo para estudiar el efecto de tasa base, Medin y Edelson (1988) obtienen evidencia de un efecto de aprendizaje competitivo afectando al proceso de formación de conceptos. En los cinco experimentos que llevaron a cabo, la tarea del sujeto consistía en diagnosticar ciertas enfermedades hipotéticas tras haber aprendido a reconocer los síntomas que justificaban una cierta clasificación. Las distintas categorías diagnósticas diferían en su frecuencia relativa. Tras el aprendizaje inicial los sujetos llevaban a cabo una tarea de transferencia diseñada para estudiar el uso de información de tasa base. En estas pruebas de transferencia, algunos de los síntomas se correspondían con más de una categoría diagnóstica y

65 eran, así, ambiguos. Las distintas enfermedades alternativas en esta tarea de transferencia diferían en su frecuencia relativa durante el aprendizaje previo. La Tabla 5 presenta el diseño general seguido en estos experimentos. La Figura 14 presenta una secuencia hipotética de tres ensayos de aprendizaje.En la etapa de aprendizaje el sujeto veía casos individuales con un par de síntomas, uno asociado con una única categoría y otro ambiguo. Tabla 5. Diseño general de un experimento usado en el primer experimento de Medin y Edelson (1988) y pruebas de transferencia para uso de información de tasa base. Frecuencia relativa

Síntomas

Enfermedad

3

a,b

1

1

a,c

2

3

d,e

3

1

d,f

4

3

g,h

5

1

g,i

6

Transferencia: Pruebas según información de tasa base: 1. Síntomas únicos de alta frecuencia: b, e, h 2. Síntomas únicos de baja frecuencia: c, f, i 3. Síntomas únicos imperfectos: a, d, g 4. Pares de síntomas conflictivos: bc, ef, hi 5. Combinaciones triples: abc, def, ghi Nota: Los síntomas se representan por letras únicas y las enfermedades por números. Las enfermedades difieren en su frecuencia relativa. Síntomas: Dolor de oídos, Mareo 1. Burlosis Elección ?

2. Namitis

3

3. Terrigitis 4. Coralgia 5. Altrax

66 6. Buragamo El diagnóstico correcto es coralgia

!

Síntomas: Irritación de piel, Dolores musculares 1. Terrigitis Elección ?

2. Burlosis

2

3. Altrax 4. Namitis 5. Buragamo 6. Coralgia

Es correcta!

! Síntomas: Dolor de espalda, Dolor de oídos 1. Coralgia

Elección ?

2. Altrax

1

3. Buragamo 4. Terrigitis 5. Namitis 6. Burlosis

El diagnóstico correcto es terrigitis

!

Figura 14. Secuencia hipotética de tres ensayos experimentales mostrando los síntomas, las categorías la realimentación en el aprendizaje de los experimentos de Medin y Edelson (1988). El objeto de este diseño experimental era determinar si los sujetos eran sensibles a la frecuencia de presentación de las categorías en los términos predichos por el efecto de tasa base. Si el sujeto usara la información de la probabilidad relativa de las categorías diagnósticas de forma apropiada, es decir, de acuerdo con el teorema de Bayés, debería predecir en las pruebas de transferencia ambiguas la enfermedad más común o frecuente en vez de la menos común o infrecuente. Los resultados obtenidos por Medin y Edelson (1988) revelan que, dependiendo de la estructura de la categoría y del tipo de prueba ambigua, los sujetos usan de forma correcta la información de tasa base -predicen la enfermedad más común o de mayor probabilidad en el aprendizaje-, la ignoran, o la usan de forma inadecuada predicen la enfermedad menos común o de menor probabilidad en el aprendizaje- al clasificar los casos ambiguos de la etapa de transferencia. En la Tabla 6 se presentan los resultados obtenidos por Medin y Edelson en el primer experimento.

67 Tabla 6. Datos de transferencia: Proporciones de respuesta del primer experimento de Medin y Edelson (1988). Síntomas

AF

Predictores únicos Perfectos de AF (p. ej. b)

BF

.812

Predictores únicos Perfectos de BF (p. ej. c)

!

!

Otros .188

.927

.078

Predictores Imperfectos (p. ej. a)

.781

.146

.073

Dos predictores Conflictivos (p. ej. bc)

.323

.584

.094

Tres predictores Combinados (p. ej. abc)

.708

.281

.010

Comparación

Perfectos

Imperfectos AF

BF

Otros

Perfecto AF/Imperfecto (p.ej. b-d)

.385

.474

.068

.073

Perfecto BF/Imperfecto (p.ej. c-d)

.594

.318

.052

.036

Como se observa en la Tabla 6 cuando se proporcionan predictores únicos imperfectos, el sujeto escoge la categoría diagnóstica de alta frecuencia. En el caso de tres predictores combinados, donde sólo uno de los predictores es ambiguo el sujeto vuelve a escoger la categoría diagnóstica de alta frecuencia. Estos resultados están de acuerdo con lo que se prediría de acuerdo con el efecto de tasa base. Sin embargo, cuando se combinan dos predictores conflictivos, asociados el uno con una categoría de alta frecuencia, el otro con una categoría de baja frecuencia, el sujeto escoge la enfermedad de baja frecuencia en contra de lo que se esperaría de acuerdo con el efecto de tasa base. Estos datos se explican como resultado de un efecto de aprendizaje competitivo: los síntomas que se asocian con una categoría diagnóstica compiten para predecir un cierto resultado. Sin embargo, la explicación de estos datos como resultando de un efecto de aprendizaje competitivo no basta para justificar el hecho de que se dé una preferencia en la prueba que incluye tres predictores combinados, cuando, de acuerdo con un modelo de aprendizaje competitivo, no debería darse ninguna, si se supone que la adición de las respectivas fuerzas asociadas a cada síntoma alcanza un valor constante. 3.3. Efecto de densidad. La observación que subyace al efecto de densidad es que la forma en que se distribuye un conjunto de estímulos en una serie de categorías afecta a cómo se juzga su semejanza. El fenómeno se expresa tipícamente a través de juicios de semejanza dados por los sujetos ante pares de estímulos que varían en cómo se distribuyen entre un conjunto dado de categorías. Desde otros enfoques, el efecto de densidad se interpreta como un efecto de carga de información o un efecto de facilitación-interferencia: el análisis de un estímulo es más detallado cuando debe discriminarse en un contexto de difícil discriminación o está sujeto a un efecto de competición de respuestas (cf. Naveh-Benjamin y Jonides, 1986; Maki, 1982;

68 Palmer y Jonides,1988). Medin (1987) y Hintzman (1986) distinguen entre densidad local y densidad global y sugieren que el aprendizaje se facilita si los estímulos más semejantes forman parte de la misma categoría. Esta distinción es análoga a la de Corter (1987) y Flanagan, Fried y Holyoak (1986) entre un nivel de densidad de rasgos y un nivel de densidad de instancias. Relacionando el efecto de densidad con el concepto de complejidad computacional y analizando la noción de densidad desde una perspectiva lógica podemos distinguir entre densidad de propiedades y densidad de procesos. Entre los efectos de densidad a nivel de propiedades se incluyen los que se deben a: (a) los rasgos y relaciones que distinguen entre estímulos -efecto de densidad de propiedades; (b) la semejanza de las instancias -efecto de densidad de instancias; y, (c) la semejanza de las categorías -efecto de densidad de categoría. Las dos primeras distinciones son análogas a la distinción clásica del efecto de densidad entre un nivel de rasgos o local y un nivel de instancias o global. Entre los efectos de densidad a nivel de procesos se incluyen los que se deben a: (a) el análisis del estímulo -efecto de densidad de estímulo; (b) los procesos de asignación o de asociación de estímulos y respuestas -efecto de densidad de procesos; y (c) el análisis de la respuesta -efecto de densidad de respuesta. La distinción entre efectos de densidad a nivel de propiedades y efectos de densidad a nivel de procesos se justifica empíricamente a partir de Barsalou (1983) como resultado de los cambios que tienen lugar en el análisis de un estímulo idéntico de acuerdo con los objetivos del sistema. Garner (1983) aporta evidencia a favor de distinguir entre distintos niveles de procesamiento. En una investigación empírica orientada a distinguir entre estos niveles, Sáinz (1989) aporta evidencia a favor utilizando los mismos estímulos al discriminar entre efectos de estímulo y de respuesta. Aunque no contamos con análisis experimentales sistemáticos del efecto de densidad existe evidencia parcial de esta clasificación. Partiendo del modelo de densidad categorial de Fried (Fried, 1979; Fried y Holyoak, 1984), Flanagan, Fried y Holyoak (1986) estudiaron cómo la forma de la distribución de una categoría afecta al proceso de aprendizaje. Este modelo supone que los miembros de una categoría pueden expresarse como configuraciones de valores de rasgos, equivalentes a puntos en un espacio de atributos multidimensional. La tarea del sujeto en una tarea de aprendizaje de categorización es construir una representación de la distribución de los ejemplares de la categoría en un espacio de rasgos definido durante el aprendizaje. Esta representación esquemática proviene de la codificación paramétrica de la distribución de la categoría, inferida a partir de los ejemplares que se van proporcionando. La decisión de como clasificar un ejemplar se basa en una regla de decisión de relativa verosimilitud bajo la hipótesis de monotonicidad de la distribución. Durante el aprendizaje tiene lugar un proceso cíclico de revisión de parámetros que ajusta la descripción de las instancias de acuerdo con la frecuencia de la categoría y la variabilidad relativa de los ejemplares. De acuerdo con sus predicciones, Flanagan, Fried y Holyoak (1986) encontraron que la forma de la distribución afectaba a la rapidez con que los sujetos aprendían a clasificar un conjunto de ejemplares o una nueva serie de categorías a partir de las ya aprendidas. Si se pedía a los sujetos que aprendieran una distribución multimodal, el aprendizaje previo de una distribución multimodal facilitaba su adquisición, en tanto el aprendizaje previo de una distribución unimodal normal interfería. El aprendizaje de distribuciones no normales tenía un efecto beneficioso en el aprendizaje posterior de una distribución no normal. Flanagan, Fried y Holyoak (1986) sugieren que un sujeto forma expectativas acerca de la distribución y que esta representación afecta al proceso de aprendizaje. Este efecto de la distribución no implica que los sujetos cuenten con un repertorio de posibles distribuciones sino que cambian de estrategias de análisis cuando reciben información que invalida la hipótesis de que la distribución es normal.

69 Corter (1987) sugiere que las variables que representan, de una parte, la densidad y, de otra, la probabilidad de una respuesta correcta o el número de atributos se confunden a menudo. Corter analiza a este fin el modelo de Krumhansl (1978, 1982). Krumhansl supone que las regiones densas del espacio de estímulo se expanden al requerir los estímulos de esas regiones discriminaciones más finas de rasgos. Consistente con esta hipótesis, el aumento de densidad en la cercanía de un cierto estímulo debe afectar negativamente a la semejanza de ese estímulo con el resto. Para evaluar esta hipótesis, Corter lleva a cabo seis experimentos, tres que emplean puntuaciones de semejanza, dos que emplean matrices de confusión por discriminación, y uno más que utiliza errores de identificación, para evaluar los efectos de manipular la densidad sobre estas medidas de proximidad. En cada uno de estos estudios existían dos condiciones. En una condición los sujetos recibían como estímulo objetivo uno extraído de una región densa del espacio de rasgos; en la otra condición, que incluía el mismo número de estímulos, la densidad se aumentaba en la región de otro estímulo objetivo. A fin de contrastar la hipótesis de Krumhansl (1982), Corter introduce un simple estadístico que permite comparar las puntuaciones de semejanza envolviendo pares de estímulo objetivoentorno para las dos condiciones experimentales. Las puntuaciones de semejanza de un estímulo objetivo de una región densa deberían ser menores que las puntuaciones de semejanza obtenidas con el mismo estímulo en una región no densa. Variando el número y el carácter de los estímulos -elipses, caras, figuras, letras-, el tipo de tarea -puntuaciones de semejanza, discriminación de identidad-diferencia-, y el número de respuestas alternativas, Corter no obtiene un efecto de densidad en cinco de los seis experimentos. Corter utiliza doce estímulos y nueve alternativas de respuesta en los tres primeros experimentos, y doce estímulos y dos alternativas de respuesta en el cuarto y quinto. El sexto experimento, que emplea un número igual de estímulos y respuestas, es el único que aporta evidencia a favor de un efecto de densidad, pero asociado a la respuesta, en contra de la hipótesis de Krumhansl (1982). Analizando los errores de identificación cometidos, Corter obtiene un efecto de densidad. Para detectar este efecto, Corter (1987) emplea un procedimiento análogo al utilizado, de forma independiente, por mí mismo (Sáinz, 1989): las medidas de la variable dependiente se agrupan por estímulo o por respuesta para analizar como influyen las manipulaciones de la variable de densidad. Corter (1987) no encuentra ningún efecto de densidad asociado al estímulo. El efecto de densidad requiere un análisis teórico y empírico más detallado y sistemático. V. MODELOS DE CATEGORIZACION 1. Modelos de inducción de reglas. Los modelos de inducción de reglas desarrollan la hipótesis formal del modelo clásico como fué propuesto por Bruner, Goodnow y Austin(1956) y los modelos de comprobación de hipótesis que le siguieron (Cauzinille, 1975). Según un modelo formal de inducción de reglas, la tarea del sujeto consiste en formar una regla que permita discriminar entre miembros y no miembros de un concepto. Una regla es una expresión analítica que define un concepto por comprensión; esta definición de un concepto es equivalente a la completa enumeración de sus instancias en un lenguaje de descripción que capta su extensión real en un modelo del mundo. Un concepto se caracteriza por una regla de inferencia lógica; la regla expresa bajo que condiciones una descripción de una instancia puede tratarse como miembro del concepto en cuestión. Dada por enumeración una descripción completa del conjunto infinito de los miembros de un concepto, existe una regla y sólo una que describe este concepto por comprensión. Este teorema, una extensión de la relación entre comprensión y extensión, puede demostrarse como sigue. Un conjunto infinito de miembros implica un conjunto infinito de propiedades; un miembro

70 es tal si se distingue de al menos algún otro miembro en al menos una propiedad al igual que un ejemplar miembro se distingue de un ejemplar no miembro; cada propiedad introduce una constricción. Sólo existe, entonces, una regla que satisfaga un conjunto infinito de constricciones. Si existiera otra debería ser idéntica o incluir al menos una constricción no definida para la otra en cuyo caso no satisfaría aquella condición de incluir el conjunto infinito de las constricciones. El inverso de este teorema es también formalmente verdadero. Dado una única entidad existe un número infinito de reglas que le caracterizan en algún conjunto del conjunto universal de las entidades. Un corolario de este teorema es que dada una enumeración no completa o un conjunto finito de ejemplares puede existir una regla o más de una capaz de describir el conjunto. En otros términos, dado un conjunto finito de objetos no es posible decir que existe una regla y sólo una. A menudo, es posible reconocer que existe más de una regla capaz de generar todos y cada uno de los miembros de un conjunto finito de entidades definido por enumeración. Las consecuencias psicológicas de este razonamiento son claras: (a) debe existir un número formalmente indefinido de reglas de inferencia o procedimientos capaces de describir la relación de un conjunto finito de miembros y el concepto a que pertenecen; y (b) deben existir sesgos para definir una cierta regla de inferencia o un procedimiento con preferencia a otros. Para constituir un modelo psicológico plausible, un modelo de inducción de reglas debe incorporar conocimiento capaz de explicar estas consecuencias. Excepto en el caso en que la partición de un conjunto de estímulos requiere la formación de una regla única, los modelos pueden diferir en dos aspectos del proceso que sigue un sujeto, en el conjunto de reglas que toman en consideración y en los sesgos que determinan la selección de una regla. Los sujetos pueden diferir, a su vez, en estos dos aspectos. La indeterminación de la noción de regla impone limitaciones sobre qué modelos de inducción de reglas pueden adoptarse como modelos psicológicos plausibles de categorización. Una regla de inferencia define una partición en el conjunto universal de las entidades. Cualquier subconjunto finito de esta partición es subconjunto de un número indefinido de particiones. De ahí que cada sujeto pueda en principio formar una regla distinta e independiente de alguna otra regla dada por otro sujeto. Un sesgo se define como una selección no casual de un tipo de regla cuando muchos tipos de reglas diferentes son posibles. Adoptar un modelo de inducción de reglas como un modelo de categorización psicológicamente plausible requiere: (a) tomar una decisión sobre qué conjunto de reglas se representan o son efectivamente representables; (b) qué sesgos operan en la selección de una regla de este conjunto; y, (c) un modelo de procesamiento que exprese cómo y por qué estas reglas y sesgos tienen lugar. La literatura sobre inducción de reglas ha proporcionado, utilizando distintas técnicas de presentación de información, una serie de sesgos o principios de selección de reglas. Dos técnicas de presentación básicas deben mencionarse: (1) recepción: el sujeto trata de descubrir a partir de los ejemplares presentados según la realimentación que recibe de su ejecución cuáles son miembros y cuáles no son miembros del concepto definiendo una regla de inferencia (Medin, Wattenmaker y Michalski, 1987); y, (2) selección: el sujeto escoge un ejemplar o una descripción que se ajusta a la hipótesis de clasificación que ha formado (Medin, Wattenmaker y Hampson, 1986). El uso de estas técnicas y de sus variantes ha permitido reconocer los siguientes principios heurísticos de selección de reglas: (1) preferencia por reglas simples (cf. Medin, Wattenmaker y Michalski, 1987); (2) preferencia por reglas conjuntivas (cf. Bruner, Goodnow y Austin, 1956; Haygood y Bourne, 1965); (3) atención a propiedades presentes o positivas (cf. Wason y Johnson-Laird, 1972); (4) sensibilidad a la validez de indicación (cf. Elio y Anderson, 1981); (5) sensibilidad a la validez categorial (cf. Tversky, 1977); y (6) sensibilidad a relaciones no casuales entre atributos (cf. Medin, Altom, Edelson y

71 Freko, 1982). Hay, sin embargo, evidencia empírica que cuestiona o matiza la validez de estos sesgos como principios generales de selección de reglas. No existe ningún criterio claro de qué es una regla simple y es, más bien, cuestión de intuición (Medin, Wattenmaker y Michalski, 1987). Dominowski y Wetherick (1976) han aportado evidencia de que se prefieren reglas disyuntivas en una tarea de clasificación y Reznick y Richman (1976) que la frecuencia y la complejidad aumentan el número de reglas disyuntivas. La atención a propiedades positivas más que a propiedades negativas de las instancias depende del contenido abstracto o no abstracto de la inducción que debe llevar a cabo el sujeto (Griggs y Cox, 1983) y es afectado por demandas características de la tarea de clasificación (Evans, 1982; Hunt 1983). La sensibilidad a la validez de indicación, la validez categorial y la sensibilidad a relaciones entre atributos son expresiones particulares de constricciones más generales. La validez categorial es más determinante que la validez de indicación en una tarea de clasificación. La sensibilidad a relaciones no casuales entre atributos no expresa un principio claro si no se precisan estas relaciones y aparecen representadas en el concepto. El problema es integrar estos principios en un modelo de procesamiento que establezca su importancia relativa y cómo se complementan (Medin, Wattenmaker y Michalski, 1987). Dos clases de algoritmos de inducción de reglas se han propuesto. Los modelos de especialización producen reglas de inferencia que se ajustan a la estructura categorial de los estímulos presentados. Los algoritmos de generalización producen reglas, a partir de las instancias presentadas, que pueden generalizarse a estímulos que satisfacen idéntica estructura categorial. El modelo ID3 de Quinlan (1983) es un ejemplo de modelo de especialización; el modelo INDUCE (Michalski, 1983a, 1983b) lo es de generalización. ID3 se basa en el valor informativo de una regla de inferencia para reconocer una cierta estructura categorial. Las reglas se seleccionan según el valor informativo de los atributos que incluyen bajo el supuesto de que el sujeto considera de forma ordenada todas las posibles reglas conceptuales alternativas. INDUCE se basa, en cambio, en la validez de indicación. Las reglas de inferencia del modelo se forman por disyunción de descripciones conjuntivas de atributos de instancias. 1.1. Modelo de inducción por especialización: ID3. Las dos nociones básicas en que se asienta el modelo ID3 son la noción de diagrama árboreo o árbol de decisión y la noción de valor informativo de una regla expresada por algún árbol de decisión en particular. ID3 desarrolla una idea de Hunt, Marin y Stone (1966), de acuerdo con la cual una regla de decisión puede representarse por un árbol de decisión que se construye a partir de los ejemplos de entrenamiento. Distintos árboles de decisión se evalúan en términos de la reducción de incertidumbre que procuran. ID3 es la implementación de esta intuición en un computador. La Figura 15 recoge un simple diagrama de flujo del algoritmo ID3. Cada instancia se expresa en una notación abstracta interpretable por el algoritmo. En primer lugar, ID3 genera un árbol de decisión para cada atributo de estímulo. Cada uno de los árboles de decisión generados se evalúa, en segundo lugar, por su valor informativo de acuerdo con la teoría de la información. Por último, el árbol de decisión que produce la mayor reducción de incertidumbre se selecciona. Si un atributo es insuficiente para caracterizar la estructura categorial de un conjunto de instancias, nuevos atributos se añaden al árbol de decisión por conjunción de rasgos de la misma rama y/o por disyunción de atributos del mismo nivel de profundidad. De este modo, el proceso se repite para un nuevo atributo hasta obtener una regla que incluye como criterios de decisión ciertos atributos de estímulo. El algoritmo permite generar la secuencia óptima en que debe contrastarse una serie de criterios de decisión. ID3 basa la formación de sus reglas en la selección de atributos que son un compromiso

72 matemáticamente óptimo entre completud y consistencia. Cuando los atributos se definen como dimensiones continuas el algoritmo tiende a seleccionar valores de la misma dimensión ya que cada atributo dá lugar a distintas decisiones.

Comienzo

Generar un árbol de decisión para un atributo Calcular el valor informativo esperado para cada árbol Adoptar como regla de decisión el árbol de más valor informativo

No

Es la regla de decisión suficiente?

Si

Parada

Figura 15. Diagrama de flujo básico del algoritmo ID3. Las reglas de inferencia que genera el algoritmo de Quinlan (1983) se forman en torno a instancias positivas y negativas. El modelo se comporta bien en casos en que se tratan de minimizar los costes de decisión, la tarea de clasificación requiere ser sensible a la frecuencia y no requiere la consideración simultánea de mas de un atributo o dimensión. Debido a esta última condición, el modelo de inducción de reglas de Quinlan (1983) no es sensible a relaciones no casuales entre atributos. El modelo no permite predecir ni el efecto de propiedades correlacionadas ni el efecto de densidad, los efectos de facilitación e interferencia que se producen por cambios de densidad asociados a una cierta instancia (Bettger, 1988). Si se interpreta como un modelo de categorización psicológicamente realista, ID3 carece de criterios de preferencia precisos, un problema que en parte deriva de no formar reglas que incluyan la negación de atributos. Las reglas de decisión dependen de cómo se lea un árbol de decisión. Quinlan (1986) ha sugerido sustituir estos diagramas por un sistema de reglas de producción. Aunque formalmente idéntico, un sistema de producción simplifica la expresión de las reglas de inferencia respecto de un diagrama arbóreo y permite un acceso independiente a las reglas de producción. Al igual que ocurre en la categorización humana, el modelo sólo toma en cuenta tantos atributos como se requieren para formular reglas suficientes. 1.2. Modelo de inducción por generalización: INDUCE.

73 El modelo de inducción de reglas INDUCE se basa en el algoritmo AQ propuesto por Larson y Michalski (1975). El diagrama de flujo de INDUCE se presenta en la Figura 16. Este algoritmo acepta como entrada series de instancias en una notación abstracta que incluye información acerca de su pertenencia a alguna de las categorías de la partición. Esta información es crítica ya que el algoritmo sólo puede inducir una regla a partir del conjunto positivo de las instancias. El algoritmo trata entonces de formar una regla que sea consistente y completa respecto de este conjunto. Una regla es consistente si describe sólo los miembros de una categoría, es decir, es una regla cuya validez de indicación es perfecta. Una regla es completa si describe todos los miembros de una categoría, es decir, es una regla cuya validez categorial es perfecta. Cualquier regla que sea consistente y completa distinguirá perfectamente los miembros de dos categorías. Como se refleja en el diagrama de flujo de la Figura 16, el algoritmo INDUCE (Michalski, 1980, 1983a, 1983b) selecciona al azar, en primer término, uno de los miembros de la categoría. Esta instancia se toma como semilla. El algoritmo genera, entonces, un conjunto finito de descripciones alternativas que describen la instancia que se ha adoptado como semilla. Cada una de estas descripciones discrimina la instancia semilla de cada miembro del conjunto complementario. Estas descripciones son: (1) atributos únicos de la semilla; (2) una conjunción de atributos de la semilla; ó, (3) una conjunción de atributos que sin ser de la semilla tampoco se encuentran en el conjunto complementario de la categoría a que esta instancia pertenece. INDUCE ordena, después, estas descripciones por el número de instancias que describe de la categoría y por su simplicidad. La descripción más simple y que permite describir un mayor número de ejemplos se selecciona y evalúa. Si es completa, el proceso ha terminado: el algoritmo ha encontrado una regla apropiada para clasificar las instancias. Si no es completa, las instancias que se han descrito se purgan del conjunto de instancias de la categoría y se procede a escoger una nueva semilla. El proceso continua hasta que el conjunto objetivo se ha reducido a nada. El algoritmo une por disyunción las descripciones obtenidas para lograr una regla suficiente y completa. En el caso peor este enunciado será la mera disyunción de las instancias, en el mejor será una regla conjuntiva de atributos que todas las instancias comparten. La regla obtenida se intenta, en un último paso, simplificar. Las reglas generadas por INDUCE no se adecúan al proceso de categorización que llevan a cabo los seres humanos. En su búsqueda de atributos consistentes, INDUCE no es sensible, a menudo, a la frecuencia con que aparecen, un efecto que es crítico en la categorización humana. En la clasificación, los seres humanos forman reglas oportunistas, reglas a las que añaden información de la instancia o instancias que no la satisfacen. Un ejemplo de regla oportunista es la que usa una negación o una conjunción de rasgos para dar cuenta de contraejemplos de una regla que incluye atributos completos pero inconsistentes. Medin, Wattenmaker y Michalski (1987) aportan evidencia de que los sujetos tratan de conservar una regla más que descartarla por completo. Para ello, incluyen en una regla información acerca de sus excepciones.

74 Comienzo

Tomar una instancia como semilla

Generar un conjunto finito de descripciones consistentes Ordenar las descripciones alternativas Seleccionar la mejor descripción alternativa

Es la regla de decisión completa ?

Si

Parada

No Reducir el conjunto objetivo

Figura 16. Diagrama de flujo básico del algoritmo INDUCE. 2. Modelos métricos de generalización. Según los modelos métricos de generalización, un concepto se deriva de la aplicación de una serie de operaciones a un conjunto finito de atributos discriminados a partir del análisis perceptivo de sus ejemplares. Este proceso de composición sintáctica se concibe como un proceso sintáctico de propósito general indiferente al contenido semántico del dominio en que el nuevo concepto viene a integrarse. El único proceso cuyo actuación parece ser independiente del contenido de las representaciones que contribuye a formar es la atención. La atención se propone como un mecanismo general ligado a los objetivos pero independiente de los procesos de memoria y de la información registrada. 2.1. Modelo de contexto generalizado.

75 Los modelos de generalización basados en el análisis métrico de la semejanza suponen que la clasificación de una instancia en una categoría es función de su identificación en el contexto de los ejemplares que se someten a clasificación. De acuerdo con esta hipótesis de correspondencia, la probabilidad de que un estímulo i sea clasificado en una categoría J, es meramente la suma de las probabilidades de que el estímulo i sea identificado como uno de los ejemplares de la categoría J en una tarea de clasificación. A partir de esta hipótesis el problema se reduce, de acuerdo con Nosofsky (1984, 1985, 1986, 1987, 1988, 1989a, 1989b) a caracterizar la relación entre identificación y categorización en términos de un modelo de generalización basado en el análisis métrico de la semejanza de las instancias. De acuerdo con la hipótesis de correspondencia, la categorización de una instancia se asume es una función lineal de la discriminación de esta instancia en un contexto. El modelo de contexto generalizado es una formalización de esta hipótesis. El modelo de contexto generalizado de Nosofsky (1984, 1987) es una contexto de Medin y Schaffer (1978) que fue propuesto como un clasificación a partir de la identificación de un objeto de estímulo. De de contexto, la probabilidad de que un estímulo i sea clasificado en la viene dado por S P(RJ|Si) =

j e J

µij

----------------Sk (S

versión del modelo de modelo predictivo de acuerdo con el modelo categoría J, P(RJ|Si),

k e K

Ecuación (18)

µik)

donde µij representa la semejanza entre los ejemplares i y j --k, si varía el subíndice-- y j, k son ejemplares de J, K respectivamente. La ecuación representa una tendencia a responder en términos de la categoría a la que una instancia pertenece dada una cierta tendencia global a dar una respuesta en términos de cualquier categoría. El numerador expresa la tendencia a dar como respuesta la categoría a la que pertenece el ejemplar i tomando en cuenta su semejanza a los ejemplares de la categoría; el denominador expresa la tendencia a dar como respuesta cualquier categoría K de la partición, incluyendo la categoría J. En otros términos, la ecuación representa una probabilidad de responder con una cierta categoría, dado un ejemplar, normalizada sobre el conjunto de ejemplares de las categorías de la partición. Esta ecuación se denomina regla de razón de respuestas. La ecuación 18 presenta dos problemas. El primer problema se refiere a cómo estimar la semejanza entre los ejemplares; el segundo se refiere al valor que toma la función de semejanza para pares de instancias idénticas en función de la categoría en que se agrupan. La estrategia de Medin y Schaffer (1978) para resolver el primer problema consiste en comparar cada par de ejemplares de un conjunto, atributo a atributo, en los mismos términos propuestos en nuestra matriz de comparación y calcular los parámetros de semejanza de esta matriz binaria hipersimétrica (cf. 1.1.3.1. Matriz de comparación). La semejanza normalizada de dos pautas en un atributo idéntico es igual a 1; la semejanza normalizada de dos pautas en un atributo diferente es igual a p. El parámetro p representa alguna relación de semejanza entre pares de atributos diferentes. Medin y Schaffer definen tantos de estos parámetros como requiere la conclusión de la matriz de comparación. La semejanza de dos patrones i y j viene dada por µij =

P Nk = 1 s k

Ecuación (19)

76 donde sk = 1 si los estímulos i y j se corresponden en la dimensión k e igual a pk (0
Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.