UNIVERSIDAD NACIONAL FEDERICO VILLARREAL

December 5, 2017 | Autor: Leonela Caceres | Categoria: N/A
Share Embed


Descrição do Produto







UNIVERSIDAD NACIONAL FEDERICO VILLARREAL

TEMA: JUEGOS REPETIDOS CON HORIZONTE FINITO E INFINITO.





INDICE



HISTORIA DE LA TEORIA DE JUEGOS


La primera discusión conocida de la teoría de juegos aparece en una carta escrita por James Waldegrave en 1713. En esta carta, Waldegrave proporciona una solución mínima de estrategia mixta a una versión para dos personas del juego de cartas le Her. Sin embargo no se publicó un análisis teórico de teoría de juegos en general hasta la publicación de Recherches sur les príncipes mathématiques de la théorie des richesses, de Antoine Augustin Cournot en 1838. En este trabajo, Cournot considera un duopolio y presenta una solución que es una versión restringida del equilibrio de Nash.
Aunque el análisis de Cournot es más general que el de Waldegrave, la teoría de juegos realmente no existió como campo de estudio aparte hasta que John von Neumann publicó una serie de artículos en 1928. Estos resultados fueron ampliados más tarde en su libro de 1944, Theory of Games and Economic Behavior , escrito junto con Oskar Morgenstern. Este trabajo contiene un método para encontrar soluciones óptimas para juegos de suma cero de dos personas. Durante este período, el trabajo sobre teoría de juegos se centró, sobre todo, en teoría de juegos cooperativos. Este tipo de teoría de juegos analiza las estrategias óptimas para grupos de individuos, asumiendo que pueden establecer acuerdos entre sí acerca de las estrategias más apropiadas.
En 1950 Albert W. Tucker planteó formalmente las primeras discusiones del dilema del prisionero, y se emprendió un experimento acerca de este juego en la corporación RAND. En ese año John Nash desarrolló una definición de una estrategia óptima para juegos de múltiples jugadores donde el óptimo no se había definido previamente, conocido como equilibrio de Nash, bajo la supervisión del mencionado Tucker. Este equilibrio es suficientemente general, permitiendo el análisis de juegos no cooperativos además de los juegos cooperativos.
La teoría de juegos experimentó una notable actividad en la década de 1950, momento en el cual los conceptos base, el juego de forma extensiva, el juego ficticio, los juegos repetitivos, y el valor de Shapley fueron desarrollados. Además, en ese tiempo, aparecieron las primeras aplicaciones de la teoría de juegos en la filosofíay las ciencias políticas.
En 1965, Reinhard Selten introdujo su concepto de solución de los equilibrios perfectos del subjuego, que más adelante refinó el equilibrio de Nash. En 1967 John Harsanyi desarrolló los conceptos de la información completa y de los juegos bayesianos. Él, junto con John Nash y Reinhard Selten, ganaron el Premio Nobel de Economía en1994.
En la década de 1970 la teoría de juegos se aplicó extensamente a la biología, en gran parte como resultado del trabajo de John Maynard Smith y su concepto estrategia estable evolutiva. Además, los conceptos del equilibrio correlacionado, la perfección del temblor de la mano, y del conocimiento común fueron introducidos y analizados.8
En 2005, los teóricos de juegos Thomas Schelling y Robert Aumann ganaron el premio Nobel de Economía. Schelling trabajó en modelos dinámicos, los primeros ejemplos de la teoría de juegos evolutiva. Por su parte, Aumann contribuyó más a la escuela del equilibrio.
En el 2007, Roger Myerson, junto con Leonid Hurwicz y Eric Maskin, recibieron el premio Nobel de Economía por "sentar las bases de la teoría de diseño de mecanismos."




INTRODUCCION


Desarrollada en sus comienzos como una herramienta para entender el comportamiento de la economía, la teoría de juegos se usa actualmente en muchos campos, como en la biología,sociología, psicología y filosofía. Experimentó un crecimiento sustancial y se formalizó por primera vez a partir de los trabajos de John von Neumann y Oskar Morgenstern, antes y durante la Guerra Fría, debido sobre todo a su aplicación a la estrategia militar, en particular a causa del concepto de destrucción mutua garantizada. Desde los setenta, la teoría de juegos se ha aplicado a la conducta animal, incluyendo el desarrollo de las especies por la selección natural. A raíz de juegos como el dilema del prisionero, en los que el egoísmo generalizado perjudica a los jugadores, la teoría de juegos ha atraído también la atención de los investigadores en informática, usándose en inteligencia artificial y cibernética.
Aunque tiene algunos puntos en común con la teoría de la decisión, la teoría de juegos estudia decisiones realizadas en entornos donde interaccionan. En otras palabras, estudia la elección de la conducta óptima cuando los costes y los beneficios de cada opción no están fijados de antemano, sino que dependen de las elecciones de otros individuos. Un ejemplo muy conocido de la aplicación de la teoría de juegos a la vida real es el dilema del prisionero, popularizado por el matemático Albert W. Tucker, el cual tiene muchas implicaciones para comprender la naturaleza de la cooperación humana. La teoría psicológica de juegos, que se arraiga en la escuela psicoanalítica del análisis transaccional, es enteramente distinta.
Los analistas de juegos utilizan asiduamente otras áreas de la matemática, en particular las probabilidades, las estadísticas y la programación lineal, en conjunto con la teoría de juegos. Además de su interés académico, la teoría de juegos ha recibido la atención de la cultura popular. La vida del matemático teórico John Forbes Nash, desarrollador del Equilibrio de Nash y que recibió un premio Nobel, fue el tema de la biografía escrita por Sylvia Nasar, Una mente maravillosa (1998), y de la película del mismo nombre (2001). Varios programas de televisión han explorado situaciones de teoría de juegos, como el concurso de la televisión de Cataluña (TV3) Sis a traïció (Seis a traición), el programa de la televisión estadounidense Friend or foe? (¿Amigo o enemigo?) y, hasta cierto punto, el concurso Supervivientes.1



TEORÍA DE JUEGOS


Elementos básicos de un juego
1. Jugadores (A y B)
Se supone que eligen el curso de acción que genera el resultado más favorable para ellos
2. Estrategias (a y b)
Curso de acción que elige cada jugador. Es importante distinguir estrategia de acción o jugada.
Los pagos que reciben del juego son función de tus acciones y las del otro jugador
3. Pagos
Representación de un juego
π A a, b π B a, b

Planteamos la representación del juego conocido como dilema del prisionero.
La policía detiene por un pequeño delito a dos delincuentes sospechosos de un delito grave. A cada uno de los delincuentes por separado se le ofrece el siguiente trato:
Si delatas a tu compañero y él no confiesa te reduzco la pena a un año y a él le caen diez años.
Si os delatáis mutuamente la pena es de tres años para cada uno.
Si ninguno delata a su compañero sólo se les puede condenar a ambos a dos años por el delito menor.






La teoría de juegos es un área de la matemática aplicada que utiliza modelos para estudiar interacciones en estructuras formalizadas de incentivos (los llamados «juegos») y llevar a cabo procesos de decisión. Sus investigadores estudian las estrategias óptimas así como el comportamiento previsto y observado de individuos en juegos. Tipos de interacción aparentemente distintos pueden, en realidad, presentar estructura de incentivo similar y, por lo tanto, se puede representar mil veces conjuntamente un mismo juego.



Jugador B
Delata
Jugador A
Delata
No delata
-3, -3
-10, -1
No delata
-1, -10
-2, -2
Representación en forma extensiva
A
delata
no delata
B
d
nd
d
B
nd
Equilibrio
Una situación en la que los individuos no tienen incentivos para cambiar su decisión
Equilibrio en estrategias dominantes
La estrategia de A es una estrategia dominante si la elección de A es óptima para cualquier elección de B.
La estrategia de B es una estrategia dominante si la elección de B es óptima para cualquier elección de A.










Jugador B
izquierda
Jugador A
arriba
abajo
1, 2 _
_ 2, 1 _
derecha
0, 1
_ 1, 0
"abajo" es una estrategia dominante para el jugador A
"izquierda" es una estrategia dominante para el jugador B
En este caso, es fácil predecir las jugadas y los pagos finales
No siempre existen estrategias dominantes. Por ejemplo:

Jugador B
izquierda
Jugador A
arriba
abajo
_ 2, 1 _
0, 0
derecha
0, 0
_ 1, 2 _
Estrategias dominantes iterativas

Jugador B
i
Jugador A
a
b
4, 3
_ 5, 5 _
c
2, 7 _
_ 5, 1
d
_ 0, 4
-4, -2
Jugador A: no tiene una estrategia dominante.
Jugador B: c domina a d. Nunca jugará d.

Teniendo en cuenta este hecho resulta que:
b es una estrategia dominante para el jugador A.
Dado que A juega b, entonces B juega i.


Equilibrio de Nash
Dos estrategias (a*,b*) constituyen un equilibrio de Nash si a* es la mejor estrategia posible del jugador A cuando B juega b* y b* es la mejor estrategia para B cuando A juega a*.


Ejercicio propuesto
Aplicar este concepto a los ejemplos anteriores. Existe equilibrio de Nash en las casillas en que haya dos marcas.

El concepto de equilibrio de Nash presenta los siguientes problemas:
1. Puede haber más de un equilibrio de Nash.
2. En ocasiones no hay un equilibrio de Nash.
Ejemplo de juego sin equilibrio de Nash en estrategias puras

Jugador B
izquierda
Jugador A
arriba
abajo
0, 0 _
_ 1, 0
derecha
_ 0, -1
-1, 3 _
No hay ninguna casilla con dos marcas. Por lo tanto no existe equilibrio de Nash en estrategias puras.
Equilibrio de Nash en estrategias mixtas
Un agente elige la frecuencia óptima con la que seguirá una estrategia dada la frecuencia con la que elija el otro. Se puede demostrar que, bajo ciertas condiciones, siempre existe un equilibrio de Nash en estrategias mixtas.






Jugador B
izquierda (q)
Jugador A
arriba (p)
abajo (1-p)
0, 0
1, 0
derecha (1-q)

Los beneficios esperados de cada estrategia y el beneficio esperado para el jugador A se pueden escribir como:

π A arriba 0q 0 1 q 0
E π A 0 p 2q 1 1 p
π A abajo 1q 1 1 q 2q 1
El jugador A elige p de modo que maximize E π A . Es decir:
max p E π A 2q 1 1 p
st
0 p 1
Las probabilidades óptimas en función de q son las siguientes:


1
p 0
2


1
q p 1
2
q
Los beneficios esperados de cada estrategia y el beneficio esperado para el jugador B se expresan como:
π B izquierda 0 p 0 1 p 0
π B derecha 1 p 3 1 - p 3 - 4 p
E π B 0q 3 4 p 1 - q 3 - 4 p 1 - q
El jugador B elige q de modo que maximize E π B . Es decir:
max q E π B 3 - 4 p 1 - q
st
0 q 1
Las probabilidades óptimas en función de p son las siguientes:

Las dos probabilidades mutuamente consistentes son:


Un guardia y un ladrón juegan este juego todas las noches en el edificio de la Facultad.
Si el ladrón va a un lugar distinto del guardia consigue un botín y el guardia es despedido. Si coinciden en el mismo lugar, el ladrón va a la cárcel. Representamos el juego en forma normal como:




No hay equilibrio de Nash en estrategias puras ya que no coinciden dos marcas en la misma casilla.

Los beneficios esperados de cada estrategia y el beneficio esperado para el ladrón se expresan como:

π L aulario 10q 10 1 q 10 - 20q
π L oficinas 10q 10 1 - q 20q - 10
E π L 10 - 20q p 20q - 10 1- p
E π L 20q 10 1 - 2 p
Las probabilidades óptimas en función de q son las siguientes:

Los beneficios esperados de cada estrategia y el beneficio esperado para el guardia se expresan como:

π G aulario 0 p 10 1 p 10 p 10
π G oficinas 10 p 0 1 - p 10 p
E π G 10 p - 10 q - 10 p 1 - q
E π G 10 p 20 p 10 q
Ejemplo de equilibrio de Nash en estrategias mixtas

Las dos probabilidades mutuamente consistentes son:

Ejemplo de equilibrios múltiples de Nash
La guerra de los sexos


boxeo
ballet
_ 10, 5 _
0, 0
Prisionero B
Delatar
no delatar
_ -3, -3 _
-6, 0 _
1. Confesar es una estrategia dominante
2. Podían mejorar si cooperasen. No lo hacen porque el juego no se repite. (no delatar, no delatar) con respecto a (delatar, delatar) es una situación en la que cada jugador mejora sin que empeore el otro. Por tanto, (delatar, delatar) no es un óptimo de Pareto.
3. Los individuos irán a la cárcel
4. El juez (la policía) diseña este mecanismo
5. La sociedad (la policía o el juez) tiene que "gastar" para encarcelarlos. Al diseñador del mecanismo le gustaría que estuviesen seis años en la cárcel pero tiene que bajar del mecanismo le gustaría que estuviesen seis años en la cárcel pero tiene que bajar la condena a tres años para proporcionales un incentivo a confesar. Como veremos en otras ocasiones en esta clase, es costoso que un individuo revele información.










Las probabilidades óptimas en función de p son las siguientes:



Algunos ejemplos del dilema del prisionero que conducen a una asignación no óptima (no paretiana) de los recursos.

1. Consumo ostentoso
La utilidad de tener un coche depende negativamente del precio del propio coche ( Pc ) y positivamente de la diferencia de precio entre tu coche y el del vecino ( Pc Pv ).

U Pc , Pv 11 - Pc 2 Pc - Pv
U Pc , Pv 11 Pc 2 Pv
El precio de un citroen es 3 y el de un mercedes 5. Se pueden dar los siguientes casos:
La utilidad de tener un citroen cuando tu vecino tiene un citroen es: U 3,3 8
La utilidad de tener un citroen cuando tu vecino tiene un mercedes es: U 3,5 4
La utilidad de tener un mercedes cuando tu vecino tiene un mercedes es: U 5,5 6
La utilidad de tener un mercedes cuando tu vecino tiene un citroen es: U 5,3 10
La situación puede representarse mediante el siguiente juego en forma normal:

Consumidor B
citroen
Consumidor A
citroen
mercedes
8, 8
mercedes
4, 10 _
_ 10, 4
_ 6, 6 _
Se trata de un dilema del prisionero. La estrategia dominante es comprar un mercedes.
Como consecuencia, ambos lo compran y tienen un nivel de bienestar menor que si los dos hubiesen comprado un citroen.

Otros ejemplos similares son el dopaje en deportes o incluso la cirugía plástica para triunfar en algunas actividades.


2. Horarios comerciales
En un mercado con dos establecimientos se venden 480 unidades diarias. El coste de apertura es de 5 unidades por hora. Las ventas se reparten proporcionalmente a las horas que permanecen abiertos los establecimientos.


Establecimiento
1
2
Horas
8
8
Ventas
240
240
Costes
5×8 = 40
5×8 = 40
Beneficios
200
200
Caso 2. Un establecimiento abre 24 horas mientras el otro continua abriendo 8 horas.
Establecimiento
1
2
Horas
24
8
Ventas
360
120
Costes
5×24 = 120
5×8 = 40
Beneficios
240
80
Caso 3. Ambos establecimientos abren 24 horas.
Establecimiento
1
2
Horas
24
24
Ventas
240
240
Costes
5×24 = 120
5×24 = 120
Beneficios
120
120
Los resultados pueden representarse como el siguiente juego en forma normal:


Establecimiento 2
8h
Establecimiento 1
8h
24h
200, 200
24h
80, 240 _
_ 240, 80
_ 120, 120 _
Abrir 24 horas diarias es una estrategia dominante. Los establecimientos pueden ganar con un acuerdo de apertura limitada. Si no son capaces de conseguir este acuerdo es posible que pidan una ley restrictiva de los horarios comerciales.



C q 10q
Solución colusiva
Los agentes buscan la cantidad que maximizaría su beneficio conjunto y hacen un reparto de esa cantidad entre ellos. Esa cantidad será el resultado de maximizar:

π 100 Q Q 10Q
La condición de primer orden de maximización es;
π ' 100 2Q 10 0 Q 45 P 100 45 55
Las cantidades producidas y los beneficios serán:

Engañar cuando el otro jugador cumple el acuerdo colusivo
El alto precio de la solución colusiva hace que los productores tengan incentivos para producir más de la cuota asignada (q1 q2
De hecho el beneficio de cada uno condicional en que el otro productor respete la cuota se maximiza produciendo una cantidad superior. Es decir:








Función de costes:
P 100 Q
Función de demanda de mercado:
3. Análisis del duopolio

En este caso, el productor 1 produce la cantidad que maximiza su beneficio dada la cantidad que produce el 2.
El 2 hace lo mismo. La solución conjunta a estas dos decisiones constituye un equilibrio de Cournot.


El beneficio del productor 1 se escribe como:
Π 1 100 q1 q2 q1 10q1
La condición de primer orden de este problema de optimización es:


Este ejercicio matemático es equivalente a la solución de los juegos en forma normal realizada hasta ahora. Es decir, poner marcas en la mejor decisión para un individuo dada la decisión de otro.


Por simetría, la repetición del proceso para el segundo productor daría como resultado:

A continuación, es necesario buscar las cantidades que sean simultáneamente óptimas (mutuamente compatibles). La solución resulta de resolver el sistema de ecuaciones anterior:


q1 q2 30
π1 π 2 900
Esta solución es un equilibrio de Nash. De hecho, representa la mejor estrategia del productor 1 dado lo que hace el productor 2 y la mejor estrategia del productor 2 dado lo que hace el productor 1.


La representación del juego en forma normal sería:


colusión
colusión
engaño
1012, 1012
engaño
759, 1139 _
_ 1139, 759
_ 900, 900 _

El engaño es una estrategia dominante para ambos productores. Por tanto, bajo las condiciones en que se define este juego no va a tener lugar un acuerdo colusivo.
Como veremos más adelante, el acuerdo colusivo tiene alguna posibilidad de ocurrir cuando el juego se repita de forma indefinida


.
JUEGOS REPETIDOS
Juego dinámico
Un jugador elige una acción tras observar la acción de su oponente
Amenaza no creíble
Ejemplo
Un individuo te amenaza con hacer explotar una bomba que tiene en la mano si no le entregas 1 millón de euros. Para completar la matriz de pagos suponemos que los daños del ataque suponen un coste de 5 millones.


El análisis de este juego requiere usar exclusivamente la información que se ha dado.
Representación del juego en forma extensiva


A
0 no pagar
1 pagar
B
explotar
explotar
no explotar
B
no explotar
-6, -4
-1, 1
-5, -5
0, 0
Este juego dinámico contiene tres subjuegos. El juego al que se enfrenta el jugador B si le da el dinero. El juego al que se enfrenta el jugador B cuando no le da el dinero y, finalmente, el juego completo.
La solución recursiva de este juego consiste en solucionar primero los subjuegos del jugador que juega en segundo lugar y después el juego total en función de los resultados en los subjuegos.






Caso 1.
El jugador A le da el dinero y el jugador B no explotará la bomba
Caso 2.
El jugador A no le da el dinero y el jugador B no explotará la bomba.
El jugador A debe decidir qué hacer considerando que en ambos casos el jugador B no explotará la bomba. Como consecuencia, elige no darle el dinero.

Este resultado es un equilibrio de Nash. No explotar la bomba es una estrategia dominante para el jugador B. Como consecuencia, esa es su acción óptima en cualquier caso. La actuación óptima del jugador A es no darle el dinero.


Este juego contiene una sorpresa cuando se analiza su forma normal. El jugador A tiene dos estrategias, dar el dinero o no darlo. El jugador B tiene cuatro estrategias:

Explotar si le da el dinero y explotar si no se lo da (ee).
No explotar si le da el dinero y no explotar si se lo da (nn).
Explotar si le da el dinero y no explotar si no se lo da (en).
No explotar si le da el dinero y explotar si no se lo da (ne).

La sorpresa es que el equilibrio que logramos antes usando una solución recursiva (0, nn) no es el único equilibrio de Nash. Aparecen otros dos equilibrios: (1, ne) (0, en)

El primero de ellos (1, ne) es muy interesante. Se trata de un equilibrio de Nash ya que si B decide jugar ne, el óptimo para A es darle el dinero. Por otra parte, si A le da el dinero es óptimo para B jugar de este modo para que la decisión de A sea óptima (si no plantea explotar la bomba cuando no le da el dinero A no debería dárselo). No obstante este equilibrio está basado en una amenaza no creíble. Una amenaza que sirve para que





Por otra parte, el equilibrio de Nash (0, en) contiene una acción que nunca se realizaría (explotar si te pagan). Ante la estrategia en del jugador B, la estrategia óptima de A es no pagar (0). Por tanto, si A no juega 1, la estrategia de B de explotar la bomba cuando reciba el dinero es irrelevante ya que el juego nunca llega a ese punto.





Algunas aclaraciones sobre amenazas no creíbles.
1. Se trata de una actuación que aparece en una estrategia y que no se llevaría a cabo si el jugador llegase al punto de tener que hacerla.

3. Para evitar equilibrios con amenazas no creíbles se refina el concepto de equilibrio de Nash buscando que el comportamiento de los agentes sea óptimo incluso en situaciones que no se producen en equilibrio.


4. El equilibrio de Nash perfecto en los subjuegos ocurre cuando el equilibrio en los subjuegos es un equilibrio de Nash. Esto implica la existencia de optimalidad incluso en aquellas ramas del juego a las que no se accede.


5. Estos equilibrios de Nash perfectos en los subjuegos se identifican mediante la búsqueda de la solución recursiva. Es decir, buscando en primer lugar los equilibrios de Nash en los subjuegos.


En el caso analizado anteriormente (1,ne) y (0,en) son equilibrios de Nash pero no son perfectos en los subjuegos. Se exige que la solución del juego sea un equilibrio perfecto en los subjuegos. En este caso nos quedamos exclusivamente con (0,nn).


la estrategia óptima del jugador A sea pagar la cantidad exigida pero que no se llevaría a cabo en caso de llegar a esa tesitura.
C q q




Ejemplo: amenaza no creíbles en la entrada en un mercado

La demanda de un mercado viene dada por la ecuación:
2. Sirve para mantener el equilibrio porque afecta a la decisión óptima del oponente


Función de costes:

C q q





P 41 Q


Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.