Probabilidade subjetiva na lógica indutiva: O Teorema de Bayes no raciocínio científico.

Share Embed


Descrição do Produto

Guilherme Prokisch de Oliveira

Probabilidade subjetiva na lógica indutiva: O Teorema de Bayes no raciocínio científico.

Brasil 2016

Guilherme Prokisch de Oliveira

Probabilidade subjetiva na lógica indutiva: O Teorema de Bayes no raciocínio científico.

Projeto para o trabalho de conclusão de curso do bacharelado em matemática aplicada do Instituto de Matemática e Estatística da Universidade de São Paulo.

Universidade de São Paulo Instituto de Matemática e Estatística Bacharelado em Matemática Aplicada

Orientador: Fabio Gagliardi Cozman

Brasil 2016

Sumário 1 Dedução, Indução e Probabilidade . 1.1 Introdução . . . . . . . . . . . . . 1.2 Argumentos . . . . . . . . . . . . 1.3 Lógica . . . . . . . . . . . . . . . 1.4 Lógica indutiva e lógica dedutiva 1.5 Probabilidade Epistêmica . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. 7 . 7 . 7 . 8 . 9 . 13

2 Axiomas da Probabilidade . . . . . 2.1 Os axiomas . . . . . . . . . . . 2.2 Teoremas úteis de probabilidade 2.3 Axiomas de Kolmogorov . . . . 2.3.1 Operadores infinitários .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

14 14 15 17 18

3 Epistemologia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Bayesianismo como projeto de uma lógica indutiva . . . . . . . . . 3.2 Graus de crença . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 O Dutch Book clássico . . . . . . . . . . . . . . . . . . . . . 3.3 Princípio da Condicionalização . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

19 19 19 20 22

4 Confirmação Bayesiana . . . . . . . . . . . 4.1 A noção Bayesiana de confirmação . . 4.2 Falseabilidade de uma hipótese . . . . 4.3 Verificação de consequências . . . . . . 4.4 O paradoxo dos corvos . . . . . . . . . 4.4.1 O Critério de Nicod . . . . . . . 4.5 A Tese Duhem-Quine . . . . . . . . . . 4.5.1 A Hipótese de Prout . . . . . . 4.5.2 Einstein e Newton e o eclipse de

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

24 24 24 25 28 29 30 31 33

. . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1919 . . . . . . . . . . . . .

5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Este trabalho é dedicado a minha família.

4

Agradecimentos A minha querida mãe e meu querido pai pelo apoio imenso nesses anos. A todos meus amigos do IME pelo tempo que passamos juntos e ensinamentos que deram. Ao professor Fábio pela paciência e gentileza no decorrer desse trabalho. A professora Sônia pela disposição em tirar minhas dúvidas e pela grande atenção que atende os alunos da Aplicada. Ao Rodrigo Borges, ao Luís Jardim e ao Nelson Cortez pela ajuda com o texto, o incentivo e a discussões. E a todos que direta ou indiretamente fizeram parte da minha formação. Muito obrigado!

"O Cálculo de Probabilidades não nos diz absolutamente nada sobre a realidade ... Tal como acontece com a lógica da certeza, a lógica do provável não acrescenta nada por si própria. Ela apenas ajuda a ver as implicações contidas no que tínhamos antes." Bruno de Finetti.

Resumo Este trabalho estuda a relação de probabilidade com o raciocínio científico indutivo. Para isso, o trabalho é divido em quatro partes. Primeiramente, uma discussão pré-teoria dos conceitos do raciocínio indutivo assim como suas diferenças e semelhanças com o raciocínio dedutivo. Na segunda parte, é introduzida uma axiomática para o conceito de probabilidade sob o domínio das linguagens de primeira ordem que dará suporte aos resultados dos capítulos seguintes. Posteriormente, dedica-se atenção aos conceitos do movimento epistemológico Bayesiano, mostrando como esses conceitos podem ser úteis como arcabouço teórico para justificação e tratamento do raciocínio indutivo. A última parte apresenta algumas soluções de problemas epistemológicos, e em filosofia da ciência, que podem ser resolvidos por meio dos conceitos introduzidos ao longo desse trabalho.

7

1 Dedução, Indução e Probabilidade 1.1 Introdução A vida consiste de tomada de decisões e escolhas. Tudo que é vivo em diferentes graus processa informação e a transforma em algum tipo de ação. O homem, em especial, possui grande capacidade de transformar estímulos sensoriais em signos abstratos. Esses signos são tratados de diversas maneiras pela mente e devolvidos em formas objetivas, ou em novos signos, para a realidade. A qualidade desses processos é essencial para a manutenção da vida. Processamentos ruins poderiam levar a consequências que confrontariam os estímulos da realidade, experimentados pelo homem, com as ações advindas desses processamento, chocando o homem com situações contrária a seu desejo e eventualmente fatalmente contrárias. A lógica é responsável pela certificação de qualidade de muitos desses processos. Ela é responsável por diferenciar maus processamentos dos bons e possui dois ramos principais: a) lógica indutiva e b) lógica dedutiva. Será apresentado e argumentado que a lógica indutiva está intrinsecamente ligada à noção de probabilidade.

1.2 Argumentos Expondo-se de maneira menos abstrata o que na introdução nos referimos como processo, na literatura da lógica este termo é denominado Argumento. Existem vários usos dessa palavra na linguagem comum. Na lógica o sentido escolhido ganha contornos definidos. O objetivo da lógica é a verificação da qualidade da ação pretendida levando em conta os estímulos iniciais. Para um estudo através da linguagem é necessário que todas essas etapas sejam traduzidas em enunciados da linguagem. Em lógica chamaremos de conclusão a ação defendida traduzida em enunciado ou, de forma breve, o enunciado defendido. Chamaremos de premissas do argumento, os estímulos considerados traduzidos em enunciados. Temos com isso uma coleção de enunciados. Ao encararmos essa maneira de conceber o argumento poderemos finalmente propor a seguinte definição: Definição 1: Um argumento é uma coleção de enunciados em que um é indicado como conclusão e os demais indicados como premissas. Normalmente argumentos são escritos na chamada forma lógica padrão, onde cada premissa é escrita em uma linha e passa-se um traço sob estas para separá-las da conclusão que vem escrita na linha seguinte. Exemplificando, o argumento "Rodrigo não era brasileiro

Capítulo 1. Dedução, Indução e Probabilidade

8

porque não fala português, e todos os brasileiros falam português"é escrito da forma lógica padrão como: Rodrigo não fala português. Todos os brasileiros falam português. Rodrigo não é brasileiro



1.3 Lógica Ao analisarmos a qualidade dos argumentos duas perguntas são essenciais. a) As premissas são verdadeiras? b) Admitindo que as premissas sejam verdadeiras, que tipo de apoio elas dão à conclusão? A primeira pergunta é de importância essencial para determinar a qualidade de um argumento. Contudo, verificar se os enunciados tomados como premissas são de fato uma tradução de algo real na linguagem, ou seja, se são factuais e verdadeiros é uma tarefa que foge do escopo da lógica. Por exemplo, as premissas de um argumento acerca de animais ruminantes serão muito melhor qualificadas por um zoólogo que por um lógico. No entanto a segunda pergunta é a matéria-prima da Lógica. Pergunta-se então: aceitando como verdadeiras as premissas, qual é o grau de confirmação que estas dão para a conclusão? Se as premissas são verdadeiras segue que é verdadeira a conclusão? As premissas fornecem evidências para a conclusão? Essas questões pertencem naturalmente à Lógica. Definição 2: Lógica é o estudo da qualidade da ligação entre premissas e conclusão de um argumento. Em alguns casos a qualidade da ligação entre premissas e conclusão do argumento é o mais forte possível de modo que a verdade das premissas assegura a verdade da conclusão. Consideremos o seguinte argumento: "Todo bom jogador tem sorte; Júlio é bom jogador. Logo, Júlio tem sorte". Nesses casos a qualidade de ligação é tão forte que assumindo as verdades das premissas também a conclusão é verdadeira. Diz-se que o argumento é dedutivamente válido. Em outros casos, a qualidade da ligação das premissas com a conclusão não é tão forte, ainda que as premissas apresentem algum apoio à conclusão. As premissas oferecem, algumas vezes, forte evidência para a conclusão; outras vezes, fraca. Por exemplo, consideremos o seguintes argumento: Carlos disse que matou Miguel. Fonseca assinou um documento afirmando que

Capítulo 1. Dedução, Indução e Probabilidade

9

viu Carlos atirando em Miguel. Muitas pessoas ouviram Miguel gritar ao morrer: "Carlos é o responsável". Logo Carlos matou Miguel. Mesmo que as premissas colaborem muito para a conclusão, vemos que estas não são por si definitivas para assegurar conclusão. Com efeito, é possível imaginar um situação em que as premissas sejam verdadeiras e a conclusão falsa. Imaginemos por exemplo, que Carlos sofre de delírios e, eventualmente, declara coisas que são falsas, e que Fonseca queria incriminar Carlos por vingança, e ao final Miguel confundiu Carlos com o Fonseca. É claro que essa situação é altamente improvável, entretanto não é impossível, portanto a verdade das premissas per se não é garantia da conclusão. Agora consideremos outro argumento: Leila sentia-se normal até ontem. A temperatura normal de Leila é 37,0 ∘ C. Um amigo disse que Leila parecia doente. Leila mediu sua temperatura e constatou que estava com 37,7 ∘ C. Logo Leila está doente. Nesse argumento vemos que as premissas ligam-se de maneira mais fraca à conclusão, embora não sejam inteiramente destituídas de mérito. Vemos que os argumentos podem ter vários graus de força. Entre o argumento mais forte e o mais fraco, além daqueles que as premissas são irrelevantes para conclusão, existe um espectro de forças intermediárias.

1.4 Lógica indutiva e lógica dedutiva Com o que foi exposto na seção anterior podemos definir de maneira mais precisa o que segue: Definição 3: Um argumento é dedutivamente válido se é impossível que sua conclusão seja falsa quando suas premissas são verdadeiras. Definição 4: Um argumento é indutivamente forte se e somente se: (i) É improvável que sua conclusão seja falsa dado que suas premissas são verdadeiras. (ii) Não é dedutivamente válido.

1

O grau de força indutiva é diretamente proporcional a quão improvável é a possibilidade de a conclusão ser falsa quando as premissas são verdadeiras. A palavra "impossível"na definição (3) merece um esclarecimento. Não se trata de uma impossibilidade física da conclusão, como, por exemplo, um ser humano bater os braços e voar. O sentido que chamamos de impossibilidade lógica é o de ter a conclusão falsa com as premissas sendo verdadeiras. Por exemplo, considerando o seguinte argumento 1

A condição (ii) é necessária pois todos os argumentos dedutivamente válidos satisfazem a condição (i).

Capítulo 1. Dedução, Indução e Probabilidade

10

dedutivamente válido: Todo bom cozinheiro sabe cozinhar legumes. Douglas não sabe cozinhar legumes.. Douglas não é um bom cozinheiro.



Para que a conclusão seja falsa, Douglas deve ser um bom cozinheiro. Para que a segunda premissa seja verdadeira ele não deveria saber cozinhar legumes. Entretanto para que a primeira premissa seja verdadeira ninguém poderia estar em tais circunstâncias, ou seja, admitir a negação da conclusão equivale a contradizer as asserções feitas nas premissas. Vemos aqui uma característica de todos os argumentos dedutivamente válidos. Se um argumento é dedutivamente válido então sua conclusão não abrange assertivas de ordem factual que já não estejam, ao menos implicitamente, nas premissas. Agora consideremos o seguinte argumento: Davi é um homem de 100 anos de idade. Davi tem artrite. Amanhã Davi não poderá correr 100 metros em 9,58 segundos



Supondo verdadeiras as premissas, o argumento não é dedutivamente válido. A afirmação factual da conclusão não está contida nas premissas, nada nos diz que homens de 100 anos, com artrite, são incapazes de correr 100 metros em 9,58 segundos. Se adicionássemos uma premissa com tal teor no argumento então se tornaria dedutivo. Por outro lado, o argumento parece bastante convincente, i.e, todos concordam que é improvável que homens de 100 anos de idade com artrite igualem o recorde mundial até Janeiro de 2016 dos 100 metros livres. Temos aqui um argumento indutivamente forte. Observa-se então que argumentos indutivamente fortes asseveram acerca de assertivas factuais que não estão contidas nas premissas. Nos argumentos indutivamente fortes incorremos no risco de passarmos a assertivas falsas na conclusão, mesmo tendo premissas verdadeiras. Esse é um risco que se têm ao obter as vantagens que os argumentos indutivamente fortes oferecem: a previsão de novos fatos, com base em fatos conhecidos. Vale um comentário à condição (i) da definição 4. Quando se diz que "dado que suas premissas são verdadeiras"não dizemos aqui o equivalente do julgamento da impossibilidade da conjunção da conclusão com as premissas, isto é, não estamos dizendo que "É improvável que sua conclusão seja falsa "e" suas premissas verdadeiras". Essa diferen-

Capítulo 1. Dedução, Indução e Probabilidade

11

ciação será importante para evidenciar diferenças da lógica indutiva em relação a lógica dedutiva. Para se tornar mais claro o que significa "quando suas premissas são verdadeiras"e o porquê seria equivocado usar a conjunção "e"tomemos por exemplo o seguinte argumento, imaginando que numa sala existem seis cachorros com coleiras de várias cores e que vemos que: O Cachorro com coleira preta sabe tocar piano muito bem O Cachorro com coleira azul sabe tocar piano muito bem O Cachorro com coleira vermelha sabe tocar piano muito bem O Cachorro com coleira branca sabe tocar piano muito bem O Cachorro com coleira laranja sabe tocar piano muito bem

O Cachorro com coleira verde sabe tocar piano muito bem



Vemos que a conclusão isolada é improvável, ou seja, é provável que seja falsa. Mas levando em conta (dado que) o que foi encerrado nas premissas seria improvável que a conclusão seja falsa. Em outras palavras, se as premissas fossem evidências factuais, então com base nessas informações seria provável a verdade da conclusão. Isso não se altera ao constatar que as premissas isoladamente são altamente improváveis. Consequentemente, embora a conclusão e as premissas consideradas isoladamente sejam improváveis a conclusão é provável, face as premissas. Esse exemplo ilustra um importante princípio: O tipo de probabilidade que mede a força indutiva de um argumento - chamada probabilidade indutiva - não depende apenas das premissas ou da conclusão consideradas isoladamente, mas da relação, em termos de evidência, que se estabelece entre as premissas e a conclusão. Vejamos agora porque seria incorreto usar a conjunção "e" na definição 4. Consideramos o seguinte argumento que não é indutivamente forte:

Há um homem no Paraná que tem 2 mil anos

Há um homem no Paraná que tem 2 mil anos e três cabeças.



Vemos que é provável que a conclusão seja falsa, mesmo supondo a premissa, pois mesmo que existisse um homem de 2 mil anos no Paraná seria razoável pensar que ele não possui três cabeças. Portanto o argumento não é indutivamente forte. Contudo veremos que é improvável que a conclusão seja falsa "e" a premissa verdadeira - aqui avaliamos a conjunção da conclusão e da premissa. Para que a conclusão seja falsa e a premissa seja verdadeira equivaleria dizer que existe um homem no Paraná que não possui três cabeças,

Capítulo 1. Dedução, Indução e Probabilidade

12

mas é improvável que exista qualquer homem de 2 mil anos no paraná logo a conjunção da premissa e da negação da conclusão é improvável.2 Percebemos aqui que a força indutiva de um argumento é um objeto que não é somente determinado apenas pelas premissas, pois mesmo que seja improvável que a conclusão seja falsa e as premissas verdadeiras, é provável que a conclusão seja falsa dado que (levando em conta que, admitindo que, supondo que ou qualquer expressão similiar para essa noção) o argumento com consequência não é indutivamente forte. Se realizarmos um paralelo com os argumentos dedutivos vemos que na lógica indutiva não valerá o Principio da Explosão (ex contradictione sequitur quodlibet). Em lógica dedutiva o seguinte argumento é conhecidamente dedutivamente válido: (𝜑 ∧ ¬𝜑) → 𝜓. Por outro lado, em um argumento indutivo em que a premissa é improvável (analogamente a contradição de (𝜑 ∧ ¬𝜑) ) poderiamos ter que é improvável a conclusão dado que as premissas são verdadeiras e portanto o argumento não é indutivamente forte. Uma outra característica apresentada nos argumentos indutivos é de ser improvável a conjunção das premissas e da negação da conclusão, simplesmente por que é provável que a conclusão seja verdadeira isoladamente. É de notar que isso não assegura que o argumento seja indutivamente forte. Por exemplo, considerando o seguinte argumento indutivo que não é indutivamente forte: Há um homem no Paraná que tem 1999 anos e 11 meses de idade e tem uma saúde excelente.

Nenhum homem atinge os 2 mil anos de idade.



A conclusão considerada isoladamente é provável, portanto, é improvável que seja falsa. Logo a conjunção da negação da conclusão com a premissa também é improvável. Mas é evidente que o argumento não é indutivamente forte quando dado as premissas. Do mesmo modo se realizarmos um paralelo com os argumentos dedutivos vemos que não vale o princípio da lógica dedutiva onde uma tautologia é consequência dedutiva de qualquer enunciado. Em lógica dedutiva o seguinte argumento é conhecidamente dedutivamente válido: 𝜑 → 𝜓 onde 𝜓 é uma tautologia. Por outro lado, em um argumento indutivo em que a conclusão é provável isoladamente, de certa forma "autoevidente"(analogamente a uma tautologia em lógica dedutiva) poderiamos ter que certas premissas tornariam um argumento com tal conclusão indutivamente fraco. 2

Veremos formalmente na segunda parte deste trabalho que isso equivale a dizer que uma conjunção não pode ser mais provável do qualquer uma das sentenças que formam a conjunção.

Capítulo 1. Dedução, Indução e Probabilidade

13

1.5 Probabilidade Epistêmica Vimos que o conceito de probabilidade indutiva se aplica aos argumentos, pois é a medida de força indutiva que liga a evidência que as premissas imprimem à conclusão. É correto falar sobre a probabilidade indutiva de um argumento, mas incorreto falar de probabilidade indutiva de um enunciado. Há no entanto certo sentido de probabilidade com relação a enunciados. Fizemos em certa medida isso ao analisar as possibilidades das premissas e das conclusões isoladas. Quando dizemos que não existe um homem de 2 mil anos no Paraná estamos nos baseando numa probabilidade intuitivamente compreendida levando em conta nosso conhecimento anterior do mundo. Isso é motivação então para que possamos definir o conceito de probabilidade epistêmica, que se aplica a enunciados. Tal tipo de probabilidade pode ser definida em termos de probabilidade indutiva. Definição 5: A probabilidade epistêmica de um enunciado é a probabilidade indutiva do argumento que tenha o enunciado em questão como sua conclusão e cujas premissas contenham todo o nosso conhecimento fatual pertinente. A probabilidade epistêmica de enunciados depende do conhecimento pertinente que dispomos. Assim, a probabilidade epistêmica de um enunciado pode variar de pessoa para pessoa e de época para época, pois diferentes pessoas possuem uma extensão de conhecimentos diferentes. Estamos sempre aprendendo coisas novas, através da experiência ou através de informações que outras pessoas nos transmitem. Por outro lado, estamos sempre esquecendo coisas que já sabemos. O conhecimento humano se modifica, continuamente, como um processo dinâmico de expansão e retração. Em uma prévia das notações introduzidas nos próximos capítulos e seguindo autores como [Jeffreys, 1967] e [De Finetti and de Finetti, 1990] podemos expressar a probabilidade epistêmica de um enunciado ”𝑎” com relação ao conjunto 𝐾 de todo conhecimento e informações subjetivamente disponíveis como 𝑃 (𝑎|𝐾) ou simplesmente 𝑃 (𝑎).

14

2 Axiomas da Probabilidade Na seção anterior vimos uma abordagem filosófica onde se situam os problemas da lógica indutiva no objetivo de determinar um método de avaliação de argumentos indutivamente fortes. Ao longo da história muitas ramificações do problema foram expostas. Tentarei nesse trabalho expor de maneira ingênua e resumida como o cálculo de probabilidades, que surgiu no último século, exibe um arcabouço filosófico para abordagem dos métodos indutivos na prática cientifica. O objetivo desse trabalho é adotar a chamada "interpretação subjetivista de probabilidade". Com isso queremos dizer que nosso objetivo é transformar conceitos filosóficos e cotidianos não tão precisos em conceitos adequados para a teorização e prática cientifica e filosófica. Essa tarefa poderia ser no sentido de [Carnap et al., 1962] um "explicatum". Em suma, um explicatum é a tarefa de atribuir significados familiares para os termos primitivos de um sistema formal, ou seja, atribuir significado familiar a seus axiomas e teoremas com o objetivo de torná-los verdadeiros sobre alguma discussão de interesse. Contudo, não existe um único sistema formal possível para a "probabilidade". A axiomática de Kolmogorov alcançou o status da ortodoxia e é tipicamente o que matemáticos e filósofos tem em mente quando se pensa em uma teoria das probabilidades. Contudo muitas das interpretações (explicatum) correntes falham em satisfazer todos os axiomática de Kolmogorov. Ainda mais, muitas outras quantidades que não são relacionadas com probabilidade satisfazem os axiomas de Kolmogorov, e portanto poderiam ser explicações em estrito senso: massas normalizadas, comprimentos, áreas, volumes, e outras quantidades todas estão no escopo da teoria matemática da medida. No entanto, ninguém seriamente consideraria essas quantidades como sendo também "interpretações de probabilidade", pois essas não iriam se aplicar adequadamente a nosso aparato conceitual.

2.1 Os axiomas Para seguir a abordagem feita no capítulo 1 e de maneira a tornar em primeiro momento mais clara e geral a exposição da relação do cálculo de probabilidades com a lógica indutiva e dedutiva. Seguirei o desenvolvimento da axiomatização de [Urbach and Howson, 1993, p. 21]. Probabilidades são valores de uma função 𝑃 que tem domínio em uma coleção arbitrária de sentenças que pode ser a qualquer momento modificada. (𝑃 em stricto sensu nem mesmo é uma função, pois funções tem um domínio fixado, ignorando essa minúcia e

Capítulo 2. Axiomas da Probabilidade

15

mesmo assim nos referindo a 𝑃 como uma função, mas que o domínio pode ser indeterminado). Os axiomas são quatro. O primeiro estabelece que probabilidade são valores reais não negativos. O segundo estabelece que para toda tautologia é atribuindo o valor 1. O terceiro diz que a soma das probabilidades de duas sentenças mutualmente inconsistentes é igual a probabilidade da dijunção delas. Em símbolos: 1. 𝑃 (𝑎) ≥ 0, ∀𝑎 no domínio de P. 2. 𝑃 (𝑡) = 1 se 𝑡 é uma tautologia. 3. 𝑃 (𝑎 ∨ 𝑏) = 𝑃 (𝑎) + 𝑃 (𝑏) se 𝑎 e 𝑏 e 𝑎 ∨ 𝑏 estão no domínio de 𝑃 , e 𝑎 e 𝑏 são mutuamente exclusivos, i.e, se ¬(𝑎 ∧ 𝑏). Pode ser que o domínio 𝐷 de 𝑃 não inclua sentenças mutuamente exclusivas, e ainda assim (1)- (3) estão todas satisfeitas, (3) será satisfeita por vacuidade. Os axiomas 1-3 são usados para gerar a parte do cálculo de probabilidades denominado absoluto, ou probabilidades não-condicionais. O quarto diz respeito a função de probabilidade com respeito a duas variaveis chamada probabilidade condicional, e a probabilidade condicional de 𝑎 dado 𝑏 é escrita como 𝑃 (𝑎|𝑏) definida como: 4. 𝑃 (𝑎|𝑏) =

𝑃 (𝑎∧𝑏) 𝑃 (𝑏)

onde 𝑎,𝑏, e 𝑎 ∧ 𝑏 estão no domínio de 𝑃 e 𝑃 (𝑏) ̸= 0.

2.2 Teoremas úteis de probabilidade O primeiro resultado mostra que a probabilidade de uma sentença e da sua negação somam 1. Teorema 2.2.1. 𝑃 (¬𝑎) = 1 − 𝑃 (𝑎) Demonstração. 𝑎 ⊢ ¬¬𝑎. Logo por (3) 𝑃 (𝑎∨¬𝑎) = 𝑃 (𝑎)+𝑃 (¬𝑎). Mas por (2), 𝑃 (𝑎∨¬𝑎) = 1, portanto vale 2.2.1. Depois é fácil mostrar que uma contradição tem probabilidade 0. Teorema 2.2.2. 𝑃 (𝑓 ) = 0, onde 𝑓 é um contradição. Demonstração. Temos que ¬𝑓 é um tautologia. Logo 𝑃 (¬𝑓 ) = 1 e por 2.2.1 𝑃 (𝑓 ) = 0. O próximo resultado mostra que sentenças equivalentes tem a mesma probabilidade. Teorema 2.2.3. Se 𝑎 ⇔ 𝑏 então 𝑃 (𝑎) = 𝑃 (𝑏).

Capítulo 2. Axiomas da Probabilidade

16

Demonstração. Note que 𝑎 ∨ ¬𝑏 é uma tautologia se 𝑎 ⇔ 𝑏. Assumindo que 𝑎 ⇔ 𝑏 . Então 𝑃 (𝑎 ∨ ¬𝑏) = 1. Também se 𝑎 ⇔ 𝑏 então 𝑎 ⊢ ¬¬𝑏; logo 𝑃 (𝑎 ∨ ¬𝑏) = 𝑃 (𝑎) + 𝑃 (¬𝑏). Mas por 2.2.1 𝑃 (¬𝑏) = 1 − 𝑃 (𝑏), então 𝑃 (𝑎) = 𝑃 (𝑏). Podemos provar agora uma importante propriedade da função de probabilidade, mostrando que ela respeita a relação de implicação, i.e, a probabilidade de qualquer consequência de 𝑎 é maior ou igual 𝑎. Teorema 2.2.4. Se 𝑎 ⊢ 𝑏 então 𝑃 (𝑎) ≤ 𝑃 (𝑏) Demonstração. Se 𝑎 ⊢ 𝑏 então [𝑎 ∨ (𝑏 ∧ ¬𝑎)] ⇔ 𝑏. Logo por 2.2.3 𝑃 (𝑏) = 𝑃 ([𝑎 ∨ (𝑏 ∧ ¬𝑎)]). Mas 𝑎 ⊢ ¬(𝑏 ∧ ¬𝑎) e então 𝑃 (𝑎 ∨ (𝑏 ∧ ¬𝑎)) = 𝑃 (𝑎) + 𝑃 (𝑏 ∧ ¬𝑎) . Então 𝑃 (𝑏) = 𝑃 (𝑎) + 𝑃 (𝑏 ∧ ¬𝑎). Mas por (1) 𝑃 (𝑏 ∧ ¬𝑎) ≥ 0, então 𝑃 (𝑎) ≤ 𝑃 (𝑏). De 2.2.4 segue que probabilidade é um número entre 0 e 1. Teorema 2.2.5. 0 ≤ 𝑃 (𝑎) ≤ 1, ∀𝑎 em 𝑆 Demonstração. Pelo axioma (1), 𝑃 (𝑎) ≥ 0, e como 𝑎 ⊢ 𝑡, onde 𝑡 é qualquer tautologia, temos por 2.2.4 que 𝑃 (𝑎) ≤ 𝑃 (𝑡) = 1 Mostraremos agora a aditividade finita. Teorema 2.2.6. Suponha que 𝑎𝑖 ⊢ ¬𝑎𝑗 onde 1 ≤ 𝑖 < 𝑗 ≤ 𝑛. Então: 𝑃 (𝑎1 ∨ · · · ∨ 𝑎𝑛 ) = 𝑃 (𝑎1 ) + · · · + 𝑃 (𝑎𝑛 ). Demonstração. 𝑃 (𝑎1 ∨ · · · ∨ 𝑎𝑛 ) = 𝑃 ((𝑎1 ∨ · · · ∨ 𝑎𝑛−1 ) ∨ 𝑎𝑛 ), assumindo que 𝑛 > 1; caso contrario o resultado é trivial. Então se 𝑎𝑖 ⊢ ¬𝑎𝑗 , ∀𝑖 ̸= 𝑗, então segue que 𝑎1 ∨ · · · ∨ 𝑎𝑛−1 ⊢ ¬𝑎𝑛 . Logo 𝑃 (𝑎1 ∨· · ·∨𝑎𝑛 ) = 𝑃 (𝑎1 ∨· · ·∨𝑎𝑛−1 )+𝑃 (𝑎𝑛 ). Por indução segue-se o teorema. Corolário 2.2.6.1. Se 𝑎1 ∨ · · · ∨ 𝑎𝑛 é uma tautologia, e 𝑎𝑖 ⊢ 𝑎𝑗 , 𝑖 ̸= 𝑗, então 1 = 𝑃 (𝑎1 ) + · · · + 𝑃 (𝑎𝑛 ) O próximo resultado é chamado "Teorema das probabilidades totais". Teorema 2.2.7. Se 𝑃 (𝑎1 ∨ · · · ∨ 𝑎𝑛 ) = 1, e 𝑎𝑖 ⊢ ¬𝑎𝑗 com 𝑖 ̸= 𝑗, então 𝑃 (𝑏) = 𝑃 (𝑏 ∧ 𝑎1 ) + · · · + 𝑃 (𝑏 ∧ 𝑎𝑛 ) para qualquer sentença 𝑏. Demonstração. 𝑏 ⇔ (𝑏 ∧ 𝑎1 ) ∨ · · · ∨ (𝑏 ∧ 𝑎𝑛 ) ∨ [𝑏 ∧ ¬(𝑎1 ∨ · · · ∨ 𝑎𝑛 )]. Notando que todas as disjunções da direita são mutuamente exclusivas. Seja 𝑎 = 𝑎1 ∨ · · · ∨ 𝑎𝑛 . Segue de 2.2.6 que 𝑃 (𝑏) = 𝑃 (𝑏 ∧ 𝑎1 ) + · · · + 𝑃 (𝑏 ∧ 𝑎𝑛 ) + 𝑃 (𝑏 ∧ ¬𝑎). Mas por 2.2.4 temos 𝑃 (𝑏 ∧ ¬𝑎) ≤ 𝑃 (¬𝑎), e 𝑃 (¬𝑎) = 1 − 𝑃 (𝑎) = 1 − 1 = 0. Portanto 𝑃 (𝑏 ∧ ¬𝑎) = 0 e fica demostrado 2.2.7 Corolário 2.2.7.1. Se 𝑎1 ∨ · · · ∨ 𝑎𝑛 é uma tautologia, e 𝑎𝑖 ⊢ ¬𝑎𝑗 , 𝑖 ̸= 𝑗, então 𝑃 (𝑏) = 𝑃 (𝑏 ∧ 𝑎𝑖 )

∑︀

Capítulo 2. Axiomas da Probabilidade

17

Corolário 2.2.7.2. Se 𝑃 (𝑎1 ∨ · · · ∨ 𝑎𝑛 ) = 1 e 𝑎𝑖 ⊢ ¬𝑎𝑗 , 𝑖 ̸= 𝑗, e 𝑃 (𝑎𝑖 ) > 0 então ∀𝑏, 𝑃 (𝑏) = 𝑃 (𝑏|𝑎1 )𝑃 (𝑎1 ) + · · · + 𝑃 (𝑏|𝑎𝑛 )𝑃 (𝑎𝑛 ). Teorema 2.2.8. Se ℎ ⊢ e 𝑃 (ℎ) > 0 e 𝑃 (𝑒) < 1, então 𝑃 (ℎ|𝑒) > 𝑃 (ℎ) Demonstração. Se ℎ ⊢ 𝑒 temos que (ℎ∧𝑒) ⇔ ℎ e se 𝑃 (𝑒) < 1 segue que 𝑃 (ℎ|𝑒) = 𝑃 (ℎ ∧ 𝑒) = 𝑃 (ℎ)

𝑃 (ℎ∧𝑒) 𝑃 (𝑒)

>

A importância fundamental de 2.2.8 se dá em sua interpretação no cálculo de probabilidades como uma lógica para a inferência indutiva. Por essa razão empregamos as letras ℎ e 𝑒; em interpretações indutivas ℎ representará alguma hipótese e 𝑒 alguma evidência. 2.2.8 mostra que se ℎ prediz 𝑒 então a ocorrência de 𝑒, se as condições de 2.2.8 são satisfeitas, aumenta a probabilidade de ℎ. Outro importante resultado para exibir a natureza indutiva do raciocínio probabilístico é o Teorema de Bayes. Apresenteremos aqui em três formas. Teorema 2.2.9. 𝑃 (ℎ|𝑒) = Demonstração. 𝑃 (ℎ|𝑒) =

𝑃 (𝑒|ℎ)𝑃 (ℎ) 𝑃 (𝑒)

𝑃 (ℎ∧𝑒) 𝑃 (𝑒)

=

onde 𝑃 (ℎ), 𝑃 (𝑒) > 0

𝑃 (𝑒|ℎ)𝑃 (ℎ) 𝑃 (𝑒)

Teorema 2.2.10. Se 𝑃 (ℎ1 ∨ · · · ∨ ℎ2 ) = 1 e ℎ𝑖 ⊢ ℎ𝑗 , 𝑖 ̸= 𝑗 e 𝑃 (ℎ𝑖 ), 𝑃 (𝑒) > 0 então 𝑃 (𝑒|ℎ)𝑃 (ℎ) 𝑃 (ℎ|𝑒) = ∑︀ 𝑃 (𝑒|ℎ𝑖 )𝑃 (ℎ𝑖 ) Teorema 2.2.11. 𝑃 (ℎ|𝑒) =

𝑃 (ℎ) 𝑃 (ℎ)+

𝑃 (𝑒|¬ℎ) 𝑃 (¬ℎ) 𝑃 (𝑒|ℎ)

2.3 Axiomas de Kolmogorov A axiomatização da Probabilidade por Kolmogorov se deu em seu livro Fundações da Teoria da Probabilidade (1933). Dado Ω um conjunto não vazio ("O espaço universo", ou "espaço amostral"). Uma álgebra sobre Ω é um conjunto 𝐹 de subconjuntos de Ω que tem Ω como elemento, e que é fechado para o complemento (com respeito a Ω) e fechado para a união. Dado 𝑃 uma função de 𝐹 em R tal que: 1. 𝑃 (𝐴) ≥ 0, ∀𝐴 ∈ 𝐹 . 2. 𝑃 (Ω) = 1. 3. 𝑃 (𝐴 ∪ 𝐵) = 𝑃 (𝐴) + 𝑃 (𝐵) ∀𝐴, 𝐵 ∈ 𝐹 tal que 𝐴 ∩ 𝐵 = ∅ Chama-se 𝑃 uma função de probabilidade e (Ω, 𝐹, 𝑃 ) um espaço de probabilidade. Pode-se pensar que o formalismo de Kolmogorov representa uma nova intepretação distinta do cálculo de probabilidades (Popper chamou de interpretação measure-theoric).

Capítulo 2. Axiomas da Probabilidade

18

De fato, Ω tem o objetivo de descrever um possível estado de coisas no qual pode ser usado uma específica estrutura conceitual, ou uma linguagem. Os elementos de 𝐹 são uma extensão mais geral de descrições que é fechada para operadores de conjunção, disjunção e negação. Contudo, o formalismo de Kolmogorov difere do formalismo apresentado antes somente em atribuir probabilidades para extensões de sentenças do que para as sentenças em si, uma extensão. Em filosofia uma extensão de uma sentença é chamada proposição representada por ela. Duas sentenças podem possuir a mesma proposição, por exemplo: "O resultado é um número impar", ou "’X=1’ onde X é um indicador de um número ser impar"possuem a mesma proposição. Então a álgebra "𝐹 "no formalismo de Kolmogorov poderia ser formalmente identificada com um conjunto de proposições geradas por algum universo do discurso. Vemos que os conectivos lógicos ∧, ∨, ¬ das sentenças são substituídas pelos operadores conjuntistas de interseção, união e complementar em conjunto que poderíamos imaginar como sendo o universo das proposições. É possível mostrar o homeomorfismo dos três primeiros axiomas da seção 2.1 nos axiomas de Kolmogorov simplesmente considerando por exemplo um mapa que associa a uma sentença "a"sua proposição "A". Dado o homeomorfismo existente entre os dois conjuntos de axiomas, a preferência por um ou por outro, ao menos nos resultados obtidos pelos axiomas homeomorfos, se dá por conveniência. De fato, o formalismo de Kolmogorov é mais simples e possui a vantagem de ser livre de linguagem além de introduzir mais um axioma. Vamos mostrar na próxima seção que a introdução desse axioma permite atribuir probabilidade a proposições nas quais não poderiam ser estabelecidas por qualquer sentença em linguagem de primeira ordem.

2.3.1 Operadores infinitários Como do ponto de vista da teoria dos conjuntos, uma álgebra 𝐹 possui enumeráveis uniões e interseções de conjuntos. Kolmogorov estipulou que 𝐹 deve ser fechada não somente para os correspondentes operadores de conjunção, disjunção e para negação mas também sobre infinitas operações enumeráveis deles. Toda álgebra que obedece a essa condição é chamada 𝜎-álgebra. Isso equivaleria a dizer que proposições da forma ∪𝐴𝑖 seriam correspondentes de "sentenças"de primeira ordem da forma 𝑎1 ∨ 𝑎2 ∨ 𝑎3 ∨ · · · e proposições da forma ∩𝐴𝑖 a "sentenças"da forma 𝑎1 ∧ 𝑎2 ∧ 𝑎3 ∧ · · ·. Por isso tendo estipulado o domínio de P como 𝐹 . Kolmogorov adotou um axioma adicional chamado Axioma da Continuidade, que requer ∑︀ que: 𝑃 (∪𝐴𝑖 ) = 𝑃 (𝐴𝑖 ).

19

3 Epistemologia Bayesiana O Bayesianismo Epistemológico é um programa filosófico iniciado no século XX. Duas características principais podem ser destacadas: (1) A introdução de um aparato formal para lógica indutiva; (2) a introdução de um teste para o raciocínio epistêmico como maneira de estender a justificação das leis da lógica dedutiva para as leis da lógica indutiva. O aparato formal possui dois elementos principais: o uso das leis da probabilidade como restrições de coerência sobre os graus de crença e a introdução de uma regra de inferência probabilística o princípio de condicionalização.

3.1 Bayesianismo como projeto de uma lógica indutiva No capítulo 1 estudamos as diferenças entre o raciocínio dedutivo e indutivo. Ao estudarmos a lógica dedutiva vemos que ela é definida de modo a criar duas restrições ao pensamento racional, que são: A noção de validade de um argumento (Definição 3 ), chamada restrição Sincrônica, e as regras de inferência dedutiva (não apresentadas neste trabalho) que restringem as mudanças admissíveis no pensamento dedutivo, chamada de restrição diacrônica. Por exemplo, modus ponens é uma regra de inferência dedutiva que requer que infiramos 𝑄 a partir das premissas 𝑃 e 𝑃 → 𝑄. O que veremos agora é como os Bayesianos propõem refinamentos das definições dos argumentos indutivos estudadas no capítulo 1, com intuito de criar padrões de validade sincrônica e diacrônica. A validade sincrônica se dá na coerência probabilística e a validade diacrônica nas regras de inferência probabilística, ambas aplicadas a graus de crenças de um enunciado. Para os Bayesianos a coerência probabilística se dá quando os graus de crença seguem as leis de probabilidade. E a regra mais importante de inferência probabilística é o princípio da condicionalização.

3.2 Graus de crença Muitos argumentos tem sido usados para mostrar que graus de crença em enunciados devem seguir as regras da probabilidade expostas no Capítulo 2. O tipo mais proeminente deles é conhecido como argumentos de Dutch Book. Em casa de apostas um Dutch Book é um conjunto de apostas e prêmios que certamente levam ao prejuízo (ou lucro) do apostador e o lucro (ou prejuízo) da casa de apostas. Isso indica que as probabilidades associadas as apostas não estão sendo coerentes gerando uma espécie de contradição sobre os graus de crença.

Capítulo 3. Epistemologia Bayesiana

20

3.2.1 O Dutch Book clássico Um argumento de "Dutch Book"sempre apresenta algum grau de normatividade para conectar graus de crença com carteiras de um jogo de aposta. Por exemplo uma pessoa "A"com grau de crença 𝑝 em uma sentença 𝐻 é assumido como representando um apostador A que compraria um direito de aposta por $𝑝 de um outra pessoa B, para uma aposta que paga um prêmio $𝑆 em 𝐻(i.e, uma aposta que B paga $𝑆 para A se 𝐻 é verdadeira) e venderia o direto a aposta por qualquer preço igual ou maior que 𝑝. Um Dutch book sincrônico é um conjunto de combinações de apostas e prêmios que serão todos aceitos todos ao mesmo tempo. O Teorema de Ramsey-de Finetti emprega um argumento de "Dutch book"sincrônico para mostrar que as leis da probabilidade são os padrões de uma validade sincrônica dos graus de crença de sentenças. Agora definindo estratégia de aposta com respeito ao conjunto de hipóteses ℎ1 , ℎ2 , ... sendo um conjunto de instruções da forma "aposte em ℎ𝑖 "para cada 𝑖. Suponha que 𝑝1 , 𝑝2 , ... sendo o conjunto de valores pagos de A para B pelas respectivas hipóteses ℎ𝑖 . Teorema 3.2.1. Se os 𝑝𝑖 não satisfazem os axiomas de probabilidade, então existe uma estratégia de aposta e um conjunto 𝑆𝑖 de prêmios tal que, o par (A,B) que segue esta estratégia de aposta necessariamente A ou B perde uma soma finita qualquer que seja os valores verdade assumidos por ℎ𝑖 Demonstração. Vemos que os cenários possíveis de retorno para A e B em uma aposta 𝑖 é: ℎ𝑖

Retorno de A

Retorno de B

V F

𝑆𝑖 − 𝑝𝑖 −𝑝𝑖

𝑝𝑖 − 𝑆 𝑖 𝑝𝑖

Para a violação do Axioma 1 temos: Suponha que 𝑝𝑖 < 0. Tomando 𝑆𝑖 = 1, claramente A tem um ganho em ambos os cenários independente do resultado de ℎ𝑖 . Caso ℎ𝑖 seja verdadeiro o retorno de A é 1 + 𝑝𝑖 , e 𝑝𝑖 caso ℎ𝑖 seja falso. Logo B certamente perde. Portanto o grau de crença em ℎ𝑖 deve ser positivo. Para a violação do Axioma 2 temos: Suponha que 𝑡 = ℎ𝑖 é uma tautologia. Seja 𝑆𝑖 = 1. Se 𝑝𝑖 < 1, como sempre ℎ𝑖 é verdadeira pois é uma tautologia, certamente B terá um perda de maior 0; se 𝑝𝑖 > 1 nesse caso certamente 𝐴 terá uma perda maior que 0. Por tanto o coeficiente coerente em uma tautologia é 𝑝𝑖 = 1. Para a violação do Axioma 3 temos:

Capítulo 3. Epistemologia Bayesiana

21

Suponha que duas hipóteses ℎ𝑖 e ℎ𝑗 são mutualmente exclusivas. Suponha 𝑆𝑖 = 𝑆𝑗 = 1. Nesse caso temos que os cenários possíveis de retorno de A e B é: ℎ𝑖

ℎ𝑗

Retorno de A

T F F

F T F

1 − 𝑝𝑖 − 𝑝𝑗 = 1 − (𝑝𝑖 + 𝑝𝑗 ) −𝑝𝑖 + 1 − 𝑝𝑗 = 1 − (𝑝𝑖 + 𝑝𝑗 ) −𝑝𝑖 − 𝑝𝑗 = −(𝑝𝑖 + 𝑝𝑗 )

Que é equivalente a ℎ𝑖 ∨ ℎ𝑗

Retorno de A

T F

1 − (𝑝𝑖 + 𝑝𝑗 ) −(𝑝𝑖 + 𝑝𝑗 )

Logo separar apostas em 𝑎 e 𝑏 equivale a uma aposta na disjunção ℎ𝑖 ∨ ℎ𝑗 que tem o prêmio de $1 e pagando $(𝑝𝑖 + 𝑝𝑗 ). Agora supondo uma aposta contra a disjunção pagando 𝑟 diferente de (𝑝 + 𝑞), onde o prêmio também é de 1, então seu ganho relativo sera de 𝑟 − (𝑝 + 𝑞), qualquer que seja os valores verdades de 𝑎 e 𝑏. ℎ𝑖 ∨ ℎ𝑗

Retorno de A

T F

1 − (𝑝𝑖 + 𝑝𝑗 ) − (1 − 𝑟) = 𝑟 − (𝑝 + 𝑞) −(𝑝𝑖 + 𝑝𝑗 ) + 𝑟 = 𝑟 − (𝑝 + 𝑞)

Portando se sua aposta em ℎ𝑖 é 𝑝𝑖 e em ℎ𝑗 é 𝑝𝑗 , sua aposta coerente em ℎ𝑖 ∨ ℎ𝑗 de ser 𝑝𝑖 + 𝑝𝑗 . E assim fica provada a aditividade.

Ramsey e De Finetti usaram um argumento de "Dutch Book"sincrônico para mostrar que os primeiros três axiomas de probabilidade impõem um padrão de validade sincrônica para os graus de crença. O primeiro argumento Dutch Book diacrônico foi mostrado por [Teller, 1973] e creditado a David Lewis. O argumento de Lewis/Teller apresenta ainda mais um grau de normatividade em respeito a graus de crença condicionais. Para isso é usado o conceito de aposta condicional. Uma aposta condicional em ℎ dado 𝑒 é uma aposta em ℎ na qual é procedida ao evento 𝑒 caso 𝑒 seja verdadeiro, e jogada fora caso 𝑒 seja falso. Os cenários de retorno de 𝐴 em uma aposta condicional em ℎ dado 𝑒 pagando 𝑝 e com prêmio 𝑆 é então: ℎ

𝑒

Retorno de A

T 𝑆(1 − 𝑝) T −𝑝𝑆 F 0 Se define então o graus de crença em ℎ dado 𝑒 sendo o valor pago 𝑝 pela aposta condicional de 𝑎 dado 𝑏. T F

Agora pode-se mostrar que se o Axioma 4 não é satisfeito então existe um Dutch

Capítulo 3. Epistemologia Bayesiana

22

Book para essa estratégia. Para isso se mostra que a escolha de combinações adequadas de hipóteses determina uma outra aposta. Mostraremos que escolhendo um prêmio adequado 𝑆1 e 𝑆2 para em apostas sobre 𝑒 e ℎ∧𝑒 respectivamente, essas duas apostas são equivalentes a uma aposta condicional de ℎ dado 𝑒. Demonstração. Suponha que para apostas em ℎ ∧ 𝑒 e 𝑏 são pagos $𝑞 e $𝑟 respectivamente, com 𝑟 > 0. Suponha que A aposta em ℎ ∧ 𝑒 prêmio de 𝑟 e que contra 𝑏 com prêmio 𝑞. Os cenários de retorno de 𝐴 são: ℎ∧𝑒

𝑒

Retorno de A

T 𝑟(1 − 𝑞) − 𝑞(1 − 𝑟) = 𝑟(1 − 𝑞𝑟 ) T −𝑟𝑞 − 𝑞(1 − 𝑟) = −𝑞 = −𝑟( 𝑞𝑟 ) F −𝑟𝑞 + 𝑞𝑟 = 0 Mas claramente são iguais aos cenários de retorno de uma aposta condicional de ℎ dado 𝑒, com prêmio de 𝑟 e um pagamento de 𝑞𝑟 , i.e., a divisão dos pagamentos 𝑞 de ℎ ∧ 𝑒. Logo, se é atribuído um pagamento em ℎ dado 𝑒 que difere 𝑞𝑟 , significaria que está sendo implicitamente atribuído outros valores de pagamento em ℎ ∧ 𝑒 e 𝑒 T F

3.3 Princípio da Condicionalização Na seção anterior mostramos que de se graus de crença válidos, segundo a noção Bayesiana, obedecem aos axiomas de de probabilidade. Esses graus de crença são graus de crença em um determinado tempo 𝑡. E por isso os argumentos de Dutch Book ou os demais, são considerados restrições Sincrônicas sobre a lógica indutiva. Também chamado de cálculo de probabilidade sincrônico. Umas das consequência do cálculo de probabilidade é o Teorema de Bayes e sabemos que o Teorema de Bayes regula a maneira na qual crenças são atualizadas ao receberem evidências. Mas a atualizar crenças significa mudar de uma primeira função de probabilidade 𝑃 (em um tempo 𝑡1 ) motivada por uma evidência 𝑒 que tinha probabilidade menor que 1 em 𝑡1 . (Se 𝑒 tem probabilidade 1, então 𝑃 (ℎ|𝑒) = 𝑃 (ℎ) e então 𝑒 não teria qualquer poder de confirmação desde início), para outro valor 𝑃 ′ (em um tempo 𝑡2 ) depois da certeza de 𝑒 (i.e 𝑃 (𝑒) foi para 1 em 𝑡2 ). Mas o que o teorema (ℎ) em 𝑡1 . Como pode então regular a de Bayes diz meramente é que 𝑃 (ℎ|𝑒) = 𝑃 (𝑒|ℎ)𝑃 𝑃 (𝑒) ′ passagem de 𝑃 para 𝑃 ? A resposta que recentemente foi tomada como tão óbvia é dizer que 𝑃 ′ (ℎ) = 𝑃 (ℎ|𝑒). Esse regra é conhecida como Príncipio de condicionalização e é a príncipal restrição diacrônica do Bayesianismo. Príncipio de condicionalização: Quando o grau de crença em 𝑒 em 𝑡2 vai para 1, então 𝑃 ′ (𝑎) = 𝑃 (𝑎|𝑒) para todo 𝑎 no domínio de 𝑃 ; onde 𝑃 é uma função de probabilidade em 𝑡1 .

Capítulo 3. Epistemologia Bayesiana

23

Existe uma grande discussão na literatura para a justificação desse princípio. O primeiro ponto de questionamento é que pode ser atribuído para 𝑃 ′ um distribuição de probabilidade consistente independe da relação com P. [Teller, 1973] tenta criar argumentos do tipo de Dutch Book para mostrar que uma passagem de P para P’ que não seguem o princípio condicionalização incorrem em perdas certas. [Howson and Urbach, 2006, pg. 83] estuda um caso em que aparentemente o Principio falha: suponha que existe uma proposição 𝑏 que se está certo de sua veracidade , 𝑃 (𝑏) = 1. Suponha que por qualquer motivo ( por exemplo, uma lesão no cérebro, ou uma droga que altera seu estado de consciência) você é levado a pensar que amanhã pode ser que irá acreditar menos em 𝑏, i.e: 𝑃 (𝑃 ′ (𝑏) = 𝑞) > 0 tal que 𝑞 < 1. Seja 𝑎 a proposição 𝑃 ′ (𝑏) = 𝑞. Suponha que amanhã 𝑎 de fato se dá ( a lesão ou a droga faz efeito) 𝑃 ′ (𝑏) = 𝑞 mas pelo princípio da condicionalização 𝑃 ′ (𝑏) = 𝑃 (𝑏|𝑎) = 1, pois 𝑃 (𝑏) = 1. [Howson and Urbach, 2006] classifica esse exemplo como espúrio na tentativa de invalidar a "regra de inferência"Bayesiana pois como ao aceitar 𝑎 ela não pode ser uma sentença de condicionalidade pois ao afirmá-la já se contradiz a premissa de inferência relativa a 𝑃 . Howson exemplifica usando uma analogia com a lógica dedutiva e um contraexemplo espúrio ao modus ponens. Suponha que em um tempo 𝑡 se aceite a premissa 𝑎 −→ 𝑏. Então se em 𝑡 + 1 se aprende 𝑎 então deve-se aceitar 𝑏. Mas é simples exibir 𝑎 e 𝑏 que faz essa regra inconsistente. Por exemplo, pode-se descobrir que em 𝑡 + 1 que 𝑎 = ¬𝑏. Essa descoberta faz com que 𝑎 −→ 𝑏 seja falsa. Isto é aprender 𝑎 e nesse caso faz com que se altere as hipóteses de inferência previamente aceitas.

24

4 Confirmação Bayesiana O objetivo desse capítulo é mostrar como atribuindo os conceitos de probabilidade pode-se descrever características da prática cientifica, em particular aquelas relacionadas à teorias determinísticas.

4.1 A noção Bayesiana de confirmação As evidências obtidas no curso das observações são frequentemente consideradas possuindo o poder de alterar a credibilidade de uma teoria (ou hipótese) sendo confirmando-a ou efetuando-a. A ideia que uma evidência pode contar a favor, contra ou ser neutra a uma teoria é de extrema importância na inferência cientifica, e a fundamentação Bayesiana irá começar com uma interpretação adequada desses conceitos. 𝑃 (ℎ) mede a crença em uma hipótese ℎ quando não se sabe a evidência 𝑒, e 𝑃 (ℎ|𝑒) é a medida correspondente quando já se sabe 𝑒. Por definição então temos: Definição 6: Dizemos que 𝑒 confirma ℎ quando 𝑃 (ℎ|𝑒) > 𝑃 (ℎ) Dizemos que 𝑒 desconfirma ℎ quando 𝑃 (ℎ|𝑒) < 𝑃 (ℎ) Dizemos que 𝑒 é neutra em relação a ℎ quando 𝑃 (ℎ|𝑒) = 𝑃 (ℎ) Diz-se que 𝑃 (ℎ) é a probabilidade a priori de ℎ e 𝑃 (ℎ|𝑒) a probabilidade a posteriori.

4.2 Falseabilidade de uma hipótese Uma característica da inferência cientifica é a refutação de uma teoria quando essa teoria tem consequências empíricas que foram mostradas falsas em um experimento. Essa característica interpretada de uma maneira lógica e rígida foi muito influente para Popper que fez dela sua principal peça de sua filosofia. Contudo a abordagem Bayesiana não está concentrada especificamente nesse aspecto do raciocínio cientifico, tendo na verdade um carácter mais explicativo. A explicação recai sobre o fato que se, relativo ao conhecimento prévio, a hipótese ℎ implica a evidência 𝑒 então (relativo ao mesmo conhecimento prévio) 𝑃 (ℎ|¬𝑒) = 0. Nos termos Bayesianos isso significa que se ℎ é desconfirmada ao máximo, ela é refutada. Pode-se se mostrar então porque deveria-se esperar que uma vez que uma teoria é refutada, nenhuma evidência mais pode confirma-la. Ao menos que se refute a evidência

Capítulo 4. Confirmação Bayesiana

25

ou alguma outra porção das suposições iniciais seja revogada. Demonstração. Suponha que ℎ tem como consequência 𝑒1 e 𝑒2 dado que se refutou ℎ com ¬𝑒1 , i.e, 𝑃 (ℎ|¬𝑒1 ) = 0. Então: 𝑃 (ℎ|¬𝑒1 ∧𝑒2 ) =

𝑃 (¬𝑒1 ∧𝑒2 |ℎ)𝑃 (ℎ) 𝑃 (¬𝑒1 ∧𝑒2 )

=

𝑃 (¬𝑒1 |ℎ)𝑃 (𝑒2 |¬𝑒1 ∧ℎ)𝑃 (ℎ) 𝑃 (¬𝑒1 ∧𝑒2 )

(𝑒2 |¬𝑒1 ∧ℎ)) = 𝑃 (ℎ|¬𝑒1 ) 𝑃 (¬𝑒𝑃1 )𝑃 = (¬𝑒1 ∧𝑒2 )

=0 Portanto nenhuma confirmação apresentada para ℎ depois de refutada poderá confirma-la novamente.

4.3 Verificação de consequências Um método de confirmação de teorias determinísticas é verificação empírica de alguma de suas consequências lógicas, ou seja, verificar se quando elas são verdadeiras ou falsas relativas ao conhecimento prévio existente. Por exemplo, a teoria da Relatividade Geral foi confirmada quando se verificou que a luz é defletida quando passa próxima ao sol, assim como a teoria predizia. Podemos mostrar em termos do Teorema de Bayes, porque e sobre que circunstâncias uma teoria é confirmada por suas consequências. Se ℎ tem como consequência necessária 𝑒, então é fácil mostrar que, 𝑃 (𝑒|ℎ) = 1: (Lembrar que ℎ é determinística) Demonstração. Como por hipótese ℎ ⊢ 𝑒, então ℎ∧𝑒 ⇔ ℎ, logo por 2.2.3 𝑃 (𝑒∧ℎ) = 𝑃 (ℎ), portanto: 𝑃 (𝑒|ℎ) =

𝑃 (𝑒∧ℎ) 𝑃 (ℎ)

=

𝑃 (ℎ) 𝑃 (ℎ)

=1

Consequentemente, do Teoremas de Bayes temos 𝑃 (ℎ|𝑒) = 𝑃𝑃 (ℎ) . Logo, se 0 < (𝑒) 𝑃 (𝑒) < 1, e se 𝑃 (ℎ) > 0, então 𝑃 (ℎ|𝑒) > 𝑃 (ℎ). Disto segue que qualquer evidência que a probabilidade não seja de valores extremos deve confirmar toda hipótese que não tem probabilidade 0, da qual ela é sua consequência lógica. Agora se 𝑒1 , 𝑒2 , · · · , 𝑒𝑛 são também consequências lógicas de ℎ, que se mostraram empiricamente verdades, temos então uma sucessão de evidências. Mostra-se porque é de se esperar que sucessivas confirmações devem diminuir a força de confirmação da teoria. A teoria atinge um limite superior de probabilidade além do qual nenhuma evidência pode acrescentar significativamente seu grau de crença. Isso segue do teorema de Bayes: Demonstração. Temos que: 𝑃 (ℎ|𝑒1 ∧ 𝑒2 ∧ · · · ∧ 𝑒𝑛 ) =

𝑃 (ℎ) 𝑃 (𝑒1 ∧ 𝑒2 , · · · ∧ 𝑒𝑛 )

(4.1)

Capítulo 4. Confirmação Bayesiana

26

Mas: 𝑃 (𝑒1 ∧ 𝑒2 · · · ∧ 𝑒𝑛 ) = 𝑃 (𝑒1 )𝑃 (𝑒2 ∧ · · · ∧ 𝑒𝑛 |𝑒1 ) E 𝑃 (𝑒2 ∧ · · · ∧ 𝑒𝑛 |𝑒1 ) = 𝑃 (𝑒2 |𝑒1 )𝑃 (𝑒3 ∧ · · · ∧ 𝑒𝑛 |𝑒1 ∧ 𝑒2 ) Logo, em geral: 𝑃 (𝑒1 ∧ · · · ∧ 𝑒𝑛 ) = 𝑃 (𝑒1 )𝑃 (𝑒1 |𝑒2 )(𝑒𝑛 |𝑒1 ∧ · · · ∧ 𝑒𝑛−1 )

(4.2)

Portanto, substituindo 4.2 em 4.1 temos:

𝑃 (ℎ|𝑒1 ∧ 𝑒2 ∧ · · · ∧ 𝑒𝑛 ) =

𝑃 (ℎ) 𝑃 (𝑒1 )𝑃 (𝑒2 |𝑒1 ) · · · 𝑃 (𝑒𝑛 |𝑒1 ∧ · · · ∧ 𝑒𝑛−1 )

(4.3)

Logo cada evidência nova introduzida divide a probabilidade da hipótese pela probabilidade da verificação, dada as evidências anteriores. Com um número suficiente de evidências, uma das três coisas deve acontecer: 1. A probabilidade de ℎ irá exceder 1 2. 𝑃 (ℎ) é sempre 0 3. 𝑃 (𝑒𝑛 |𝑒1 ∧ · · · ∧ 𝑒𝑛−1 ) tende para 1. (1) é obviamente impossível por definição. (2) é um caso trivial onde nunca teremos uma probabilidade positiva para ℎ. Como temos uma sequência monótona não decrescente limitada por 1 então pelo teorema de Bolzano-Weierstrass vale (3). Demonstração. Seja 𝑎𝑛 =

𝑃 (ℎ) 𝑃 (𝑒1 )𝑃 (𝑒2 |𝑒1 ) · · · 𝑃 (𝑒𝑛 |𝑒1 ∧ · · · ∧ 𝑒𝑛−1 )

e 𝑏𝑛 = 𝑃 (𝑒𝑛+1 |𝑒1 ∧ · · · ∧ 𝑒𝑛 )

Temos que 𝑎𝑛+1 =

𝑎𝑛 . 𝑏𝑛

Como 0 < 𝑏𝑛 ≤ 1 então 𝑎𝑛+1 ≥ 𝑎𝑛 e da defição de probabilidade 𝑎𝑛 é limitada por 1. Portanto 𝑎𝑛 é um sequência monótona não decrescente e limitada, logo pelo Teorema de Bolzano Weirstrass 𝑎𝑛 converge. Vemos que 𝑏𝑛 converge para 1, pois

Capítulo 4. Confirmação Bayesiana

27

𝑏𝑛 𝑎𝑛+1 𝑎𝑛 = lim =1 𝑛→∞ 𝑎 𝑛→∞ 𝑎 𝑛+1 𝑛+1

lim 𝑏𝑛 = lim

𝑛→∞

Esse resultado também provê uma interessante resposta a várias dificuldades de justificação conectadas com o fato de: Se ℎ implica 𝑒, não necessariamente 𝑒 implica ℎ, ℎ pode ser uma das muitas hipóteses que também implicam 𝑒. Em outros termos, se existe (em um certo momento) um conjunto de hipóteses ℎ𝑖 com 𝑖 = 1 · · · 𝑚 onde cada uma delas tem como consequência um mesmo conjunto de evidências 𝑒𝑛 com 𝑛 = 1 · · ·, i.e ℎ𝑖 ⊢ 𝑒𝑛 ∀𝑖∀𝑛. Vemos que (3) mostra que decidir entre uma delas é uma questão de menor importância. Isto acontece pois: 𝑃 (𝑒𝑛 |𝑒1 ∧ · · · ∧ 𝑒𝑛−1 ) −→ 1 quando 𝑛 cresce, não envolve nenhuma ℎ𝑖 logo se mantém com ℎ𝑖 sendo falsa ou não. Uma nova hipótese alternativa ℎ𝑗 com 𝑗 ̸= 𝑖 para ser considerada preferível sobre as outras ℎ𝑖 , deve possuir então a propriedade de lidar com as evidências 𝑒𝑛 , i.e, ℎ𝑗 ⊢ 𝑒𝑛 e também prever alguma consequência 𝑒* que não era explicada pelas outras demais hipóteses ℎ𝑖 . Então a importância de uma decisão alternativa se torna relevante somente quando ela expõe um tipo de observação que pode ser prevista além das previsões das antigas teorias. Consequências específicas de uma teoria também podem restringir sua capacidade de confirmação. Suponha que ℎ é uma teoria de interesse e ℎ𝑟 é uma restrição substancial da teoria. Uma restrição substancial da teoria Newtoniana pode ser, por exemplo, somente os resultados referentes a corpos em queda livre próximos ao solo e com aceleração constante. Com isso se ℎ ⊢ ℎ𝑟 , então por 2.2.4 𝑃 (ℎ) ≤ 𝑃 (ℎ𝑟 ). Agora considerando uma série de consequências derivadas de ℎ, mas que também derivam de ℎ𝑟 . Se as consequências se mostrarem verdadeiras elas devem confirmar ambas as teorias. As probabilidades posteriores podem ser calculadas pelo teorema de Bayes.

𝑃 (ℎ|𝑒1 ∧ · · · ∧ 𝑒𝑛 ) =

𝑃 (ℎ) 𝑃 (𝑒1 ∧ · · · ∧ 𝑒𝑛 )

(4.4)

𝑃 (ℎ𝑟 |𝑒1 ∧ · · · ∧ 𝑒𝑛 ) =

𝑃 (ℎ) 𝑃 (𝑒1 ∧ · · · ∧ 𝑒𝑛 )

(4.5)

e

Combinando 4.4 e 4.5 de maneira a eliminar o denominador comum, obtemos:

𝑃 (ℎ|𝑒1 ∧ · · · ∧ 𝑒𝑛 ) =

𝑃 (ℎ) 𝑃 (ℎ𝑟 |𝑒1 ∧ · · · ∧ 𝑒𝑛 ) 𝑃 (ℎ𝑟 )

(4.6)

Como o valor máximo de 𝑃 (ℎ𝑟 |𝑒1 ∧ · · · ∧ 𝑒𝑛 ) é 1, segue que mesmo com um número muito grande de previsões de ℎ𝑟 sendo confirmadas, a teoria principal ℎ, nunca pode ad(ℎ) quirir uma probabilidade a posteriori que exceda 𝑃𝑃(ℎ . Esse resultado explica a sensação 𝑟)

Capítulo 4. Confirmação Bayesiana

28

familiar que a repetição de um experimento particular confirma uma teoria geral somente em uma extensão limitada.

4.4 O paradoxo dos corvos Um famoso problema de epistemologia é conhecido como Paradoxo da Confirmação ou algumas vezes Paradoxo dos Corvos, proposto por [Hempel, 1945]. É chamado de paradoxo por que as premissas se mostram extremamente plausíveis, embora acarrete uma consequência contra intuitiva. É conhecido como Paradoxo dos Corvos pela maneira famosa como o problema é exposto em teorias determinísticas. Suponha que temos uma teoria de interesse que enuncia que "Todos os Corvos são pretos". A dificuldade alegada por Hempel surge das suposições sobre os métodos de confirmação desse tipo de teoria. Que são: 1. Hipóteses ℎ da forma "Todo R é B", i.e, [h : (𝑥)(𝑅(𝑥) → 𝐵(𝑥))], são confirmadas por evidências 𝑒 que ao mesmo tempo são R e B, [e : R(x)∧B(X)], (chamada de Critério de Nicod) 2. Equivalências lógicas de ℎ são confirmadas pelas mesmas evidências (chamada de Condição de Equivalência) Agora, pela condição de Nicod a hipótese "Tudo que não é 𝐵 é não 𝑅", i.e, [ℎ′ : (𝑥)(¬𝐵(𝑥) → ¬𝑅(𝑥))] é confirmada por uma evidência 𝑒 tal que [𝑒 : ¬𝐵(𝑥)∧¬𝑃 (𝑥)], então pela Condição de Equivalência 𝑒 também confirma "Todo R é B", i.e, [h : (𝑥)(𝑅(𝑥) → 𝐵(𝑥))]. Pois ℎ e ℎ′ são logicamente equivalentes. Muitos filósofos concluíram que esses resultado é alegadamente falso, pois dele resulta que pode-se uma coisa não preta e não corvo, por exemplo, uma chaleira vermelha e isso sugerir uma evidência para a hipótese de que todos os corvos são pretos. Mas dizer que 𝑒 e 𝑒′ são evidências que confirmam ℎ não significa que elas confirmam em um mesmo grau de força. E uma vez reconhecido que confirmações tem gradações de força, a conclusão já cessa de ser contra intuitiva. Esse simples ponto já abre espaço para o entendimento do argumento Bayesiano para a solução do problema. Mas a análise Bayesiana pode ir além, primeiramente demonstrando que no caso do exemplo com corvos, evidências do tipo 𝑒′ de fato confirmam a hipótese mas em um grau insignificante e posteriormente se mostra que a Condição de Nicod não é um principio geral de confirmação. Para o primeiro resultado, considerando a hipótese de que todos os corvos são pretos, vamos analisar o impacto dos dois tipos de evidência 𝑒 e 𝑒′ sobre ℎ. De maneira a simplificar denotemos 𝑒 por 𝑅𝐵 e 𝑒′ por 𝑅𝐵.

Capítulo 4. Confirmação Bayesiana

29

O impacto de 𝑒 e 𝑒′ é dado por: 𝑃 (ℎ|𝑅𝐵) 𝑃 (𝑅𝐵|ℎ) 𝑃 (ℎ|𝑅𝐵) 𝑃 (𝑅𝐵|ℎ) = & = 𝑃 (ℎ) 𝑃 (𝑅𝐵) 𝑃 (ℎ) 𝑃 (𝑅𝐵)

(4.7)

Essas expressões podem ser simplificadas. Primeiro 𝑃 (𝑅𝐵|ℎ) = 𝑃 (𝐵|ℎ∧𝑅)𝑃 (𝑅|ℎ) = 𝑃 (𝑅|ℎ) = 𝑃 (𝑅). Sendo que a última igualdade é razoável, ou uma boa aproximação, assumindo que a chance de um objeto arbitrário ser um corvo independe da verdade de ℎ. Por um raciocínio similar 𝑃 (𝑅𝐵|ℎ) = 𝑃 (𝐵|ℎ) = 𝑃 (𝐵). Também 𝑃 (𝑅𝐵) = 𝑃 (𝐵|𝑅)𝑃 (𝑅) e ∫︀ 𝑃 (𝐵|𝑅) = 𝑃 (𝐵|𝑅 ∧ 𝜃)𝑃 (𝜃)𝑑𝜃, onde 𝜃 representa os possíveis valores da porcentagem de corvos no universo que são pretos (de acordo com ℎ, 𝜃 = 1). Finalmente, 𝑃 (𝐵|𝑅 ∧ 𝜃) = 𝜃, pois se a porcentagem de corvos pretos no universo é 𝜃, a probabilidade de um corvo arbitrário ser preto é 𝜃. Combinando essas considerações em 4.7, temos 𝑃 (ℎ|𝑅𝐵) 1 1 𝑃 (ℎ|𝑅𝐵) = ∫︀ = & 𝑃 (ℎ) 𝑃 (ℎ) 𝜃𝑃 (𝜃)𝑑𝜃 𝑃 (𝑅|𝐵)

(4.8)

Pensando sobre 𝑃 (𝑅|𝐵), evidentemente existem muitas coisas não pretas no universo que não são corvos, portanto a chance de encontramos um objeto que não seja um corvo dado que a única informação que temos sobre ele é que não é preto deve ser extremamente alta, praticamente 1. Portanto 𝑃 (ℎ|𝑅𝐵) ≃ 𝑃 (ℎ), e então a observação de um objeto que não é corvo nem é preto provê um confirmação muito pequena (praticamente desprezível) para ℎ. E de acordo com 4.8, o grau de confirmação que uma evidência 𝑅𝐵 confirma ℎ ∫︀ é inversamente proporcional a 𝜃𝑃 (𝜃)𝑑𝜃, i.e, 𝐸[𝜃]. Isso significa, por exemplo que se é inicialmente muito provável que todos os corvos sejam pretos, então 𝐸[𝜃] deve ser grande e logo a observação de um corvo preto confirma ℎ em menor grau. Enquanto inicialmente se espera que a maioria dos corvos não não pretos, i.e 𝐸[𝜃] for baixo, então a observação de um corvo preto confirma ℎ mais substancialmente.

4.4.1 O Critério de Nicod A análise feita na seção anterior pareceu corroborar o critério proposto por Jean Nicod, mesmo vendo que evidências logicamente equivalentes podem confirmar de forma diferente uma teoria, no caso dos corvos de uma forma quase nula. Contudo podemos mostrar da Análise Bayesiana que o critério de Nicod não é um critério universal de confirmação de uma teoria determinística. Um exemplo dado por [Rosenkrantz, 2012]: Três pessoas estão saindo de uma festa, cada uma com um chapéu. Considerando a hipótese ℎ que nenhuma das três pessoas está usando o chapéu que trouxe no inicio da festa, de acordo com o critério de Nicod, a evidência 𝑒1 que a primeira pessoa está usando o chapéu da segunda confirma ℎ, do mesmo modo a evidência 𝑒2 que a segunda

Capítulo 4. Confirmação Bayesiana

30

pessoa está usando o chapéu da primeira pessoa também confirma ℎ. Mas como só existe 3 pessoas, a segunda observação deveria refutar ℎ e não confirmá-la, pois a terceira pessoa certamente está usando o próprio chapéu. No exemplo de [Rosenkrantz, 2012], usando a noção Bayesiana de confirmação temos: Seja 𝑒3 a evidência que a terceira pessoa veste o próprio chapéu. Temos que 𝑒1 ∧ 𝑒2 ⇒ 𝑒3 e ℎ ⊢ ¬𝑒3 . É fácil ver que: ¬𝑒3 ⇒ ¬(𝑒1 ∧ 𝑒2 ) 𝑃 (ℎ|𝑒1 ∧ 𝑒2 ) = 𝑃 (𝑒1 ∧ 𝑒2 |ℎ)

𝑃 (ℎ) =0 𝑃 (𝑒)

Pois 𝑃 (𝑒1 ∧ 𝑒2 |ℎ) = 0. Portanto a teoria é refutada, como esperava-se. O que se demonstra nessa seção é que a noção de confirmação está intrinsecamente ligada ao Teorema de Bayes, e também como as outras abordagens não probabilísticas não são suficientes para seu entendimento. Confirmação e desconfirmação estão sempre relacionadas a variações da sensação de incerteza e o que se espera ter mostrado aqui é que a probabilidade é a forma adequada para a representação formal desta.

4.5 A Tese Duhem-Quine A Tese Duhem-Quine, proposta por Pierre Duhem em 1905, e resgatada por W.V Quine [Quine, 1951] é um problema de teoria da Ciência que diz respeito da impossibilidade de muitas teorias cientificas serem testadas isoladamente. A introdução do problema na literatura é dado a partir das críticas ao critério de falseabilidade de Popper. De acordo com [Popper, 1963, pg. 39]: "Enunciados ou sistemas de enunciados, para poderem ser classificados como científicos, deverão ser capazes de se conflitar com observações possíveis, ou concebíveis." Segundo seus críticos o critério de Popper é problemático, pois mesmo teorias cientificas clássicas, por exemplo Mecânica Newtoniana, por serem dependentes de hipóteses auxiliares para sua confirmação - por exemplo a precisão dos instrumentos de medidanunca podem ser testadas isoladamente e portanto são não falseáveis stricto sensu ficando assim classificadas como não-científicas. A ideia que hipóteses científicas sempre são testadas em conjunto com uma série de hipóteses auxiliares foi de importância central para filósofos da ciência como [Kuhn, 1970], [Polanyi, 1962] e [Lakatos, 1970].

Capítulo 4. Confirmação Bayesiana

31

O que se segue nessa seção é uma tentativa de explicação do raciocínio científico exemplificado em um caso histórico que está de acordo com o problema de Duhem e mostrar como a visão Bayesiana serve de aparato para sua formalização baseado no trabalho de [Dorling, 1979]. O problema de Duhem surge quando temos uma teoria 𝑡, e uma hipótese auxiliar 𝑎 (o argumento é generalizável para qualquer número de hipóteses) e as duas juntas, i.e, 𝑡 ∧ 𝑎, implicam uma consequência empírica que se mostrou falsa em um experimento pelo resultado 𝑒. Vamos assumir que enquanto a conjunção 𝑡 ∧ 𝑎 é refutada por 𝑒, os dois componentes individualmente não são refutados. Queremos então considerar o efeito nas probabilidades de 𝑡 e 𝑎 causado pela evidência 𝑒. A consideração de interesse pode ser expressa usando o teoremas de Bayes:

𝑃 (𝑡|𝑒) =

𝑃 (𝑒|𝑎) 𝑃 (𝑒|𝑡) & 𝑃 (𝑎|𝑒) = 𝑃 (𝑒) 𝑃 (𝑒)

(4.9)

sabendo que 𝑃 (𝑡 ∧ 𝑎|𝑒) = 0.

4.5.1 A Hipótese de Prout Um exemplo histórico pode ilustrar como uma teoria que produz falsas predições pode continuar muito provável. Usando um exemplo de [Lakatos, 1970, pg. 138-40]. Em 1815, o médico e químico William Prout conjecturou a hipótese que os pesos atômicos de qualquer elemento eram múltiplos inteiros do peso do Hidrogênio. Prout acreditava que o Hidrogênio era o elemento básico que derivava todos os outros elementos, ideia compartilhada por muitos de sua época. Contudo, os pesos atômicos registrados naquela época somente aproximavam múltiplos inteiros do Hidrogênio e esses desvios das previsões perfeitas não foram suficientes para convencer Prout que sua teoria estava errada. Ele atribuiu esses desvios a falhas nos equipamentos de medida. Thomas Thomson pareceu compartilhar da mesma visão. De fato, ele e Prout ajustaram muitos relatórios de medidas de forma a manter os pesos atômicos conforme a hipótese de Prout. Por exemplo, ao invés de aceitar o resultado experimental de 0.829 para o peso atômico do Boro (em relação ao peso do oxigênio), [Thomson, 1818, pg. 340] preferiu 0.875 pois esse era um múltiplo inteiro do que eles tomavam erroneamente como o peso do Hidrogênio 0.125. Da mesma forma Prout ajustou o peso do Cloro de 35.83 para 36. O raciocínio de Thomson e Prout pode ser explicado como: A hipótese de Prout 𝑡, junto com uma hipótese auxiliar 𝑎 sobre a precisão dos instrumentos de medida e a pureza dos elementos medidos e etc, implica que o peso atômico do Cloro é um número inteiro. Suponha que em 1815 que o peso atômico medido do Cloro foi 35.82 e chame isso de evidência 𝑒. Parece que os químicos do começo do século XIX, tal como Prout e Thomson, estavam mais certos sobre a verdade de 𝑡, e menos certos acerca de 𝑎. [Stas, 1860, pg. 42]

Capítulo 4. Confirmação Bayesiana

32

relata que "Na Inglaterra a hipótese do Dr. Prout foi quase universalmente aceita como absolutamente verdade". Depois de anos de mais pesquisas, J.S Stat escreveu: "alcançamos com completa convicção que aquela lei de Prout ... é se não uma grande ilusão"[Stas, 1860, pg. 44]. Embora ao longo dos anos a hipótese de Prout tenha se mostrado falsa, esse fato mostra a convicção que Prout e seus contemporâneos tinham na época. Embora seja difícil de estimar o quão confiantes eles estavam em relação à hipótese auxiliar sobre os instrumentos de medidas, podemos imaginar que eles tinham mais confiança de que ela fosse verdadeira do que falsa (caso contrário provavelmente não a usariam). Dessa maneira conjecturamos que 𝑃 (𝑡) é cerca de 0.9 e 𝑃 (𝑎) é cerca de 0.6. Esses números são atribuídos de modo a ilustrar como o Teorema de Bayes resolve o problema de Duhem-Quine. Para avaliar as posterioris de 𝑡 e 𝑎 devemos fixar os termos 𝑃 (𝑒|𝑡), 𝑃 (𝑒|𝑎) e 𝑃 (𝑒). Usando 2.2.7, segue que: 𝑃 (𝑒) = 𝑃 (𝑒|𝑡)𝑃 (𝑡) + 𝑃 (𝑒|¬𝑡)𝑃 (¬𝑡) e 𝑃 (𝑒|𝑡) = 𝑃 (𝑒 ∧ 𝑎|𝑡) + 𝑃 (𝑒 ∧ ¬𝑎|𝑡) = 𝑃 (𝑒|𝑡 ∧ 𝑎)𝑃 (𝑎|𝑡) + 𝑃 (𝑒|𝑡 ∧ ¬𝑎)𝑃 (¬𝑎|𝑡) = 𝑃 (𝑒|𝑡 ∧ 𝑎)𝑃 (𝑎) + 𝑃 (𝑒|𝑡 ∧ ¬𝑎)𝑃 (¬𝑎) Como 𝑡 ∧ 𝑎 é refutado por 𝑒, então 𝑃 (𝑒|𝑡 ∧ 𝑎) = 0. Então: 𝑃 (𝑒|𝑡) = 𝑃 (𝑒|𝑡 ∧ ¬𝑎)𝑃 (¬𝑎) Note que, seguindo [Dorling, 1979], assumimos que 𝑡 e 𝑎 são independentes. Isso parece de acordo com muitos casos históricos e claramente é o presente caso. Pelo mesmo raciocínio: 𝑃 (𝑒|𝑎) = 𝑃 (𝑒|¬𝑡 ∧ 𝑎)𝑃 (¬𝑡) 𝑃 (𝑒|¬𝑡) = 𝑃 (𝑒|¬𝑡 ∧ 𝑎)𝑃 (𝑎) + 𝑃 (𝑒|¬𝑡 ∧ ¬𝑎)𝑃 (¬𝑎) E sendo: 𝑃 (𝑒|¬𝑡 ∧ 𝑎) = 0.01 𝑃 (𝑒|¬𝑡 ∧ ¬𝑎) = 0.01 𝑃 (𝑒|𝑡 ∧ ¬𝑎) = 0.02 Fixamos esses termos na tentativa de justificar as posteriores desse caso histórico. [Urbach and Howson, 1993, pg. 139] justifica essas atribuições comparando os cenários alternativos da época. Visto isso podemos calcular: 𝑃 (𝑒|¬𝑡) = 0.01 𝑃 (𝑒|𝑡) = 0.008 𝑃 (𝑒|𝑎) = 0.001 𝑃 (𝑒) = 0.0082

Capítulo 4. Confirmação Bayesiana

33

Portanto, substituindo em 4.9, temos: 𝑃 (𝑡|𝑒) = 0.878 𝑃 (𝑎|𝑒) = 0.073 lembrando que 𝑃 (𝑡) = 0.9 e 𝑃 (𝑎) = 0.6 Esse resultado mostra como pode existir um efeito assimétrico nas crenças posteriores na hipótese central da teoria e nas chamadas hipóteses auxiliares, e mostrar como químicos e cientistas como Prout e Thomson dependendo de suas crenças a priori tendem a preservar certos enunciados. Logo o Teorema de Bayes provê um modelo para o tipo de raciocínio científico levantado por Duhem e Quine.

4.5.2 Einstein e Newton e o eclipse de 1919 Vemos em [Jeffrey, 2001] uma análise sobre o problema de explicar a preferência de uma teoria a luz de uma evidência. Definimos o fator de Bayes de uma teoria 𝑇 contra uma teoria 𝑆 condicionada ao resultado experimental 𝐷 como igual a verossimilhança. O resultado empírico 𝐷 em geral não é dedutível ou refutado somente por 𝑇 , ou por 𝑆. Temos a situação exposta pela Tese de Duhem-Quine onde 𝐷 só é dedutível ou refutado por 𝑇 ou 𝑆 somente quando em conjunto com uma hipótese auxiliar 𝐴. Considerando 𝐴 independente de ambas:

𝛽(𝑇 : 𝑆) =

𝑃 (𝐷|𝑇 ) 𝑃 (𝐷|𝑆)

Com isso, calcula-se:

𝛽(𝑇 : 𝑆) =

𝑃 (𝐷|𝑇 ∧ 𝐴)𝑃 (𝐴) + 𝑃 (𝐷|𝑇 ∧ ¬𝐴)𝑃 (¬𝐴) 𝑃 (𝐷|𝑆 ∧ 𝐴)𝑃 (𝐴) + 𝑃 (𝐷|𝑆 ∧ ¬𝐴)𝑃 (¬𝐴)

(4.10)

Como exemplo histórico Jeffrey considera o famoso caso de dois experimentos duplicados feitos com equipamentos diferentes que geraram resultados conflitantes: O primeiro confirmou 𝑇 em favor de 𝑆, o outro confirmou 𝑆 em favor de 𝑇 . No entanto, os cientistas consideram que claramente os experimentos confirmavam uma das teorias em favor de outra. "Nos experimentos do eclipse solar de 1919, as observações com telescópio foram feitas em duas localidades diferentes, mas somente em uma localidade o tempo estava bom o suficiente para obter resultados fáceis de se interpretar. Lá, em Sobral, havia dois telescópios: um, o qual sempre ouvimos falar, confirmou Einstein; o outro, de fato um

Capítulo 4. Confirmação Bayesiana

34

pouco maior, confirmou Newton. Conclusão: Einstein foi vindicado, e o resultado com o telescópio maior foi rejeitado."[Dorling, 1982, sec. 4] Seja: 𝑇 : Einstein: o efeito da curvatura da luz do sol. 𝑆: Newton: a não curvatura da luz do sol. 𝐴: Ambos telescópios estão funcionando corretamente 𝐷: Os dados conflitantes dos dois telescópios Nesse caso em 4.10 temos que 𝑃 (𝐷|𝑇 ∧ 𝐴) = 𝑃 (𝐷|𝑆 ∧ 𝐴) = 0, pois se os dois telescópios estivessem funcionando corretamente não dariam resultados contraditórios. Então o primeiro termo da soma no numerador e no denominador desaparecem, e então o fatores 𝑃 (¬𝐴) se cancelam e obtemos:

𝛽(𝑇 : 𝑆) =

𝑃 (𝐷|𝑇 ∧ ¬𝐴) 𝑃 (𝐷|𝑆 ∧ ¬𝐴)

E [Dorling, 1982] continua: "Agora os responsáveis pelo experimento argumentaram que uma maneira na qual 𝐴 pode facilmente ser falsa era se o espelho de um ou outro telescópio tivesse sido distorcido pelo calor, e isso era muito mais provável de ter acontecido com o espelho maior que pertencia ao telescópio que confirmou 𝑆 do que com o espelho menor que pertencia ao que confirmou 𝑇 . Agora o efeito da distorção do espelho do tipo mencionado teria deslocado os registros de imagens das posições das estrelas previstas por 𝑇 para além daquelas previstas por 𝑆. Portanto foi atribuído para 𝑃 (𝐷|𝑇 ∧ ¬𝐴) um valor apreciável. Mas como era muito difícil conceber qualquer efeito similar que pudesse ter mudado as posições das estrelas produzidas por 𝑆 no outro telescópio para aquelas produzidas por 𝑇 , foi atribuído para 𝑃 (𝐷|𝑆 ∧ ¬𝐴) um valor negligenciavelmente pequeno, e então o resultado final foi uma confirmação decisiva de 𝑇 e a refutação de 𝑆". Logo o fator de bayes 𝛽(𝑇 : 𝑆) é muito maior que 1. Outros exemplos de casos históricos podem ser encontrados em [Dorling, 1979], e [Jeffrey, 2001].

35

5 Conclusão Na conclusão deste trabalho, esperamos ter conseguido comunicar aspectos iniciais da interpretação subjetivista de probabilidade e colaborar para o entendimento mais amplo da teoria no ambiente acadêmico e na sociedade. Também esperamos expandir as perspectivas da aplicação do pensamento probabilístico. Com as soluções dos problemas que expomos ao decorrer do trabalho, consideramos que fica aberto o caminho para entender a fundamentação probabilística das práticas na ciência e do pensamento. Assim como a lógica clássica esclareceu o entendimento de aspectos do mundo e do pensamento que pareciam obscuros no passado, o raciocínio probabilístico também é promissor no mesmo sentido. Infelizmente deixamos de incluir inúmeros resultados da literatura que corroboram essa tese. Em [Howson and Urbach, 1986] são apresentados outros resultados muito interessantes relacionados a teorias determinísticas, [Skyrms, 2000] apresenta mais detalhadamente o histórico do problema da indução, [Paris, 2006] apresenta de forma mais rigorosa o conceito subjetivista descrito como noção de consistência lógica; [Horwich, 1982] também apresenta aspectos interessantes da relação de probabilidade com confirmação. Consideramos ao final que essa é um interessante caminho para pesquisas futuras.

36

Referências [Carnap et al., 1962] Carnap, R., Carnap, R., and Carnap, R. (1962). Logical foundations of probability. [Crupi, 2015] Crupi, V. (2015). Confirmation. In Zalta, E. N., editor, The Stanford Encyclopedia of Philosophy. Summer 2015 edition. [De Finetti, 2008] De Finetti, B. (2008). Philosophical Lectures on Probability: collected, edited, and annotated by Alberto Mura, volume 340. Springer Science & Business Media. [De Finetti and de Finetti, 1990] De Finetti, B. and de Finetti, B. (1990). Theory of probability, volume i. [Dorling, 1979] Dorling, J. (1979). Bayesian personalism, the methodology of scientific research programmes, and duhem’s problem. Studies in History and Philosophy of Science Part A, 10(3):177–187. [Dorling, 1982] Dorling, J. (1982). Further illustrations of the bayesian solution of duhem’s problem. Manuscript).[Links]. [Good, 1961] Good, I. J. (1961). The paradox of confirmation (ii). The British Journal for the Philosophy of Science, 12(45):63–64. [Hempel, 1945] Hempel, C. G. (1945). Studies in the logic of confirmation (i.). Mind, 54(213):1–26. [Horwich, 1982] Horwich, P. (1982). Probability and evidence. CUP Archive. [Howson and Urbach, 1986] Howson, C. and Urbach, P. (1986). Scientific reasoning: the Bayesian approach. Open Court Publishing. [Howson and Urbach, 2006] Howson, C. and Urbach, P. (2006). Scientific reasoning: the Bayesian approach. Open Court Publishing. [Hájek, 2012] Hájek, A. (2012). Interpretations of probability. In Zalta, E. N., editor, The Stanford Encyclopedia of Philosophy. Winter 2012 edition. [Jeffrey, 2001] Jeffrey, R. (2001). Epistemology probabilized. In Proceedings of the 8th conference on Theoretical aspects of rationality and knowledge, pages 1–16. Morgan Kaufmann Publishers Inc. [Jeffreys, 1967] Jeffreys, S. H. (1967). Theory of Probability: 3d Ed. Clarendon Press.

Referências

37

[Kadane et al., 1999] Kadane, J. B., Schervish, M. J., and Seidenfeld, T. (1999). Statistical implications of finitely additive probability. Rethinking the Foundations of Statistics, page 211. [Kuhn, 1970] Kuhn, T. S. (1970). The Structure of Scientific Revolutions, 2nd enl. ed. University of Chicago Press. [Lakatos, 1970] Lakatos, I. (1970). Falsification and the methodology of scientific research. in lakatos, i. & musgrave, a.(eds.) criticism and the growth of knowledge. [Paris, 2006] Paris, J. B. (2006). The uncertain reasoner’s companion: a mathematical perspective, volume 39. Cambridge University Press. [Polanyi, 1962] Polanyi, M. (1962). Personal knowledge: an evolutionary approach. [Popper, 1963] Popper, K. R. (1963). Conjectures and Refutations. The Growth of Scientific Knowledge.(Essays and Lectures.). Routledge & Kegan Paul. [Popper, 2004] Popper, K. R. (2004). A lógica da pesquisa científica. Editora Cultrix. [Quine, 1951] Quine, W. V. (1951). Main trends in recent philosophy: Two dogmas of empiricism. The philosophical review, pages 20–43. [Rosenkrantz, 2012] Rosenkrantz, R. D. (2012). Inference, method and decision: towards a Bayesian philosophy of science, volume 115. Springer Science & Business Media. [Skyrms, 2000] Skyrms, B. (2000). Choice and chance: An introduction to inductive logic. [Stas, 1860] Stas, J. S. (1860). Researches on the mutual relations of atomic weights. Bulletin de l’Acad mie Royale de Belgique, 10:208–336. [Teller, 1973] Teller, P. (1973). Conditionalization and observation. Synthese, 26(2):218– 258. [Thomson, 1818] Thomson, T. (1818). Some additional observations on the weights of the atoms of chemical bodies. Annals of Philosophy, 12:338–50. [Urbach and Howson, 1993] Urbach, P. and Howson, C. (1993). Scientific reasoning: The bayesian approach. [Vickers, 2014] Vickers, J. (2014). The problem of induction. In Zalta, E. N., editor, The Stanford Encyclopedia of Philosophy. Fall 2014 edition.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.