A linguística computacional, a tradução automática e o pensamento de Ludwig Wittgenstein

Share Embed


Descrição do Produto

A linguística computacional, a tradução automática e o pensamento de Ludwig Wittgenstein 1. Introdução

Este artigo apresenta algumas concepções do pensamento não-essencialis ta de Wittgenstein,

notadamente

em sua obra tardia, chamada Investigações

Filosóficas, publicada em 1945, que contesta o modelo filosófico grego, baseado no logos e, no caso específico da linguagem, no paradigma objeto-representação, sobre o qual se erigiu a catedral do pensamento ocidental. Partindo de duas das principais premissas do pensamento linguístico wittgensteiniano — a saber, o conhecido slogan “o significado está no uso” e a ideia da linguagem como forma de vida —, busco traçar um paralelo entre ambas e a linguística computacional, com atenção particular aos estudos linguísticos com corpus e o desenvolvimento de ferramentas para tradução automática. Entre os objetivos estão: i) demonstrar que os corpora linguísticos, como bancos de dados do uso da língua natural, que permitem diversas abordagens — sintáticas, semânticas, de humanidades digitais — para o estudo da língua como usada de fato, seja em forma oral ou escrita, comunica m o caráter de “forma de vida” da linguagem, ii) apresentar o histórico da linguística computacional e discutir como o pensamento wittgensteiniano se reflete em estratégias adotadas para o processamento de linguagem natural, tais como sistemas de tradução automática (TA) e de memória de tradução (TM), e iii) discutir a relação entre os tradutores e a tradução automática enquanto outro.

2. As Investigações Filosóficas

Nessa obra, Wittgenstein faz uma crítica à visão de linguagem do pensamento ocidental, em que refuta a “distinção intrínseca entre sujeito e objeto” e o “pressuposto de que é fora do sujeito/leitor ou ‘receptor’ que se encontra a origem dos significados” (Arrojo, 1992) e apresenta uma reflexão que vai em direção oposta, deslocando o significado para o uso da linguagem. Helena Martins explica que as considerações wittgensteinianas sobre a linguagem são “instrumentos para desvelar o equívoco fundamental (...) da especulação filosófica sobre o que as coisas são, a busca da determinação de suas essências” (Martins, 2001: 21). Este equívoco reside nas teorias filosóficas de orientação essencialista que consideram os significados como entidades autônomas (essências) e a lingua ge m como

um

sistema

concebido

para

representar

essas

entidades

(ótica

representacionista). Wittgenstein, porém, se opõe à premissa platônico-aristoté lica de que exista uma realidade essencial, representada primeiro no pensamento e depois na fala ou na escrita. Para ele, a linguagem não é algo posterior a uma ideia ou compreensão gestada na mente para só então ser expressa por palavras. Há um vínculo indissolúvel entre “a linguagem e as atividades humanas que entretecem ‘nossa complicada forma de vida’” (idem: 28). Assim, Wittgenstein nos convida a olhar a linguagem “como uma forma de vida em que existimos e tomamos parte” (idem: 33), ou seja, a entrar em um jogo comunicacional com outros, em que cada indivíduo dá seu lance e reage aos lances do outro. O jogo da linguagem ocorre no uso, e as expressões assumem o significado usado pelos participantes naquele momento — em seu ambiente, sua época, com suas histórias particulares — em um recorte único e irreproduzível. E, embora irreproduzível, traz sempre em si a possibilidade de renovação, com novos lances. Veremos a seguir como uma a linguística computacional, disciplina criada em meados do século XX, corrobora, em vários aspectos, o pensamento de Wittgenstein em relação à linguagem.

3. Linguística computacional: fases do desenvolvimento

Para os propósitos deste trabalho, vamos usar a divisão proposta por Sparck Jones (1994) ao traçar um histórico das cinco primeiras décadas da linguís tica

2

computacional. Ela reconhece quatro fases distintas de desenvolvimento da disciplina: a fase 1, que vai do fim da década de 1940 ao fim da década de 1960, se concentrou na tradução automática; a fase 2, que vai até o fim da década de 1970, teve como base a inteligência artificial; a fase 3, que se estende até o fim da década de 1980, é descrita como gramático-lógica; por fim, a fase 4, iniciada nos anos 1990, se concentra no processamento de linguagem natural a marca a retomada da tradução automática.

3.1 Fase 1: a tradução automática como objetivo Sparck Jones e outros autores consideram como “certidão de nascimento” da linguística computacional o memorando chamado “Tradução”, publicado pelo matemático Warren Weaver em 1949. Nesse texto, Weaver analisa diversos aspectos relacionados à possibilidade de fazer “tradução por meio do uso de computadores eletrônicos de grande capacidade, flexibilidade e velocidade” (Weaver, 1949: 1), discutindo estratégias linguísticas, estatísticas e computacio na is para a tradução automática de textos. Martin Kay (2005) reconhece duas grandes motivações para o início das pesquisas em PLN: uma teórica, que acreditava que os avanços em sistemas de computação teriam como frutos “importantes avanços na teoria linguística”, outra prática, cujo objetivo era criar uma tecnologia baseada em preceitos científicos que pudesse atender às necessidades específicas de processos de “tradução, extração de informações, sumarização, verificação gramatical, entre outros”. Sparck Jones (2001) observa, em revisão histórica da disciplina, que a principal linha de trabalho da primeira

fase da LC começa com a “tradução como pesquisa, com

processamento palavra-por-palavra baseado em dicionário” e tentativas de resolver ambiguidades semânticas e sintáticas, entre outras tarefas. Entretanto,

o descompasso entre a magnitude

dos desafios práticos

enfrentados pelos pioneiros da TA, que, para Sparck Jones, estavam “usando uma nova ferramenta, os computadores, com o objetivo de processar dados não numéricos quando o próprio processamento de dados ainda não estava bem estabelecido”, e as expectativas geradas para o processamento de linguagem natural acabou por criar uma sensação de que a tradução automática “não estava à altura dos desafios apresentados pela tecnologia”, (Kay, 2005: xix). Essa insatisfação se

3

traduziu no relatório de 1966 da ALPAC – Comitê consultivo em processamento automático de linguagem do governo dos Estados Unidos –, que concluiu que a TA ainda estava muito distante de ser uma possibilidade real, embora recomendasse a manutenção do apoio à linguística computacional. O resultado prático, no entanto, foi uma queda vertiginosa nos investimentos em pesquisa, o que praticamente interrompeu os estudos com tradução automática.

3.2 Fase 2: inteligência artificial

Com o corte de fundos, teve início uma nova fase nas pesquisas em PLN, que se voltaram para os sistemas de inteligência artificial (IA), com “muito mais ênfase no conhecimento do mundo e seu papel na construção e manipulação da representação de sentido” (Sparck Jones, 1994: 4). Aqui, embora se veja um maior alinhamento da linguística computacional à uma perspectiva representacionista, vêse também que projetos voltados para o processamento da linguagem natural ganham impulso e relevância. Muitos estudiosos, por exemplo, se debruçaram sobre problemas relacionados à construção de sistemas interacionais de perguntas e respostas que não se baseavam em ferramentas de conhecimento profundo, como gramáticas internas, analisadores linguísticos ou processadores lógicos, mas em padrões e em uma linguagem procedural que permitia responder a questões. Wilks (2014) descreve um desses sistemas de diálogo, chamado PARRY (Colby, 1973), que emulava um paciente paranoico de um hospital para veteranos de guerra nos EUA em diálogos com usuários com acesso à então incipie nte internet. O sistema se baseava em 6 mil padrões de perguntas e respostas. O sistema era “muito robusto, parecia se lembrar do que era dito e reagia violentame nte quando parâmetros internos como FEAR (medo) e ANGER (raiva) ficavam altos”, além de demonstrar “interesse e capacidade de conversação” (Wilks, 2005). Muitos dos que trocaram mensagens com o “veterano” não conseguiram acreditar que estavam falando com uma máquina. Wilks ainda destaca que esse tipo de sistema, que faz a correspondência a partir de padrões superficiais, sem qualquer tipo de análise linguística, viria a se tornar a tecnologia hoje conhecida como extração de

4

informações, que “extrai automaticamente informações estruturadas de documentos não-estruturados ou apenas parcialmente estruturados”1 .

3.3 A IA e o jogo da linguagem

Vimos acima um sistema que entra em um jogo de linguagem com o usuário, sem pretensão de produzir ou processar sentido. Logo, é uma aplicação computacional prática do pensamento wittgensteiniano. Ressalte-se, porém, que Wittgenstein nunca pretendeu criar “um modelo teórico de ambição generaliza nte ” (Martins, 2001: 20). Ao contrário, suas reflexões sobre a linguagem são “um convite repensar o fenômeno linguístico segundo um ângulo radicalmente distinto ” (idem), qual seja: “É preciso não esquecer que o jogo da linguagem é dizer o imprevisível — isto é: não se baseia em fundamentos. Não é razoável (ou irrazoável) Está aí — como a nossa vida” (Sobre a certeza, §559).

Por ser como a nossa vida, por ser uma forma de vida, a linguagem se realiza na vida, ou seja, no uso. Logo, é uma tentativa legítima buscar o entendimento da linguagem não como um sistema de representação de uma realidade universa l, extralinguística, mas a partir de exemplos de seu uso de fato, como fez a linguís tica computacional da segunda fase, o que se traduz na preocupação em “reunir corpora de volume considerável para a realização de experimentos, (...) embora para estudos estilísticos e medições estatísticas de uso de palavras e distribuição” (Wilks, 2005: 8). Entre estes, destaca-se o Corpus Nacional Britânico2 , que foi “construído explicitamente para atender às necessidades do processamento de lingua ge m natural” (idem). A compilação e construção de corpora vai ao encontro da tese de Wittgenste in de que a linguagem “não se baseia em fundamentos”. Na linguística com corpus, o pesquisador se vale de exemplos de uso da linguagem e não de teorias. Não pretende inferir regras gerais de funcionamento para uma língua específica ou todas as

1 2

Em: https://en.wikipedia.org/wiki/Information_extraction. Acesso em 15/12/2016. http://www.natcorp.ox.ac.uk/

5

línguas, mas sim usar dados reais de uso para usar em seus modelos e/ou sistemas. Um corpus descreve o uso da língua (enquanto forma de vida); não é generalista, é factual.

3.4 Fase 3: corpora, dicionários eletrônicos, TA

Na década de 1980, vários estudos se dedicaram à extração de sentido em larga escala a partir de dicionários em formato eletrônico, notadamente aqueles voltados para estudantes do inglês como segunda língua, já que estes têm definições mais explícitas do que dicionários monolíngues tradicionais. Os bancos de dados de definições criados a partir desses dicionários servem até hoje como referência, ao lado de tesauros, para sistemas de resolução de ambiguidade de sentido. Wilks, porém, ressalta que tais dicionários não foram a “panaceia que resolveu o problema do significado” (2001: 9), pois ainda careciam de “dados de conhecimento do mundo e do vocabulário primitivo contido nas definições” (idem). Sparck Jones identifica também uma renovação nos trabalhos dedicados à tradução automática, especialmente na Europa o no Japão, “geralmente com ênfase em aplicações específicas” (2001: 7), enquanto Wilks destaca a compilação de corpora anotados manualmente, como o Penn Tree Bank, e a criação de sistemas de anotação computadorizada. Segundo ele: “Um curioso efeito de tudo isso foi trazer os programas, antes considerados como algo sem conexão direta com textos, para o espaço de objetos que são, em si, textos anotados, o que é uma nova e inesperada universalidade para a linguística como um todo” (idem).

A década de 1990 abriria uma vasta gama de perspectivas para o processamento de linguagem natural. O advento da comunicação em nível global, trazida a reboque da rede mundial de computadores, gerou uma vasta necessidade de comunicação entre os diversos países e idiomas, trazendo as pesquisas com tradução automática novamente para o centro dos trabalhos em linguís tica computacional.

6

3.5 Fase 4: novas tendências de PLN

Ao desenvolvimento de sistemas de tradução automática se uniu a criação de programas de tradução assistida por computador (ferramentas CAT, de computeraided translation), que usam análise estatística de corpora paralelos bilíngues, chamados de memórias de tradução (TM). A diferença básica entre sistemas de TA e CAT é que os primeiros geram resultados automaticamente, sem manipulação humana, enquanto os últimos usam memória de tradução como referência estatística para a geração de resultados. Wilks (2001) descreve a relevância do trabalho de Jelinek e equipe na IBM no desenvolvimento de um programa de tradução automática aliado ao aprendizado de máquina, Para tanto, valeu-se de corpora paralelos, como o Hansard canadense em inglês e francês, para emular a habilidade humana de tradução. Neste caso, o material de treinamento para a máquina não foi produzido especificamente para a tarefa; pelo contrário, são textos de linguagem natural. Vemos, no caso do aprendizado por máquina, uma grande aproximação entre as tarefas de PLN e as teorias de Wittgenstein. Neste caso, sobre a aquisição da língua. Enquanto o pensamento representacionista entende que a criança aprende novas palavras estabelecendo “uma conexão mental entre essa palavra e uma coisa (uma classe de experiências, um conceito etc.)” (Martins, 2001: 30). Citando S. Cavell, Martins afirma que nosso parâmetro para avaliar se uma criança aprendeu uma palavra é “unicamente o seu uso legítimo nos contextos apropriados” (idem). O pensamento wittgensteiniano, no entanto, aponta para a inserção da criança no jogo da linguagem, em que estabelecer a relação entre palavras e objetos não significa depreender o significado, mas sim saber usar com propriedade no jogo da linguagem. Assim, a criança não efetua uma operação mental para processar o significado de determinada palavra, e sim lança mão dela nos contextos de conversa. “O que é, por conseguinte, o tempo? Se ninguém mo perguntar, eu sei; se o quiser explicar a quem me fizer a pergunta, já não o sei” (Agostinho, Confissões, livro XI). Como ilustra Santo Agostinho, a criança não busca o significado da palavra ao falar, ela simplesmente usa a língua e aprende com o uso.

7

O aprendizado de máquina ocorre de forma semelhante. O objetivo é que o sistema tenha “capacidade para aprender sem ser especificamente programado 3 ” para isso. A crescente capacidade de processamento de dados desde a década de 1990 possibilitou uma ampla gama de abordagens para o aprendizado de máquina, tais como aprendizado baseado em exemplos e regras, entre outras. No caso da tradução automática processo básico de aprendizado baseado em exemplos significa alimentar o sistema com exemplos de uso para reconhecime nto de padrões que o programa tentará reconhecer ao realizar a operação de tradução. Esses exemplos são, basicamente, obtidos de corpora paralelos, que podem ser ou não traduções. No caso do aprendizado baseado em regras, o programa é alimentado com uma série de regras para dar conta de “ambiguidades lexicais e estruturais, seja no âmbito de uma língua específica (...) ou entre línguas” Hutchins, 2003: 505). Essas regras podem ser de natureza lexical, gramatical ou relativas à tradução. Em sistemas, específicos, como o Google Translate, é criada uma interlíngua, ou seja, uma “representação comum em que sentenças com o mesmo significado são representadas de maneiras semelhantes, a despeito da língua”. A interlíngua tem a função de minimizar as distinções entre os vários idiomas, usando um ambiente comum, para aprimorar os resultados da tradução. Dito de outra forma, o sistema evita o “ancoramento” da tradução automática em um idioma específico. Por exemplo: anteriormente, as traduções automáticas do Google Translate entre o espanhol e o português passavam necessariamente pelo inglês, o que podia fazer com que a sentenças muito semelhantes nos dois idiomas assumissem uma forma bastante distinta após a tradução. Outra interessante aproximação entre o processamento de linguagem natural e a concepção da linguagem como forma de vida de Wittgenstein são as aplicações de extração de informações para produzir resultados relevantes. Um exemplo atual pode ser encontrado em Veloso (2015), que descreve um sistema que avalia a urgência de solicitações de reparos na estrutura urbana em torno da Universidade Federal de Minas Gerais por meio da avaliação de nas descrições feitas por indivíduos que fizeram as solicitações. As prioridades de obras na universidade são determinadas por essa avaliação, que “percebe” as emoções implícitas nessas descrições. “Pergunte-se: ‘Como levar alguém a compreender (...) um tema?’ A

3

https://en.wikipedia.org/wiki/Machine_learning. Acesso em: 16/12/2016.

8

resposta a isso diz como se explica aqui o sentido” (Investigações filosóficas, § 531532). Vemos que, para a ferramenta de extração de informações, o sentido está no uso da língua pelos vários exemplos compilados para o corpus do programa. É a linguagem sendo computacionalmente processada como forma de vida. Por fim, cabe mencionar que uma das estratégias mais usadas atualmente para o desenvolvimento de sistemas de tradução automática como solução de software para serviços (MTSaaS, na sigla em inglês), ou customização de TA. Em sua forma comercial mais simples, os MTSaaS são programas oferecidos ao consumidor final, que pode adaptar os resultados automático às suas necessidades por meio de dicionários específicos e edições nos arquivos traduzidos. Em sua forma mais complexa, são projetos produzidos especialmente para clientes com grande demanda de traduções, usando memórias de tradução, pós-edição de resultados primários e consultoria linguística na fase de desenvolvimento e atualizações regulares após o lançamento. Ou seja, são sistemas que passam por um processo de maturação antes de ser disponibilizados e se adaptam ao uso da empresa que contratou o serviço. Novamente, o uso é o fator mais relevante.

4. Conclusão “Correto e falso é o que os homens dizem, e na linguagem os homens estão de acordo. Não é um acordo de opiniões, mas de forma de vida” (Investigações filosóficas, § 241). Uma questão cara à filosofia de Wittgenstein é a alteridade, a relação com o outro. Neste trabalho discutimos uma alteridade radical, que considera a lingua ge m humana e aplicações da linguística computacional como formas de vida. Ao discutir a antropologia sob uma ótica wittgensteiniana, Viveiros de Castro propõe a pergunta: “Como é que alguém poderia não levar a sério uma vida? Qualquer vida?” (Viveiros de Castro, 2015: 10). Nesta conclusão eu a repito, trazendo para o âmbito da relação entre tradutores e tradução automática: como não levar a sério? Vimos neste trabalho que muitas pesquisas e aplicações da linguística computacional servem como confirmação do pensamento wittgensteiniano de que a linguagem é uma forma de vida que se realiza no uso. Sistemas computacio na is linguísticos, como a tradução automática, que se do uso da língua produzem resultados relevantes para a prática tradutória. No entanto, muitos tradutores não

9

reconhecem a tecnologia como aliada e se sentem ameaçados, violentados em sua forma de vida pela presença deste outro. Pode-se comparar essa posição ideológica com não levar a sério o outro, Primeiro, pela igualação de um não-igual — “tradução automática não presta” —, como se todos os sistemas de TA fossem os mesmos. Vimos acima que existem, por exemplo, sistemas complexos e customizados, adaptados ao uso do cliente de um projeto específico. Outra forma de não levar a sério é assumir uma perspectiva de “etnocentrismo” humano — “sou tradutor profissional,

não preciso de

computador” —, recusando-se a se até mesmo a travar qualquer contato com a tecnologia linguística, embora já existam casos em que a tradução efetivamente não passa por edição humana. Exemplos muito atuais e presentes do uso de TA sem pós-edição humana são as aplicações do Google Translate em tradução de fotos — por exemplo, de placas de sinalização ou cardápios no exterior — ou a tradução automática de anúncios em sites de compras, como o eBay, ou de avaliações de clientes para imóveis para aluguel anunciados no Airbnb. Assim, a tradução automática é um fato no jogo da linguagem dos dias de hoje, e o temor de muitos tradutores de que a TA lhes “roube os empregos” advém da recusa de levar a sério essa forma de vida. Existem conteúdos que serão traduzidos sem intervenção humana, mas esses conteúdos jamais veriam uma tradução humana, por ser inviáveis economicamente ou em termos de tempo de produção. Cabe ao tradutor “chegar a um acordo” com esta forma de vida e dar os lances que lhe cabem neste jogo de linguagem.

Referências bibliográficas

Arrojo, R (org.). O signo desconstruído. São Paulo: Pontes, 1992. Hutchins, J. “Machine Translation: General Overview”. In. Mitkov, R. (org.). The Oxford Handbook of Computational Linguistics. Oxford University Press, 2005. Kay, M. “Introduction”. In. Mitkov, R. (org.). The Oxford Handbook of Computational Linguistics. Oxford University Press, 2005. Kopenawa, Davi; Albert, Bruce. A queda do céu. Tradução de Beatriz Pereira-Moises. São Paulo: Cia. das Letras, 2015.

10

Manning, C.; Schütze, H. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, Massachusetts, 2000. Martins, Helena. “Sobre a estabilidade do significado em Wittgenstein”. In: Veredas, vol. 4, n. 2, p. 19-42. Juiz de Fora, 2001. Picinini, S. “When MT does not take translators’ jobs away - and may create more jobs”. eMpTy Pages: http://kv-emptypages.blogspot.com.br/2016/07/whe nmt-does-not-take-translators-jobs.html. Acesso em 16/12/2016. Rosa, João Guimarães (entrevista). In. Lorens, G. Diálogo com a América Latina. São Paulo: E.P.U., 1973. Somers, H. “Machine Translation. Latest Developments”. In. Mitkov, R. (org.). The Oxford Handbook of Computational Linguistics. Oxford Univers ity Press, 2005. Sparck Jones, K. “Natural Language processing: a historical review”. Current Issues in Computational Linguistics: in Honour of Don Walker. Amsterdã: Kluwer, 1994, 3-16. Vico, Giambattista. A ciência nova. Trad. Marco Luchesi, Ed. Record, São Paulo, 1999. Viveiros de Castro, Eduardo. Metafísicas canibais. São Paulo. Cosac Naify, 2015. Weaver, W. “Translation”. Rockfeller Foundation, 1949. Wilks, Y. The History of Natural Language Processing and Machine Translation. In: Encyclopedia of Language and Linguistics. Amsterdã: Kluwer, 2005. Wittgenstein, Ludwig. Cultura e valor. Tr. Jorge Marques Lisboa: Edições 70, 1996. ________. Investigações filosóficas. Tradução de José Carlos Bruni. In: Os pensadores. 2ª ed. São Paulo: Abril Cultura, [1953] 1979. ________. Da certeza. Edição bilíngue português-alemão, trad. Maria Elisa Costa, Lisboa: edições 70, [1969] 1990.

11

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.