Processamento da Linguagem Natural

September 11, 2017 | Autor: E. Cunha Neves | Categoria: Inteligencia artificial
Share Embed


Descrição do Produto

Processamento da Linguagem Natural Eleuzair Cunha Neves Centro Universitário Internacional UNINTER Saldanha Marinho, 131 – 80410-150 – Curitiba – PR – Brasil. [email protected]

Resumo. A comunicação homem-máquina é o tema central deste artigo base para entender as aplicações em duas subáreas da Inteligência Artificial: Processamento de Linguagem Natural e Tradução Automática de Máquinas - Google Tradutor como estudo de caso para ilustrar alguns conceitos que viabilizam os estudos dos aspectos linguísticos envolvidos na interação homemcomputador, a partir da Linguística Computacional em contato com a Inteligência Artificial.

1. Introdução As primeiras tentativas para entender como o homem processa a Linguagem Natural (LN) iniciaram-se com os estudos da gramática do grego antigo. Contudo, essas abordagens tornaram-se mais efetivas a partir do século XIX com Ferdinand Saussure [1] quando a Linguística se estabeleceu como uma ciência e, desenvolveu-se posteriormente com as pesquisas de outros linguistas como Noam Chomsky, (Teoria Gerativista) [2] defensor da ideia do universalismo que considera a LN como sendo uma faculdade cognitiva inata do ser humano. A língua por ser dinâmica está em constante evolução e a capacidade que o sujeito tem de compreender (decifrar sinais linguísticos), interpretar (dar sentido a algo ou alguma coisa) e de se expressar (manifestar o pensamento por meio da palavra ou do gesto) através de LN é um critério fundamental de comportamento inteligente. LN é o meio que o homem possui para se comunicar entre si no dia a dia, seja de fala, ato individual sujeito a interferência externa ou de escrita, representação da língua falada (significados dos conteúdos) e significante (materialização dos conteúdos) [VIERA e LIMA, 2001]. O Processamento de Linguagem Natural (PLN) ou Linguística Computacional estuda os sistemas de computadores para entender e interpretar as línguas naturais faladas ou escritas e suas aplicações em diversas áreas. Os desenvolvimentos e os resultados desses estudos nos últimos anos colocou o PLN em posição de liderança numa nova dimensão nas aplicações futuras, por exemplo, no desenvolvimento de interfaces inteligentes que podem interagir com o computador usando a LN. Esses estudos do processamento da linguagem são consideráveis enquanto resultados e desenvolvimentos nos últimos anos colocando-os em posição de liderança numa nova dimensão nas aplicações do futuro: interação homem-computador com acesso mais flexível às informações armazenadas de forma mais eficiente. Por exemplo, com a criação de interfaces inteligentes que têm a possibilidade de interagir com o computador em linguagem natural.

1

Ferdinand Saussure – linguista e filósofo suíço que em seus estudos definiu a estrutura do significado é a imagem acústica do objeto ou da realidade (a ideia, o conteúdo) e do significante (a forma) a materialização da palavra falada ou escrita. Mais informações disponíveis em: http://www.portuguesdobrasil.net/linguistica.htm 2 Veja mais sobre A Teoria Gerativista de Noam Chomsky em: http://www.infoescola.com/comunicacao/teoria-gerativa-de-noam-chomsky/

Este artigo investiga por meio de pesquisas bibliográficas a importância das aplicações do Processamento da Linguagem Natural. Enunciar-se-á considerações referentes ao uso da ferramenta de tradução e os aspectos linguísticos envolvidos na interação homemcomputador, com base na Tradução Automática de Máquinas - Google Tradutor a partir da Linguística Computacional em contato com a Inteligência Artificial.

2. Processamento da Linguagem Natural (PLN) O Processamento da Linguagem Natural (PLN), também conhecida como Linguística Computacional [Santos, 2001] 3, é um campo da Ciência da Computação e da Linguística que trata das interações homem-computador. O PLN é baseado especialmente na aprendizagem de máquina estatística, que requer uma compreensão de outras áreas como a Neurociência, Filosofia, Estatística [4] (principalmente a inferência Bayesiana), Teoria da Otimização entre outras. Das aplicações do PLN a Tradução Automática de Máquina assume papel importantíssimo se considerar que o mundo é multilíngue. Pessoas monolíngues podem beneficiar-se das informações e dos conhecimentos que estão disponíveis na Web em outros idiomas, que uma vez traduzidos permitem ao usuário entender na sua língua sobre determinado assunto ou até mesmo nos intercâmbios (comerciais, culturais, científicas e outras) com falantes de outras línguas. Na visão geral de PLN, a primeira indagação que vem a mente diz respeito ao por que o PLN é importante? Do ponto de vista prático, considere a enorme quantidade de dados disponíveis na internet. Por exemplo, estão disponíveis pelos menos alguns bilhões de páginas e com elas, incontáveis quantidades de informações disponibilizadas diariamente e tudo está em LN. Se o computador tem que conhecer e aprender terá que saber compreender e interpretar tais expressões que estão na forma de LN. Do mesmo modo que a LN (português, espanhol, francês, holandês) tem na Linguística (significado/significante) e na gramática (as regras), a Linguagem Artificial ou Linguagens Formais também têm suas sintaxes e suas regras para processar as suas linguagens. Exemplo, Prolog, C, C++, Java, Python, Assembly entre outras. A estrutura da linguagem é normalmente dividida em cinco níveis de análises: i) Morfológica - analisa a estrutura da palavra, da frase, uma vez inserida pelo usuário, pode de alguma forma gerar a busca combinatória; ii) Sintaxe - examina a classe das palavras. São os indicadores de relevância. A interrelação entre elementos de um texto, frase e/ou oração. (sujeito-predicado, verbo-objeto; substantivo-adjetivo entre outras combinações dependendo do contexto); iii) Semântica - (léxico) investiga o sentido, o significado ou os possíveis significados; iv) Pragmática - (discurso) estuda o significado além dos limites da frase, i.e, aquilo que está implícito na frase para determinar os antecedentes referenciais, por exemplo, os pronomes; v) Fonologia/fonética – trata os sons da fala e voz. 3

Veja Santos 2001 para uma visão mais detalhada sobre Linguística Computacional. Disponível em http://www.linguateca.pt/Diana/download/Santos2001Aplicacoes.pdf. 4 Inferência Bayesiana – é um tipo de inferência estatística que descreve as incertezas sobre quantidades de um objeto numa determinada classe baseando-se na probabilidade deste objeto pertencer a esta classe. São aplicados como corretores estatísticos quando há grandes volumes de dados comparáveis aos resultados produzidos por árvores de decisão e redes neurais. Disponível em: http://www.deamo.prof.ufu.br/arquivos/Aula11N.pdf.

Na frase “Vou sair essa noite”, mesmo com erro gramatical a pessoa entenderá o seu sentido. O correto é: “Vou sair esta noite”. É esta,/este que indicam o tempo no qual se está ou objeto próximo. Ou na frase: “Espero que você esteje certa” [5], o sentido também será entendido, embora a frase esteja sintaticamente errada e nunca será aceita em um ambiente formal da língua, da mesma forma que a falta de um ponto e vírgula (;) na linguagem Java acusará erro e o programa não será aceito. Viera e Lima [2001] diz que em comparação às LN, as linguagens formais, tais como a linguagem lógica, apresentam uma semântica bem definida. Por isso, existe uma grande influência da lógica nos estudos da semântica computacional da LN. Retomando a indagação feita no inicio do tópico, percebe-se que a importância do PLN está na influência das interdisciplinaridades de seus processos, ferramentas e aplicações sob forte interação relacionadas à linguística, a Ciência da Computação e IA.

3. Tradução Automática – Google Tradutor A aprendizagem de máquina com reconhecimento de padrões - usada para descrever e/ou classificar objetos, traz para a área das aplicações do PLN a Tradução Automática (TA) que com a desterritorialização, derrubam as barreiras que, até então, impediam o homem de se comunicar em línguas que não fosse de seu domínio. Abrem-se inúmeros canais onde o sujeito passa a desconhecer os limites da não comunicação natural passando a usar com certa frequência a TA. Há muitos que os tradutores automáticos deixaram de traduzir literalmente (palavra por palavra) onde desconsideravam os aspectos como a síntaxe e a semântica (contexto das frases). A nova proposta reside em superar esses obstáculos da língua, independente dos conhecimentos linguísticos do usuário. Em 2006, começou a ser formada a base do conhecimento (bases de dados) do Google Tradutor. Primeiro com textos oficiais da ONU traduzidos para seis idiomas e depois, passou a traduzir arquivos públicos de documentos bilíngues até entrar para a rede mundial. Hoje aposta na velocidade das respostas de tradução, podendo traduzir uma frase em menos de um segundo. Para isso, o Google utiliza as traduções feitas pelos próprios usuários que “alimentam” significativamente as bases de conhecimentos todas as vezes que inserem e/ou sugerem traduções alternativas àquelas armazenadas em suas bases de dados. Mas como isso é processado? O sistema tradutor do Google segmenta os textos e forma as chamadas memórias de traduções (recursos imprescindíveis desse tradutor), que são traduções executadas com auxílios de programas que tem a capacidade de buscar em suas bases de dados por textos similares já traduzidos anteriormente, e incorporá-los ao seu banco de dados tendo em vista a correlação direta entre a quantidade de dados e o resultado final da tradução. O sistema de tradução Google guarda essencialmente informações de como as pessoas realmente usam a linguagem na prática, aproveitando-se da Linguística de Corpus onde programas “aprendem” a partir dos repositórios dos milhares de milhões de páginas da web traduzidas e das traduções de palavras, frases e textos que são diariamente armazenadas em suas bases de conhecimentos. Esta produtividade [6] é imprescindível

5

Verbo Ser/Estar: Nunca diga ou escreva “seje e esteje” elas não existem na Língua Portuguesa. As grafias corretas são: seja e esteja. (Sugestão da autora) 6 Google Tradutor:

para a manutenção das bases de conhecimentos e o Google espera que o usuário (participante colaborativo) seja capaz de manter-se produtivo escrevendo texto (traduzindo) ou lendo páginas traduzidas dos sites automaticamente. Para melhorar as traduções, o Grupo do PLN Google, implantou o sistema de correção ortográfica inteligente [7], que é um software de correção automática que funciona como se fosse outra pessoa ajudando simultaneamente o usuário. Agora o usuário deverá concentrar-se apenas no que está escrevendo sem a preocupação de erros de digitação. Por exemplo, imagine que o usuário escreveu: “vou de cora minha sala?” Toda palavra digitada é analisada, embora o sistema não possua nenhum tipo de dicionário. Assim, não é possível saber se a palavra “de cora” está correta ou se é um erro de grafia. O sistema faz uma busca combinatória usando uma lista de possíveis palavras candidatas que pode ser: cor, textura, nome ou verbo. Faz-se uma análise probabilística e avalia o sentido da palavra ou da frase no contexto e devolve para o usuário sugestões de palavras-chave em mensagem “você quis dizer...”. O sistema pode fazer a correção automática ou deixar a cargo do internauta para corrigi-la manualmente. Mesmo com essa facilidade, o grande desafio do TA continua sendo quanto às traduções das expressões idiomáticas. Não há regras (rima, aliteração, métrica, fraseologia) préestabelecida para esse tipo de texto que fica comprometido no que diz respeito à qualidade, concordância e sentido. Contudo, a Google Tradutor mostra resultados satisfatórios quanto à tradução de notícias, textos científicos ou legendas de vídeos que podem ser traduzidos instantaneamente em 81 idiomas diferentes.

4. Considerações Finais Como o PLN a máquina tem a capacidade de interpretar (reconhecer o contexto), gerar textos e tem condições de analisar a sintaxe, a morfologia e a semântica, gerar resumos, extrair informação, interpretar os sentidos e até aprender conceitos com os textos traduzidos por usuários. No momento não é possível afirmar que as máquinas poderão igualar ou até mesmo superar a capacidade do homem de interpretar situações cognitiva e afetiva-emocional. O que se percebe é que tanto no Google Tradutor quanto na web os tipos de erros ortográficos que as pessoas cometem são as coisas mais ou menos prováveis. Portanto, há nas bases de dados dos sistemas do Google tipos de modelos de linguagem estatísticas que já foram utilizadas anteriormente e são reaproveitadas quando uma tradução assim a requerer. Observou-se que quando se tem um sistema que suporta participações colaborativas, que têm suas bases de conhecimentos (dados) estruturados e que pode mudar a qualquer momento a interface do usuário, por possuir participantes remotos, realmente não há limites. Pois o volume de informações dos Processamentos da Linguagem Natural inseridas diariamente, como a verificação ortográfica, as traduções e, uma série de novas aplicações como reconhecimentos de voz que podem ser aplicadas, beira ao incomensurável.

7

Corretor ortográfico integrado no Google Chorme que pode ser usando apenas no Windows, Chorme OS e Linux: https://support.google.com/websearch/answer/1723?hl=pt

O sistema de tradução do Google, atualmente utiliza ferramentas simples com avançadas tecnologias que permite a todos que o acessam, a facilmente para se comunicar a partir de sua língua original com qualquer pessoa no planeta usando a linguagem de computador nas traduções automáticas com seu próprio vocabulário, sua própria gramática e sua própria semântica. As traduções automáticas, embora deslizem em alguns momentos do PLN, podem simplesmente traduzir palavras do sistema, como também substitui-la fielmente em cada modelo de contexto, exceto o literário, que é a grande vantagem em termos de comunicação entre traduções usuais feitas a partir de uma língua para outra usando a interface de sistemas inovadores. Quando se trata de avanços tecnológicos, não há como frear ou retroceder as Ciências Linguística Computacional, Neurociência, Psicologia, Filosofia, Inteligência Artificial entre outras áreas, que juntamente com Microsoft e outros, estão ai para provar que esses novos “senhores” vieram para ficar. A globalização que até então impedia mais da metade da população mundial de ser excluída da sociedade da informação digital, tendem a acreditar que o principal problema ainda é a barreira da língua que impede que a comunicação, uma habilidade cognitiva inata do ser humano, deixe de criar uma relação de equidade entre os povos.

Referências AMO, Sandra de. Curso de Data Mining. Disponível em: < http://www.deamo.prof.ufu.br/arquivos/Aula11N.pdf> (Acessado em 03/03/2014). COSTA, G. C.; DANIEL, F. de G. – Google Tradutor: Análise de Utilização e Desempenho da Ferramenta. TradTerm, São Paulo, v. 22, Dezembro/2013, p. 327361. Disponível em: (Acessado em 03/03/2014). OLIVEIRA NETO, Joao Mendes de et al: Processamento de Linguagem Natural e suas Aplicações Computacionais: Universidade Federal de Mato Grosso - Campus Universitário de Rondonópolis-– Brasil. Disponível em: Acessado em 07/03//2014). PAVÃO JUNIOR, Jadyr – Revista Veja. Edição 2163 / 5 de maio de 2010. Disponível em: < ). (Acessado em 07/03//2014 SANTOS, Diana. 2001. Introdução ao processamento de linguagem natural através das aplicações. In Elisabete Ranchhod (ed.), Tratamento das Línguas por Computador. Uma introdução à linguística computacional e suas aplicações, Lisboa: Caminho, pp. 229-259, Disponível em: (Acessado em 03/03/2014). SOUZA, Rejane Fabrícia. O Estudo Linguístico a partir de uma avaliação em tradutores automáticos. Revista PROFT - Anais do Simpósio Profissão Tradutor 2010, Vol. 1, Nº 1 Outubro de 2011. Disponível em: (Acessado em 26/02/2014). VIERA, Regina; LIMA, Vera Lúcia Strube de. Linguística computacional: princípios e aplicações. PUCRS, Porto Alegre – RS, 2001. Disponível em: http://www.inf.unioeste.br/~jorge/mestrados/letras%. (Acessado em 07/03//2014).

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.