Linguística de Corpus e ensino de Terminografia para alunos de Letras e Tradução: uma proposta

June 1, 2017 | Autor: Guilherme Fromm | Categoria: Terminology, Translation, Terminography, TV Series
Share Embed


Descrição do Produto

Linguística de Corpus e ensino de Terminografia para alunos de Letras e Tradução: uma proposta Corpus Linguistics and Terminography teaching for Language and Translation students: an approach

Guilherme Fromm R. Charqueada, 290 – 38410-579 – Uberlândia – MG Tel: (34) 9178-8460 E-mail: [email protected] Instituto de Letras e Linguística – Universidade Federal de Uberlândia Resumo O objetivo desse trabalho, ainda em fase de pesquisa, é mostrar como alunos dos cursos de Letras e/ou Tradução podem aprender a trabalhar com Terminologia/Terminografia bilíngue para descrição de língua. Durante o processo de aprendizado do fazer terminográfico, esses alunos, valendo-se da metodologia da Linguística de Corpus, compilam legendas alternativas, disponíveis gratuitamente na Internet. Essas legendas pertencem a seriados televisivos americanos de ficção que trabalham com terminologia de áreas específicas (como pano de fundo); através delas, e usando programas de análise lexical, como o WordSmith Tools, eles aprendem todas as fases para a criação de vocabulários técnicos. Palavras-chave: Terminologia, Terminografia, Linguística de Corpus, Análise Lexical, Tradução. Abstract

This article, still in research phase, aims at showing how students of Language and/or Translation can learn how to work with bilingual Terminology/Terminography for language description. During the process of learning the art and craft of Terminology, these students, using the methodology of Corpus Linguistics, compile alternative subtitles, freely available on the Internet. These subtitles belong to American fictional TV series that work with Terminology in specific areas (as background), and through them, and using lexical analysis programs such as WordSmith Tools, the students learn all phases for the creation of technical vocabularies. Keywords: Terminology, Terminography, Corpus Linguistics, Lexical Analysis, Translation.

Uma das habilidades que alunos dos cursos de Letras e Tradução podem adquirir, durante o seu aprendizado, é o trabalho com o vocabulário (segundo acepção de BARBOSA, 2001). A organização de obras terminográficas, embora normalmente seja um trabalho realizado em grupos de pesquisa ou em empresas, que mantêm grupos para mapear os termos correntes das mesmas, não necessariamente tem que ser um trabalho de equipe. Trazer um aluno de graduação ou Iniciação Científica para trabalhar em um grupo de pesquisa requer um período de treinamento, às vezes muito extenso. A nossa proposta, aqui, é mostrar como os alunos, especialmente àqueles de Iniciação Científica, em cursos de Letras ou Tradução, através de projetos individuais e relativamente curtos, podem melhorar seu aprendizado de línguas (portuguesa e estrangeira) através do trabalho terminográfico.

2 O que é Terminologia/Terminografia?

Terminologia é o estudo do vocabulário de uma área específica, enquanto a Terminografia se preocupa com a construção (em mídia escrita ou eletrônica) de uma obra voltada para essa área determinada. Trabalhos terminográficos podem variar desde uma simples compilação de termos equivalentes em duas ou mais línguas (como house → casa) até um verbete completo (totalmente baseado num corpus de especialidade). Os vocabulários são voltados para usuários que buscam respostas sobre termos (ou vocábulos) em determinadas áreas. A elaboração dos termos obedece a alguns parâmetros e a construção de sua microestrutura pode se resumir a: Termo = {+ entrada + enunciado terminográfico ( PI + PD  PS + PFE + PP  Remissivas  PE)}(FROMM, 2007),

onde o sinal  representa a opcionalidade (nem todos os campos podem ser preenchidos em virtude da carência de informações apresentadas pelos exemplos, no caso de um trabalho totalmente baseado em corpus) e o sinal + representa a obrigatoriedade. Esses componentes do termo podem ser assim definidos: PI – Paradigma Informacional: informações gerais sobre o termo, como área a qual pertence, informações morfossintáticas, abreviações, etc.; PD – Paradigma Definicional: a definição do termo em si; PS – Paradigma Semântico: toda a rede de relações semânticas que o termo pode suscitar; PFE – Paradigma de Forma Equivalente: o termo citado em determinada língua tem como equivalente tal termo em outra língua; PP – Paradigma Pragmático: exemplos e abonações Remissivas: termos que mantem uma ligação semântica com o citado dentro da obra; PE – Paradigma Enciclopédico: informações enciclopédicas, inclusive multimídias.

Podemos tomar como exemplo o termo processador, na área de informática:

3 processador. (CPU, UCP). Hardware. s.m.s. tipo de chip, parte principal do computador, também conhecido como CPU (Central Processing Unit); executa instruções (processos) e dados (através da UC - unidade de controle) e operações lógicas e aritméticas (através da UAL - unidade aritmética e lógica). Ex.: Processador (UCP). A UCP é a parte principal do computador responsável pelo processamento e execução de programas armazenados na memória principal. Sinônimos: CPU, UCP. Hipônimo de: computador. Hiperônimo de: UAL (unidade aritmética e lógica); UC (unidade de controle). Co-hipônimos: chip. Veja Também: chipset, CPU, UCP. Córpus: Posição na Ordem de Frequência: (67); Nº de Ocorrências do termo: (1212). Informações Enciclopédicas: O processador é a parte mais fundamental para o funcionamento de um computador. Processadores são circuitos digitais que realizam operações como: cópia de dados, acesso a memórias e operações lógicas e matemáticas. Em: Processador – Wikipedia

De todos os Paradigmas citados anteriormente, aquele que tem a construção mais complicada é o Definicional. Apesar de estarmos acostumados com definições em dicionários gerais de língua, a construção do termo num vocabulário se difere da construção de um lexema num dicionário. Lara (2000, p. 94) apresenta essa distinção, por exemplo, quanto à elaboração da definição: A diferença entre a definição terminológica e a definição lexicográfica remete, portanto, a perspectivas distintas de abordagem, muito embora elas não sejam isentas: a lexicografia parte do signo para chegar à determinação do conceito (procedimento semasiológico); a terminografia parte da noção (ou conceito) e pesquisa os termos que lhe correspondem (procedimento onomasiológico).

A nossa proposta, voltada para os cursos de Letras (Línguas Estrangeiras) e Tradução, trabalha com a Terminografia Bilíngue, sempre num par português/língua estrangeira (os exemplos, no nosso caso, são todos voltados para o inglês). O objetivo geral do trabalho é a descrição de línguas, vernácula e estrangeira, atividade que os alunos (de licenciatura ou bacharelado) não estão acostumados a realizar; os mesmos são acostumados a ler sobre descrição de língua, mas raramente estimulados a analisar a língua através de exemplos concretos. A criação desses vocabulários bilíngues, passo a passo, valoriza essa atividade de descrição e, ao mesmo tempo, treina os alunos para outras tarefas nessas áreas. Os alunos podem ser treinados para realizar um trabalho terminográfico em vários níveis, desde a organização de uma listagem de termos equivalentes até a construção de vocabulários técnicos bilíngues completos (passando, inclusive, pelo processo de criação de definições) nas mais diversas áreas.

4 Compilação de Corpora

Dentre as várias possibilidades de compilação de corpora para análise linguística, decidimos trabalhar com os alunos algo que se aproxima mais de seus cotidianos: séries de televisão americanas. Exibidas tanto na TV aberta brasileira quanto em canais a cabo (à exaustão), essas séries, assim como novelas brasileiras, estão se tornando populares entre todas as classes sociais no país. A escolha das séries que participam do projeto leva em conta alguns parâmetros: 1. Devem ter, como pano de fundo, alguma área de especialidade (médica, jurídica, astronômica, etc.); 2. são todas séries de ficção (excluindo, portanto, documentários, novelas, filmes e reality-shows); 3. todas devem possuir legendas, nas duas línguas analisadas, disponíveis na Internet1; 4. devem ter quatro ou mais temporadas, para gerar um corpus de tamanho razoável para análise. Dentro desses parâmetros, podemos citar séries como House e Grey’s Anatomy (médicas), CSI (em suas três versões: Las Vegas, Miami e New York) e Bones (criminalística), Law and Order e Good Wife (jurídicas), Farscape e Jornada nas Estrelas (astronomia), Supernatural (sobrenatural – embora não seja uma área de especialidade no mundo real, acaba por tornar-se de especialidade na ficção ou na religião), entre outras. As legendas aqui estudadas (figura 1) não são feitas por profissionais autônomos ou firmas de tradução. Elas são produzidas por fãs dos seriados que se juntam através de sites especializados e produzem essas legendas em grupo (SAYURI, 2011). Além da descrição linguística, o aprendiz também pode analisar os processos de composição dessas legendas. Os alunos aprendem a procurar pelos sites onde podem encontrar os dados para compilar os corpora (em língua vernácula e estrangeira), a descobrir o que pode ser trabalhado pelos programas de análise lexical (como o WordSmith Tools, apresentado a seguir), os parâmetros de balanceamento de um corpus, a diferença entre corpus paralelo (que é o caso, composto de traduções) e comparável (textos na mesma área, porém não

1

Geralmente disponíveis nos sites www.legendas.tv ou www.opensubtitles.org.

5 traduções). A composição dos nossos corpora segue este padrão (proposto por BERBER SARDINHA, 2004): a. Modos: falados (transcrições do seriado original para o inglês) e escritos (traduções); b. tempos: sincrônicos e contemporâneos; c. seleção: por amostragem (estático); d. balanceado: as legendas das séries são analisadas na íntegra, com todas as temporadas disponíveis, tanto no original quanto na tradução; e. conteúdos: especializados, multilíngues; f. autoria: de língua nativa (falantes nativos); g. disposições internas: paralelos (original e tradução); h. finalidades: de estudo (corpus a ser descrito), de referência (para contrastar com o corpus de estudo.

Figura 1. Legendas, em português, de um episódio do seriado Farscape. (SANTOS, 2011)

Ferramenta de Análise Lexical

Existem várias ferramentas de análise lexical disponíveis no mercado. Podemos citar como exemplos STABLEX, WordSmith Tools, Monoconc e Concordance (FROMM, 2004). Um estudo detalhado de todos os programas acima citados e outros (não incluindo o STABLEX), em uma análise contrastiva, pode ser encontrando em Lucca e Nunes

6 (2002). Por ser um dos programas mais populares e completos, optamos pelo WordSmith Tools (SCOTT, 2011). Para o nosso projeto, trabalhamos com suas três ferramentas principais:

1. Wordlist: cria uma listagem das palavras e apresenta, em uma mesma janela (com cinco abas), diferentes tipos de análise (frequência: listagem de palavras em ordem de frequência no conjunto do corpus; listagem alfabética das palavras e suas frequências; estatísticas: apresenta várias estatísticas, como a relação entre tokens e types2, simples e através de cálculo estatístico; nomes dos arquivos; notas extras); essas listas podem ser levantadas com todas as palavras (como na Fig. 2) ou somente com palavras selecionadas (Fig. 3), através de um filtro de palavras pré-selecionadas em uma lista (stoplist).

Figura 2. Wordlist de seriados de Jornada nas Estrelas (Enterprise, The Next Generation, Voyager e Deep Space Nine), em português, completa. O símbolo # indica os erros de leitura do programa (que considera os horários de inserção das legendas, por exemplo, como erros). Esse corpus foi compilado especificamente para esse artigo.

2

“Na língua inglesa os estatísticos do léxico costumam opor o token (ocorrência no texto) ao type (lexema referido pela ocorrência formal).” (BIDERMAN, 2001, p.167)

7

Figura 3. Wordlist (somente de palavras lexicais) do seriado House, em português. Os erros (#) também foram retirados (BANG, 2011).

2. Keywords: elabora uma listagem de palavras consideradas chave (ou candidatas a termos, no nosso tipo de estudo) dentro de um corpus; essa listagem apresenta as palavras de uso privilegiado e aquelas de uso comum. Para a elaboração da mesma, é necessário um outro corpus, de exclusão. Esse corpus de exclusão (ou referência) deve ser representativo em relação ao léxico geral da língua (leia-se: ele deve ser, de um modo geral e segundo BERBER-SARDINHA, 2004, cinco vezes maior que o corpus analisado) ou em relação ao léxico especializado daquela área. Nos exemplos abaixo, foram usados como corpora de referência uma combinação dos corpora British National Corpus (BNC)/American National Corpus (ANC), para o inglês, e o Banco do Português, compilado por Berber Sardinha, para o português (FROMM, 2007). Os resultados podem ser disponibilizados de diversas maneiras, como listas monolíngues (Tabela 1) ou uma seleção dessas tabelas monolíngues em contraste (Tabela 2). N

Key word

Freq.

%

RC. Freq.

RC. %

Keyness

P

9

VÍTIMA

1082

0,04992638

0

3662,20044

1,675E-20

13

SANGUE

1545

0,07129044

614

2901,23389

3,3939E-20

19

ARMA

994

0,04586582

213

2326,05005

6,6438E-20

24

POLÍCIA

614

0,02833161

9

1987,5929

1,073E-19

27

CABEÇA

542

0,02500933

2

1808,77258

1,4311E-19

30

MATOU

649

0,0299466

88

1693,25183

1,7513E-19

31 LABORATÓRIO

500

0,02307134

3

1656,72632

1,8722E-19

33

534

0,02464019

24

1619,08777

2,0088E-19

ASSASSINO

8 40

BALA

473

0,02182549

26

1407,15906

3,0898E-19

42

MÃOS

385

47

SUSPEITO

452

0,01776493

0

1302,99243

3,9148E-19

0,02085649

57

1195,99719

5,0989E-19

52

EVIDÊNCIA

54

IMPRESSÕES

337

0,01555008

2

1116,82959

6,301E-19

318

0,01467337

0

1076,22986

7,0664E-19

61

CRIME

806

0,037191

622

1025,17029

8,2157E-19

63

NÚMERO

316

0,01458109

5

1019,95386

8,3468E-19

65

CSI

300

0,0138428

2

992,0672

9,0971E-19

68

MORTO

581

0,0268089

310

941,073975

1,0719E-18

70

LICENÇA

281

0,01296609

2

928,023071

1,1196E-18

72

DIGITAIS

507

0,02339434

228

898,370361

1,2388E-18

74

HOMICÍDIO

261

0,01204324

0

883,315125

1,3058E-18

84

CARTÃO

247

0,01139724

1

823,317078

1,6268E-18

86

SEGURANÇA

263

0,01213552

11

802,27301

1,7642E-18

87

VÍTIMAS

236

0,01088967

0

798,704163

1,789E-18

90

MORTA

364

0,01679594

101

786,305237

1,8789E-18

91

DNA

696

0,03211531

622

785,726746

1,8833E-18

93

EVIDÊNCIAS

230

0,01061282

1

765,924072

2,0403E-18

97

ASSASSINATO

343

0,01582694

89

757,600525

2,1115E-18

99

CABELO

312

0,01439652

71

717,555664

2,5048E-18

102

CENA

526

0,02427105

388

691,945129

2,8088E-18

Tabela 1. Palavras-chave selecionadas (somente lexicais) do seriado CSI, em português, salvas em formato Excel (LAGO, 2011). A primeira coluna indica a posição de chavicidade (o quanto essa palavra é chave em relação ao corpus de referência), detalhada na coluna sete, de cada termo. Candidatos a termos Inglês Português Posição Termo Posição Termo 5 Hell 15 Demônio 7 Demon 40 Inferno 14 Lucifer 41 Deus 29 Ghost 56 Lúcifer 41 Supernatural 60 Espírito 52 Shapeshifter 77 Anjo 56 Apocalypse 80 Céu 66 Monster 93 Fantasma 74 EMF 124 Diabo 78 Devil 144 Monstro 79 Spirit 145 Apocalipse 80 Trickster 165 Caçador 85 Reaper 175 Feitiço 99 Hunter 229 Cemitério Tabela 2. Candidatos a termos selecionados (somente palavras lexicais) na área do Sobrenatural em inglês e português no seriado Supernatural. A posição indica a chavicidade dentro do corpus. (CARNEIRO, 2011)

3. Concord: o programa elabora, a partir das ferramentas Wordlist ou Keyword, ou de uma busca por uma palavra qualquer (digitada), uma lista de todas as linhas onde ela aparece em todo o corpus. O leiaute apresentado é o KWIC (KeyWord in Context – Palavra-chave em Contexto – a palavra aparece centralizada, na cor azul), como mostrado na figura 4. Dentre os possíveis tipos de análise que

9 podemos fazer a partir da ferramenta, destacamos regências, colocações (possíveis combinações de elementos à direita ou esquerda do termo estudado), binômios, expressões convencionais, expressões idiomáticas, subsídios para a construção de definições (através de contextos definitórios ou explicativos), clusters (agrupamentos de palavras em destaque no corpus estudado, como na figura 5), etc.

Figura 4. Termo dobra, nas séries de Jornada nas Estrelas (citadas).

Figura 5. Principais clusters para o termo dobra nas séries de Jornada nas Estrelas.

10 Possíveis resultados

A partir das análises realizadas pelo WordSmith Tools, diversas possibilidades de construção de microestruturas são possíveis. Trabalhando com programas que estruturam os dados advindos do corpus e os organizam como um trabalho terminográfico (como o E-Termos, Ambiente Colaborativo Web de Gestão Terminológica 3 e o VoTec (Vocabulário Técnico4)) o aluno pode, de acordo com os objetivos iniciais de sua pesquisa, desenvolver o vocabulário técnico daquela série de televisão. Em virtude das pesquisas sobre diversas séries citadas ainda estarem em fase de compilação dos corpora, levantamos um corpus próprio das séries de Jornada nas Estrelas para esse estudo. Depois da identificação do termo ou do cluster, podemos selecionar os exemplos disponíveis nos arquivos (figura 6a e 6b) e inseri-los em algum banco de dados para manuseá-los.

Figura 6a. Termo selecionado: núcleo de dobra.

3 4

Disponível em: http://www.etermos.cnptia.embrapa.br/. Página de consulta disponível em: http://www.guifromm.trd.br/.

11

Figura 6b. Arquivo relacionado à primeira linha de concordância do exemplo 6a. A palavra dobra está realçada.

Devido ao nosso espaço, apresentaremos (tabela 3) apenas alguns exemplos retirados do corpus (sem os horários de inserção das legendas) e a possível construção da microestrutura desse termo. Termo selecionado: núcleo de dobra.

Exemplo E agora o núcleo de dobra está afetando nossa estrutura celular. Nós acreditávamos que a radiação não nos afetaria, Os primeiros efeitos se viram no núcleo de dobra. Na câmara do reator, nos injetores. Tudo perdeu coesão. Computador...prepare para ejetar o núcleo de dobra. Se emitirmos uma explosão polaron, podemos desabilitar seus escudos o suficiente, para apontar em seu núcleo de dobra. Parece com o padrão de um núcleo de dobra da Federação. Há uma assinatura de ressonância subspacial vindo daquele asteróide. Pode ser o núcleo de dobra da Pegasus. Me lembro de ouvir sobre isso. A nave foi destruída por uma ruptura do núcleo de dobra, se me lembro bem. Se chegarmos perto dela, a matriz de dilítio do núcleo de dobra entrará em colapso, Isto é o...núcleo de dobra. Abastecido por reação de matéria/antimatéria, o que produz uma saída máxima de 4.000 teradynes por segundo, fornecendo energia para propulsão mais rápida que a luz.

Conceito primário Afeta estrutura celular seres. Composto por câmara reator e injetores; coeso. Pode ser ejetado. Possível alvo de ataque.

dos

do

Pertence à Federação. Emite uma assinatura ressonância subespacial.

de

Sua ruptura pode destruir uma nave. Composta por uma matriz de dilítio. Abastecido por uma reação de matéria/antimatéria, fornece energia para propulsão mais rápida que a luz.

12 Tabela 3. Exemplos retirado do corpus de Jornada das Estrela (citado), em português, para núcleo de dobra.

Possível microestrutura constituída a partir dos exemplos:

núcleo de dobra. Jornada nas Estrelas. s.m.s. estrutura composta por câmara do reator,

matriz de dilítio e injetores, abastecida por uma reação de matéria e antimatéria, que fornece propulsão mais rápida que a luz para uma nave estelar. Hipônimo de: nave. Hiperônimo de: câmara do reator, matriz de dilítio, injetores. Co-hipônimos: chip. Veja Também: matriz de dilítio, matéria/antimatéria, câmara do reator, nave. Córpus: Posição na Ordem de Frequência: (113 - dobra); Nº de Ocorrências do termo: (2127). Informações Enciclopédicas: núcleo de dobra é a designação comum para o reator de energia principal que energiza o sistema de propulsão de naves estelares com velocidade de dobra (traduzido). Disponível em: http://memory-alpha.org/wiki/Warp_core.

Figura 7. Núcleo de dobra (disponível em: http://www.startrekfuzion.xpg.com.br/departamentos/engenharia.htm).

Considerações Finais

A grande quantidade de séries de televisão que usam terminologias específicas como pano de fundo só tem aumentado na última década. Parece haver um esforço de legitimar, trazer para a realidade temas de ficção através de termos técnicos de uso corrente em determinadas áreas (MARTHE, 2011). Quanto mais termos técnicos são empregados nessas séries, mais elas estão perto da realidade. Num momento em que qualquer área do conhecimento é técnica, ou seja, um trabalho terminográfico pode ser levantado nos mais diversos ramos do saber, do serviço de lavar janelas até o mais alto grau de cientificismo acadêmico, saber trabalhar com Terminologia/Terminografia pode se mostrar um grande trunfo para os futuros profissionais de Letras e/ou Tradução. Esse trabalho pode começar com análises prazerosas, partindo de textos com os quais os alunos estão acostumados. São textos/séries que eles assistem semanalmente, acompanham por anos, adquirem

13 vocabulário de especialidade sem se dar conta do processo. Por que não unir o útil ao agradável? Referências Bibliográficas

BANG, M. Vocabulário de Especialidade na Ficção: análise do uso de termos da área médica na Série House M.D. Iniciação Científica, em curso. 2011. Orientador: Prof. Dr. Guilherme Fromm. BARBOSA, M. A. Dicionário, vocabulário, glossário: concepções. In: ALVES, I. M. (org.). A constituição da normalização terminológica no Brasil. São Paulo: FFLCH/CITRAT, 2001. BERBER-SARDINHA, A. Linguística de Corpus. São Paulo: Manole, 2004. BIDERMANN, M.T.C. Teoria Lingüística. 2. ed. São Paulo: Martins Fontes, 2001 . CARNEIRO, R. M. O. Linguística de Corpus e Ficção: uma análise contrastiva bilíngue do vocabulário de especialidade na série Supernatural. Iniciação Científica, em curso. 2011. Orientador: Prof. Dr. Guilherme Fromm. FROMM, G. Ferramentas de Análise Lexical Computadorizadas: uma aplicação prática. Revista Factus, Taboão da Serra, v. 1, n. 3, p. 153-164, 2004. _____. VoTec: a construção de vocabulários eletrônicos para aprendizes de tradução. São Paulo, 2007. Tese (Doutorado em Estudos Linguísticos e Literários em Língua Inglesa). Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo. LAGO, L. P. Análise de Vocabulário de Especialidade na Ficção na Série CSI: um estudo qualitativo de tradução. Iniciação Científica, em curso. 2011. Orientador: Prof. Dr. Guilherme Fromm. LARA, M. L. G. Diferenças conceituais sobre termos e definições e implicações na organização da linguagem documentária. Ciência da Informação, Brasília, v. 33, n. 2, p. 91-96, 2004. Disponível em: < http://www.scielo.br/pdf/ci/v33n2/a09v33n2.pdf>. Acesso em: 27 julho 2007. LUCCA, J.L. de & NUNES, M.G.V. Breve estudo sobre requisitos de ferramentas de software para construção de dicionários. São Carlos: NILC/ICMC/USP, 2002. MARTHE, M. A cura pela razão. Revista Veja, 16/03/2011. SAYURI, J. Legendários. Revista Superinteressante, maio 2011. SCOTT, M. WordSmith Tools. Versão 5. http://www.lexically.net/wordsmith/. Acessado em: 11/05/2011.

Disponível

em:

14 SILVA, F. S. Uma Viagem ao Corpus de Farscape: as questões de tradução envolvidas em um corpus trilíngue de ficção científica. Iniciação Científica, em curso. 2011. Orientador: Prof. Dr. Guilherme Fromm.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.