CORPUS LINGÜÍSTICO conceptos basicos

June 29, 2017 | Autor: Teres Ordonez | Categoria: Linguistics
Share Embed


Descrição do Produto

 

CORPUS LINGÜÍSTICO

Definiciones El uso de corpus lingüístico sirve para el estudio de la lengua, se le considera como a una metodología empírica de trabajo, basada en el empleo de datos reales, de muestras de uso de la lengua. A continuación se hará mención de algunas definiciones del concepto: La primera es de un estudioso sobre el tema, ya que sus aportaciones revelan la importancia de éste termino: “A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language..” Sinclair (1996) La palabra corpus se expone a un significado que proviene del latín; sus acepciones son, entre otras: cuerpo humano o de un animal, cuerpo de un objeto, masa. Sin embargo, corpus posee también otro significado más abstracto: conjunto, total, Según el Gran Diccionario de Uso del Español Actual, es el conjunto de textos, procedentes del lenguaje oral o escrito o ambos, recopilados de fuentes variadas y ordenadas y clasificados según determinados criterios, que sirve para llevar a cabo estudios e investigaciones lingüísticas o literarias De acuerdo con el Diccionario de la Lengua Española de la Real Academia define éste termino como al conjunto de lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base en una investigación. Browker y Pearson (2002, en Marín 2012) lo definen como una colección considerablemente grande de textos auténticos que han sido almacenados en forma electrónica de acuerdo con criterios específicos, incluyen cuatro características importantes: auténticos, electrónicos, grandes y de criterios específicos. Hunston (2002, en Marín 2012) define al corpus como una selección de ejemplos de la lengua, desde enunciados “A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research.” (Sinclair, 2005) De acuerdo con Villandre (2008) es el conjunto de datos es lo que se denomina ‘corpus’ en un sentido general del término. Pero ha sido el empleo de ordenadores para reunir, organizar y procesar esos datos el que ha dotado de modernidad a esta tarea, hasta el punto de propiciar el despegue de toda una forma de hacer lingüística, la llamada ‘lingüística de corpus’. Aston and Burnard 1998; Leech and Filgelstone 1992 en McEnery, Xiao & Tono (2010) definida como: “…A collection of sampled texts, writen or spoken, in machine.readable from which may be annotated with various forms of linguistics information…”

es

  NIVELES DE CORPUS Se encontrar diferentes niveles: corpus, subcorpus y componentes. Torruella y Llisterri (1999) • Corpus.- Un corpus es un conjunto homogéneo de muestras de lengua de cualquier tipo (orales, escritos, literarios, coloquiales, etc.) los cuales se toman como modelo de un estado o nivel de lengua predeterminado. • Subcorpus.- Suele ser una selección estática de textos, derivada de un corpus normalmente más general y complejo, puede ser una selección dinámica de textos de un corpus en crecimiento. Ejemplo: El subcorpus oral de banco de datos CREA-CORDE. • Componente.- Es una colección de muestras de un corpus, éstas responden a un criterio lingüístico especifico. Los componentes reflejan un tipo determinado de lengua. los subcorpus son muy heterogéneos, mientras que los componentes son muy homogéneos

COLECCIONES DE TEXTOS Según el grado de especificación en los criterios de selección, al menos entre tres tipos diferentes de recopilaciones: • Archivo/colección (informatizado) (Archive/Collection).-. • Biblioteca de Textos Electrónicos (Electronic text library) • Corpus Informatizado (Computer corpus). A) CORPUS TEXTUALES

Parámetros para Clasificar los Corpus De acuerdo con Torruella y Llisterri (1999) se pueden clasificar en función de los parámetro que se quieran utilizar por ejemplo: I. Según el porcentaje y la distribución de los diferentes tipos de textos que lo componen 1. Corpus grande. Corpus que no se plantea el límite del volumen de textos, sin tener en cuenta el número de palabras o cuestiones de equilibrio, de representatividad, etc. 2. Corpus equilibrado. Contiene diferentes variedades de textos distribuidos cuantitativamente en proporciones parecidas para cada variedad. 3. Corpus piramidal.- Sus componentes, están distribuidos en diversos estratos o niveles: • Variedades temáticas. • Variedad de textos con menos cantidad. • Un tercer estrato compuesto por muchas variedades pero con pocos textos en cada variedad. El número de estratos es opcional 4. Corpus monitor.- Los corpus monitor quieren tener un volumen textual constante pero en continua actualización. Debido a lo dinámico que de la lengua se incluyen y excluyen textos para actualizar el corpus 5. Corpus paralelo.- Es una colección de textos traducidos a una o varias lenguas. Este tipo de corpus es de gran utilidad en el campo de la traducción automática, en programas donde suelen trabajar con datos probabilísticos. 6. Corpus comparables.- Seleccionan textos parecidos en cuanto a sus características en más de una lengua o en más de una variedad. Su finalidad es poder comparar el comportamiento de diferentes lenguas o de diferentes variedades de una lengua en circunstancias de comunicación parecidas pero evitando distorsiones lingüísticas introducidas en las traducciones recogidas en los corpus paralelos. 7. Corpus multilingües.- Sinclair sugiere que cuando se recopilan textos de diferentes lenguas sin que sean traducciones unos de otros y sin compartir criterios de selección. 8. Corpus oportunista. Recoge textos que encuentra disponibles sin seguir ningún criterio de selección. II. Según la especificidad de los textos que lo componen 1. Corpus general.- Al pretender reflejar la lengua común en su ámbito, se interesa por recoger cuantos más tipos de géneros mejor. Es útil para describir la lengua común de una colectividad en situaciones comunes. 2. Corpus especializado. Recoge textos que puedan aportar datos para la descripción de un tipo particular de lengua. Contempla una o más variedades de la lengua general (subcorpus); textos poéticos. 3. Corpus genérico.- Condicionado por el género de los textos que contiene, se interesa solo por algunos de ellos; ejemplo: textos de revistas científicas especializadas o la selección de textos poéticos. 4. Corpus canónico. Formado por todos los textos que configuran lo obra completa de un autor, independientemente de los géneros.

5. Corpus periódico o cronológico. Corpus que recoge textos de ciertos años determinados o épocas concretas. 6. Corpus diacrónico. Incluye textos de diferentes etapas temporales sucesivas en el tiempo con el fin de poder observar evoluciones en la lengua. III. Según la cantidad del texto que se recoge en cada documento 1. Corpus textual (Whole text corpus).Recoge íntegramente todos los textos de los documentos que lo constituyen. Las novelas, pequeños anuncios de periódico o colecciones de poemas cortos de un mismo autor. 2. Corpus de referencia (Reference corpora). Formado por fragmentos de los textos de los documentos que lo constituyen. No interesa tanto el texto en sí sino el nivel de lengua que representan. Es importante el equilibrio y representatividad en la selección de los fragmentos. 3. Corpus léxico (Samples corpus). Corpus que recoge fragmentos de textos muy pequeños y de longitud constante de cada documento. IV. Según la codificación y las anotaciones añadidas a los textos 1.Corpus simple (o no codificado ni anotado). Corpus que ha sido guardado en formato neutro (ASCII, también llamado plain text), y sin codificación para ninguno de sus aspectos. 2.Corpus codificado o anotado. Formado por textos a los cuales se les ha añadido, ya sea manual o automáticamente, etiquetas declarativas de algunos elementos estructurales de los documentos . V. Según la documentación que le acompañe 1. Corpus documentado. Corpus en el que cada documento que lo compone lleva asociado un archivo DTD (Document Type Definition) o una cabecera “header” de descripción de su filiación y sus constituyentes. 2. Corpus no documentado. Sus textos constituyentes no disponen de ningún apartado o archivo relacionado donde se describan sus elementos o su filiación B) CORPUS ORALES Según la el artículo de Torruella y Llisterri (1999) La especificidad de los corpus diseñados con vistas al análisis fonético o a las aplicaciones a las tecnologías del habla requiere establecer ciertos matices, considerando tres tipos de corpus: I. Corpus para la descripción fonética de la lengua Los inventarios de sistemas fonéticos y fonológicos de la lenguas del mundo utilizados en el estudio de los universales, integrados en bases de datos que permiten el análisis estadístico de la frecuencia de aparición de unidades segmentales o de rasgos fonéticos. II. Corpus para el desarrollo de sistemas en el ámbito de las tecnologías del habla El desarrollo y la validación de los sistemas de síntesis, reconocimiento y dialogo que han surgido en el campo conocido como las tecnologías del habla ha hecho necesario la constitución de corpus de naturaleza muy especifica. Los sistemas de reconocimiento de habla requieren también corpus grabados con las unidades fonéticas que se utilizarán en el reconocimiento, y en algunos casos corpus con materiales específicos como por ejemplo números de teléfono o de tarjetas de crédito orientados a determinadas aplicaciones del reconocimiento a lo servicios telefónicos automáticos. Posibilitan las transcripciones de la lengua oral, establecen modelos probabilísticos de aparición de palabras sobre un tratamiento lingüístico efectuado tanto en la síntesis como en el reconocimiento. III. Los corpus orales, consistentes en transcripciones ortográficas de la lengua hablada El punto de partida es una grabación, una vez transcrito, el corpus se trata con los mismos procedimientos que un corpus textual. Se utilizan algunos mecanismos para determinar si existe interferencia fonética analizar las desviaciones en los hablantes.

 

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.