lunes, 11 de mayo de 2009

BRITISH NATIONAL CORPUS / CUERPO NACIONAL BRITÁNICO


What is British National Corpus?

The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of British English from the later part of the 20th century, both spoken and written.

The written part of the BNC (90%) includes, for example, extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text. The spoken part (10%) consists of orthographic transcriptions of unscripted informal conversations (recorded by volunteers selected from different age, region and social classes in a demographically balanced way) and spoken language collected in different contexts, ranging from formal business or government meetings to radio shows and phone-ins.

The corpus is encoded according to the Guidelines of the Text Encoding Initiative (TEI) to represent both the output from CLAWS (automatic part-of-speech tagger) and a variety of other structural properties of texts (e.g. headings, paragraphs, lists etc.). Full classification, contextual and bibliographic information is also included with each text in the form of a TEI-conformant header.

Work on building the corpus began in 1991, and was completed in 1994. No new texts have been
added after the completion of the project but the corpus was slightly revised prior to the release of the second edition BNC World (2001) and the third edition BNC XML Edition (2007). Since the completion of the project, two sub-corpora with material from the BNC have been released separately: the BNC Sampler (a general collection of one million written words, one million spoken) and the BNC Baby (four one-million word samples from four different genres).

What sort of corpus is the BNC?

Monolingual: It deals with modern British English, not other languages used in Britain. However non-British English and foreign language words do occur in the corpus.

Synchronic: It covers British English of the late twentieth century, rather than the historical development which produced it.

General: It includes many different styles and varieties, and is not limited to any particular subject field, genre or register. In particular, it contains examples of both spoken and written language.

Sample: For written sources, samples of 45,000 words are taken from various parts of single-author texts. Shorter texts up to a maximum of 45,000 words, or multi-author texts such as magazines and newspapers, are included in full. Sampling allows for a wider coverage of texts within the 100 million limit, and avoids over-representing idiosyncratic texts.

Creation process in brief

The creation of the corpus started with a careful planning stage where the design principles were drawn up. These principles included the selection criteria that were used as the basis for the collection of the texts

Once a suitable texts was identified and permission to use it had been obtained, the text was converted to machine readable form. The conversion was performed by one of the commercial partners (OUP, Longman or Chambers). The resulting text was then converted to the standard project encoding format at OUCS, where its accuracy and internal consistency was also validated.

The text was then passed to UCREL, where word class tagging was automatically added, and returned to OUCS for documentation and accession into the corpus. Each stage of corpus processing was recorded in a database maintained at OUCS.


¿Qué es el Cuerpo Nacional Británico?

El British National Corpus (BNC) es una colección de 100 millones de muestras de lengua escrita y hablada de una amplia gama de fuentes, diseñado para representar a una amplia sección transversal de Inglés Británico de la última parte del siglo 20, tanto hablado como escrito. La última edición es la edición de XML BNC, publicado en 2007.

La parte escrita de la BNC (90%) incluye extractos de los periódicos regionales y nacionales, revistas especializadas y revistas para todas las edades e intereses, libros académicos y ficción popular, publicados y no publicados, cartas y memorandos, la escuela y la universidad ensayos, entre muchos otros tipos de texto. La parte que habla (10%) consiste en la transcripción ortográfica de conversaciones informales sin guión y el lenguaje hablado recogidos en distintos contextos, que van desde el oficial de negocios o reuniones gubernamentales hasta radio y teléfono-ins.

El trabajo en la construcción de este cuerpo nacional se inició en 1991, y se terminó en 1994. No hay nuevos textos añadidos después de la realización del proyecto, pero el cuerpo fue ligeramente revisado antes del lanzamiento de la segunda edición BNC mundo (2001) y la tercera edición BNC XML Edition (2007). Desde la finalización del proyecto, dos sub-corpus con material procedente del BNC han sido liberados por separado: el BNC Sampler (en general una colección de un millón de palabras escritas, un millón de habla) y el BNC para bebés (cuatro de un millón de muestras de palabra cuatro diferentes géneros)

¿Qué tipo de corpus es el BNC?

Monolingües: Se trata del moderno Inglés Británico, y no otros idiomas utilizados en Gran Bretaña. Sin embargo, el inglés no británico y palabras de la lengua extranjera se producen en el cuerpo.

Sincrónico: Cubre Inglés Británico de fines del siglo XX, más que el desarrollo histórico que lo produjo.

General: Incluye muchos estilos y variedades, y no se limita a ningún tema concreto, género o registro. En particular, contiene ejemplos de lengua hablada y escrita.

Ejemplo: Por las fuentes escritas, las muestras de 45.000 palabras están tomadas de diferentes partes de un solo autor de textos. Textos más breves, hasta un máximo de 45.000 palabras, o de varios textos de autores tales como revistas y periódicos, se incluyen en su totalidad.

Proceso de creación

La creación del cuerpo se inició con una cuidadosa planificación de la etapa en que los principios de diseño se han elaborado. Estos principios incluyen los criterios de selección que se utilizaron como base para la recopilación de los textos.

Una vez que un texto se identificó, el texto se convirtió en una forma legible. La conversión fue realizada por uno de los socios comerciales (OUP, Longman o Salas). El texto resultante se convierte a la norma del proyecto en formato de codificación OUCS, donde su exactitud y consistencia interna también fue validado. El texto fue transmitido a UCREL, donde la palabra clase se añade automáticamente al etiquetado, y regresó a OUCS para la documentación y la adhesión en el cuerpo. Cada etapa del procesamiento de corpus fue grabado en una base de datos mantenida en OUCS.

No hay comentarios:

Publicar un comentario