5/18/2010

275. Implementación del Centro Nacional de Traducción Automática y Digitalización de Documentación.

Autor: Jorge Elias
A. Proyecto: Implementación del Centro Nacional de Traducción Automática y Digitalización de Documentación.
B. Fundamentación: La aspiración de obtener artilugios mecánicos que sirvan para superar las barreras lingüísticas viene de antiguo. En el siglo XVII se habla de la utilización de diccionarios mecánicos (basados en códigos numéricos universales) para superar las barreras del lenguaje, dentro de un movimiento a favor de la creación de una “lengua universal” no ambigua, basada en principios lógicos y símbolos icónicos, que permitiese comunicarse a toda la humanidad. Este empeño precede por bastante tiempo a la propia existencia del ordenador.
La traducción es hoy en día el principal cuello de botella de la sociedad de la información y su mecanización supone un importante avance frente al problema de la avalancha informativa y la necesidad de la comunicación translingüística. Traducir es una de las artes más elevadas y que más talento y dedicación requiere. No basta con sustituir una palabra por otra, sino que se ha de ser capaz de reconocer todas las palabras de una frase y la influencia que tienen las unas sobre las otras. Los lenguajes humanos constan de morfología (la forma en que se construyen las palabras a partir de pequeñas unidades provistas de significado), sintaxis (la estructura de una frase) y semántica (el significado). Hasta el texto más simple puede estar plagado de ambigüedades.
Actualmente, existen diversos programas para traducción automatica, como por ejemplo, el SDL Knowledge-based Translation Systemem™ (SDL KbTS™) que proporciona traducciones de calidad, acelera el tiempo de comercialización del producto y reduce el costo total. La potencia de esta solución radica en la combinación de las habilidades lingüísticas humanas con una sofisticada tecnología de traducción automática y otras tecnologías de automatización. Proporciona contenido en varios idiomas de gran calidad hasta un 50% más rápido y con un coste un 40% inferior a los servicios de traducción tradicionales. A medida que aumenta el volumen de contenidos que deben publicarse rápidamente y reduciendo costes, cada vez más empresas se interesan por el modo en que la traducción automatizada puede beneficiar a su negocio. La combinación de amplios conocimientos lingüísticos humanos con un sofisticado software de traducción automática proporciona una mayor coherencia en las traducciones, al combinar la extracción terminológica, memorias de traducción, traducción automática y tecnologías de gestión de la traducción para proporcionar resultados de calidad en mejora continua. Con una producción de traducciones tres veces mayor que con los métodos tradicionales, el tiempo de comercialización se reduce normalmente en un 50% o incluso más. Puede reconocerse el contenido nuevo o actualizado como material para traducir siempre que se haya actualizado y transferido automáticamente a través del sistema.
El uso del computador en la gestión documental se inicia en la práctica a partir de las grandes bibliotecas nacionales anglófonas, la Biblioteca del Congreso de los Estados Unidos de América y la British Library, que en los años 60 del siglo XX crean programas de bases de datos conocidos como MARC (Machine Readable Cataloguing) o Catalogación leíble por computador. También, un sistema de gestión documental es una de las herramientas en las que se puede apoyar la gestión del conocimiento para efectivamente gestionar de mejor forma, más eficiente y con ventajas los activos intangibles de información. La mayoría de estos intangibles tienen que ver con procesos relacionados de una u otra forma con la captación, estructuración y transmisión de conocimiento. Resumiendo: "El conocimiento es poder..." y este sistema es un generador de hipótesis, y que pueden ser empleado para elevar indirectamente el desarrollo científico-tecnológico nacional, así como proporcionar una herramienta que entre excelencia a los alumnos que la consultan.



C. Objetivos generales:
-Incrementa el conocimiento de la población de la Nación
-Permitir el desarrollo de inteligencia técnica
-Permite eliminar el trastorno lingüístico entre nuestro país, con otros de distinto idiomas
-Mejora los procesos de generación de trabajos literarios y científicos
-Permite acceder a nuevas ideas e información

-Disminuir los costos al estar implicadas menos personas en la traducción.
-Aumenta la calidad de la producción científica
-Permitir compartir informaciones entre grupos de trabajo
-Ofrecer traducciones de calidad
-Generar una Base de Datos teniendo como núcleo la Biblioteca Nacional.
-Permitir la Consulta a través de la Internet y la Red Nacional Autorizada
-Digitalizar una hemeroteca nacional e internacional
-Digitalizar documentos técnico-científicos literarios y de interés.
- Preservar los documentos originales
-Obtener datos sin trasladar el documento consultado de su lugar de custodia y conservación

D. Lugar: Biblioteca Nacional (Sede) y Ministerio de Ciencia y Tecnología (I & D)
E. Recursos necesarios:
- Estudio de factibilidad del proyecto
- Asignación de la partida presupuestaria por el PEN (Ministerio de Ciencia y Tecnología y Educación)
- Aprobación del lugar de funcionamiento (requeriría gran volumen de información escrita)
- Ordenador de gran capacidad, con entradas múltiples para carga de datos
- Software multitraductor
- Sistema compuesto por scanners con reconocimiento de textos y capacidad de digitalización.
- Software de traducción multilingue
- Equipo de supervisores lingüísticos (traductores para distintas lenguas)
- Equipo de digitalización de documentación (personal y software)
- Sistema de base de datos con hipervinculos para los temas secundarios.
- Red Nacional de Consultas por Ordenador

F. Características generales:
Desglozaremos el proyecto en dos partes: Traducción Automática y Digitalización de Documentación.
1. Traducción automática (TA)
Tambien llamada MT (del inglés Machine Translation), es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En un nivel básico, la traducción por computadora realiza una sustitución simple de las palabras atómicas de un lenguaje natural por las de otro. Por medio del uso de componentes lingüísticos se pueden intentar traducciones más complejas, lo que permite un manejo más apropiado de las diferencias en la tipología lingüística, el reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías.
Los sistemas de traducción actuales permiten establecer parámetros de acuerdo con el dominio o la profesión en la que se hace la traducción, lo que efectivamente mejora el resultado. Esta técnica es particularmente útil en campos donde se emplea un lenguaje formal o basado en formularios, como los reportes del tiempo y los documentos legales o administrativos, pero su uso no es viable en la traducción de conversaciones u otros textos menos estandarizados.
En las últimas décadas ha habido un fuerte impulso en el uso de técnicas estadísticas para el desarrollo de sistemas de traducción automática. Para la aplicación de estas técnicas a un par de lenguas dado, se requiere la diponibilidad de un corpus paralelo para dicho par. Mediante este corpus se estiman parámetros de sendos modelos estadísticos que establecen la probabilidad con la que ciertas palabras son susceptibles de traducirse por otras, así como las posiciones más probables que tienden a ocupar las palabras de la lengua destino en función de las palabras correspondientes de la frase origen. El atractivo de estas técnicas radica en que el desarrollo de un sistema para un par de lenguas dado puede hacerse de manera muy automática, con una muy reducida necesidad de trabajo experto por parte de especialistas en lingüística.
La intervención humana puede mejorar la calidad de la salida: por ejemplo, algunos sistemas pueden traducir con mayor exactitud si el usuario ha identificado previamente las palabras que corresponden a nombres propios. Con la ayuda de estas técnicas, la traducción por computadora ha mostrado ser un auxiliar útil para los traductores humanos. Sin embargo, y aún cuando en algunos casos pueden producir resultados utilizables «tal cual», los sistemas actuales son incapaces de producir resultados de la misma calidad que un traductor humano, particularmente cuando el texto a traducir usa lenguaje coloquial o familiar.
En esta dirección, recientemente están cobrando especial interés las técnicas estadísticas de traducción asistida basadas en una aproximación interactiva-predictiva, en la que el computador y el traductor humano trabajan en estrecha colaboración mutua. Tomando como base el texto fuente a traducir, el sistema ofrece sugerencias sobre posibles traducciones a la lengua destino. Si alguna de estas sugerencias es aceptable, el usuario la selecciona y, en caso contrario, corrige lo necesario hasta obtener un fragmento correcto. A partir de este fragmento, el sistema produce mejores predicciones. El proceso continúa de esta manera hasta obtener una traducción completamente aceptable por el usuario. Según las evaluaciones realizadas con usuarios reales en el proyecto TransType-2, este proceso permite reducir considerablemte el tiempo y esfuerzo necesarios para obtener traducciones de calidad.
En la actualidad se obtienen altos niveles de calidad para la traducción entre lenguas romances (español, portugués, catalán o gallego, etc.). Sin embargo, los resultados empeoran ostensiblemente cuanto más tipológicamente alejadas sean las lenguas entre sí, como es el caso de la traducción entre español e inglés o alemán.
Otro factor muy influyente en la calidad es el grado de especialización de los sistemas de traducción, que mejoran en la medida en que se adecúan al tipo de texto y vocabulario que se vaya a traducir. Un sistema que se especialice en la traducción de partes meteorológicos conseguirá altas cotas de calidad incluso para traducir textos entre lenguas tipológicamente muy dispares, pero será inservible para abordar, por ejemplo, crónicas deportivas o financieras.
Hay métodos estadísticos que realizan traducciones sin reparar en cuestiones gramaticales. En la actualidad la tendencia es a integrar todo tipo de metodologías: lingüísticas, estadísticas, u otras, a la base de datos de un corpus.
Existen diversos tipos de traducción automática. Si disponen de suficiente información, las traducciones automáticas pueden funcionar bastante bien, permitiendo que personas con una lengua materna determinada sean capaces de hacerse una idea de lo que ha escrito otra persona en su idioma. El problema principal reside en obtener la información adecuada para cada uno de los métodos de traducción.
Según su aproximación, los sistemas de traducción automática se pueden clasificar entre dos grandes grupos: los que se basan en reglas lingüísticas por una parte, y los que utilizan corpus textuales por otra.
a. Traducción automática basada en reglas: La traducción automática mediante reglas consiste en realizar transformaciones a partir del original, reemplazando las palabras por su equivalente más apropiado.
En general, en una primera fase se analizará un texto, normalmente creando una representación simbólica interna. Dependiendo de la abstracción de esta representación, también podemos encontrar diferentes grados: desde los directos, que básicamente hacen traducciones palabra por palabra, hasta interlingua, que utiliza una representación intermedia completa.
- Traducción automática mediante transferencia: en ella, el análisis del original juega un papel más importante, y da paso a una representación interna que es la que se utiliza como enlace para traducir entre idiomas distintos.
- Traducción automática mediante lengua intermedia: Este, es un caso particular de la traducción automática basada en reglas. El lenguaje original, por ejemplo un texto que debe ser traducido, es transformado a un lenguaje intermedio, cuya estructura es independiente a la del lenguaje original y a la del lenguaje final. El texto en el lenguaje final se obtiene a partir de la representación del texto en el lenguaje intermedio. En general a esta lengua intermedia se la llama "interlingua".
b. Traducción automática basada en corpus: La traducción automática a partir de un corpus lingüístico se basa en el análisis de muestras reales con sus respectivas traducciones. Entre los mecanismos que utilizan corpus se incluyen los métodos estadísticos y los basados en ejemplos.
- Traducción automática estadística: Su objetivo es generar traducciones a partir de métodos estadísticos basados en corpus de textos bilingües, como por ejemplo las actas del parlamento europeo, que se encuentran traducidas en todos los idiomas oficiales de la UE. Si la existencia de estos corpus fuese mayor, se podrían conseguir resultados excelentes al traducir textos de ámbitos similares.
El primer programa de traducción automática estadística fue Candide, desarrollado por IBM. Hoy en día Google usa SYSTRAN, pero está trabajando en un método de traducción estadística para sus futuras traducciones automáticas. Recientemente han mejorado sus capacidades traductoras al añadir 200 billones de palabras de las Naciones Unidas que permitirán entrenar el sistema.
Aunque la exactitud de las traducciones, tanto las estadísticas como las que no, se ha incrementado con los años, la gran cantidad de posibilidades que tiene una palabra de ser traducida de un idioma a otro relega la traducción automática a un método que tan solo permite transmitir la idea esencial.
- Traducción automática basada en ejemplos: Se caracteriza por el uso de un corpus bilingüe como principal fuente de conocimiento en tiempo real. Es esencialmente una traducción por analogía y puede ser interpretada como una implementación del razonamiento por casos base empleado en el aprendizaje automático, que consiste en la resolución de un problema basándose en la solución de problemas similares.
- Traducción automática basada en el contexto: Este método utiliza técnicas basadas en hallar la mejor traducción para una palabra fijándose en el resto de palabras que la rodean, básicamente este método se basa en tratar el texto en unidades de entre 4 y 8 palabras, de manera que se traduce cada una de ellas por su traducción al idioma destino y se eliminan las traducciones que han generado una "frase" sin sentido. Luego se mueve la ventana una posición (palabra), retraduciendo la mayoría de ellas de nuevo y volviendo a filtrar dejando solo las frases coherentes. Se repite dicho paso para todo el texto. Y luego se pasa a concatenar los resultados de dichas ventanas de manera que se logre una única traducción del texto. El filtrado que se realiza donde se decide si es una frase con sentido utiliza un corpus del lenguaje destino, donde se cuentan el número de apariciones de la frase buscada. Es por tanto un método basado en ideas bastante simple que ofrece unos muy buenos resultados en comparación a otros métodos. Como ventajas aporta también la facilidad de añadir nuevas lenguas. Ya que es solo necesario: un buen diccionario, que puede ser cualquier versión comercial adaptada mediante reglas gramaticales para tener los verbos conjugados y los nombres/adjetivos con sus variaciones en número y género. Y un Corpus en el lenguaje destino, que se puede sacar por ejemplo de Internet. Sin que sea necesario traducir ninguna parte, como en los métodos estadísticos.

2. Gestión documental es el conjunto de normas técnicas y prácticas usadas para administrar el flujo de documentos de todo tipo en una organización, permitir la recuperación de información desde ellos, determinar el tiempo que los documentos deben guardarse, eliminar los que ya no sirven y asegurar la conservación indefinida de los documentos más valiosos, aplicando principios de racionalización y economía.

Es una actividad casi tan antigua como la escritura, que nació debido a la necesidad de "documentar" o fijar actos administrativos y transacciones legales y comerciales por escrito para dar fe de los hechos. Este tipo de documentos se plasmaron sucesivamente en tablillas de arcilla, hojas de papiro, pergaminos y papel, cuya gestión se fue haciendo cada vez más compleja a medida que crecía el tamaño de los fondos documentales.
Durante siglos, la gestión documental en las organizaciones fue el dominio exclusivo de administradores, archiveros y bibliotecarios, cuyas herramientas manuales básicas eran los libros de registro, las carpetas, archivadores, cajas y estanterías en que se guardan los documentos de papel (y más tarde los audiovisuales y los documentos en soportes magnéticos u ópticos), los ficheros que permiten hacer referencias cruzadas y una larga lista de técnicas de recuperación de información mediante sistemas de codificación y clasificación. Hoy, se sumaron a ellos los informáticos, que son cada vez más necesarios debido a la complejidad y nivel de sofisticación que van alcanzando los sistemas computacionales de apoyo de la actividad administrativa.
Cuando el uso de las tecnologías de información y comunicación se hizo común en la administración pública y privada, con el inicio de las bases de datos y la aparición de los procesadores de textos y otras aplicaciones ofimáticas, y sobre todo con la llegada del correo electrónico, surgió la necesidad de capturar y conservar también documentos que nacen, viven y mueren en formato electrónico. Conseguir esto representó un nuevo salto en la complejidad y exigencias a los sistemas informatizados.En la actualidad, existen sofisticados sistemas informáticos que manejan no sólo la documentación , venga ella en papel o en formato electrónico que enlazan el contenido de archivos, bibliotecas, centros de documentación y permiten realizar búsquedas sofisticadas y recuperar información de cualquier lugar.
Un sistema de gestión de documentos electrónicos es, pues, un sistema computarizado, un conjunto de programas, utilizado para rastrear y almacenar documentos electrónicos y/o imágenes digitales de documentos originalmente soportados en papel. La gestión documental facilita que la información se comparta y se aproveche de forma más eficiente y como un recurso colectivo. Como consecuencia, se reducen drásticamente situaciones como la duplicidad de documentos archivados, fotocopias innecesarias, dobles grabaciones de datos, etc. Una gestión documental, además de ahorro de costes, genera una productividad y valor añadido adicionales, originados por el rápido acceso a la información dentro de la organización y su posterior distribución, sin necesidad de trasladar los documentos.
Ambas técnicas,  trabajan secuencialmente generando un producto que se incrementara exponencialmente mediante el sistema del hipervinculo, creando así una fuente de datos que se emplee para generar un producto científico-tecnológico más completo y de mejor calidad, generador de nuevas hipótesis de trabajo para investigadores, científicos y usuarios en general.

No hay comentarios:

Publicar un comentario