Curva Fin Bloque
x
Subscribe here!:

Preguntas frecuentes

Preguntas comunes (e inquietudes) o todo lo que quería saber sobre la TA, pero no se atrevía a preguntar

Las implementaciones, los programas de entrenamiento gratuitos y varios motores personalizados de campos especializados, desarrollados para nuestro propio uso o para nuestros clientes, nos han hecho darnos cuenta de que hay varias preguntas clave, inquietudes e ideas equivocadas cuando las empresas, otros proveedores de servicios lingüísticos e incluso los traductores abordan el uso de la TA. La traducción automática es un tema candente. Atrás quedaron los tiempos en que las empresas de traducción podían proclamar que “las máquinas nunca alcanzarán la calidad humana”. Las presiones de los mercados y, sobre todo, la necesidad de acelerar los plazos de comercialización de los textos han hecho que la automatización de la traducción pase a primer plano. Varios desarrollos han llegado a la prensa, y el advenimiento de motores de dominio de texto plano gratuitos y generales en la web como Google Translate, han puesto la traducción y la transferencia rápida de idiomas en un lugar prioritario de la agenda de los negocios internacionales. El llamamiento del presidente Obama a favor del avance y la mejora de la traducción automática para ayudar al mundo a comunicarse y comprenderse mejor en octubre de 2009 solo hizo que el tema cobrara más impulso (informes del New York Times y The Economist, marzo de 2010).

Sí, algunas tecnologías de traducción existen desde hace más de 50 años, pero ¿cuán mejores son las tecnologías más nuevas? ¿Cómo se puede implementar con éxito la TA e integrarla en un entorno de producción real? ¿Cuál es el aumento de productividad esperado y el consiguiente ahorro de costes? ¿Cómo reaccionarán los traductores y el personal a los resultados de la traducción automática? ¿Cómo puede gestionarlo usted? Como sucede con cualquier innovación, hay inquietudes e incertidumbres… hasta que unas pocas historias de éxito guían el camino. Al responder a las 17 preguntas clave (o a cualquier otra que pueda tener) esperamos proporcionar suficiente información desde la experiencia y algunos enfoques prácticos sobre cómo convertir este nuevo desafío en una estrategia innovadora y competitiva.

Pangeanic
Curva Fin Bloque Negativa
  • Si se ha preguntado o ha hecho a alguien alguna de las siguientes preguntas, esta será una sección clave para usted.
    • P1: ¿Cuántas palabras necesito para construir un buen motor?
    • P2: ¿Por qué TA estadística y no TA basada en reglas? ¿Cuáles son las ventajas y desventajas?
    • P3: ¿Sustituirá la TA a los traductores humanos?
    • P4: ¿Cuánto cuesta la posedición?
    • P5: ¿Los ahorros en la traducción son inmediatos?
    • P6: ¿Qué quiere decir con reentrenamiento? ¿Es necesario actualizar los motores todo el tiempo, al igual que las memorias de traducción? ¿Cuánto cuesta?
    • P7: ¿Cuál es el retorno de la inversión en un motor de TA?
    • P8: ¿Qué pasa con la “resistencia de los traductores” a convertirse en poseditores?
    • P9: Si utilizo TA, ¿significa eso que ya no puedo usar mis sistemas basados en memorias de traducción? ¿Pueden integrar la TA con mi software basado en MT?
    • P10: ¿Se puede construir cualquier combinación (por ejemplo, chino o japonés al español o ruso)? ¿Cuáles son los desafíos?
    • P11: ¿Qué pasa con la coherencia? ¿Cómo se aseguran de que la terminología de mi empresa prevalece estadísticamente frente a otras opciones?
    • P12: ¿Existen buenas herramientas (mejor si son gratuitas) de posedición que pueda recomendar?
    • P13: ¿Qué quiere decir que su sistema se basa en estándares abiertos? ¿Cuál es la diferencia con otros modelos?
    • P14: Yo trato con textos que están llenos de etiquetas. La mayoría de los sistemas de TA estadística solo ofrecen texto plano y se necesita mucho tiempo para copiar y pegar las etiquetas. ¿Han hecho algo para resolver este problema?
    • P15: ¿En qué se diferencian del traductor de Google?
    • P16: ¿Qué hay de la limpieza de datos? ¿Cuál es su enfoque?
    • P17: ¿Su traducción automática al checo es de buena calidad?

P1: ¿Cuántas palabras necesito para construir un buen motor?

La mayoría le dirán que el mínimo absoluto con el que se puede crear un motor “sin florituras” son dos millones de palabras y cierto nivel de automatización dentro de un campo. Pero con esto no espere grandes resultados, especialmente si maneja textos que puedan incluir vocablos nuevos o inesperados, como sucede en la economía o el periodismo. Si maneja textos caracterizados por un lenguaje altamente controlado y de temática que presenta ligeras variaciones (manuales técnicos, paquetes fijos de documentación, etc.), intente introducir la mayor cantidad de texto posible.

Los desarrollos de PangeaMT típicos para ámbitos especializados (software, electrónica, automoción, ingeniería, turismo) se suelen iniciar con 5 millones de palabras. Hay varias maneras de aumentar el número de palabras mediante la captura de textos paralelos fiables. PangeaMT le ofrece asesoramiento y orientación para que pueda alimentar un motor con tantas palabras como sea posible. Denominamos “maduro” a un motor cuando cuenta con 15 o 20 millones de palabras dentro de un ámbito, puesto que es muy probable que ya contenga toda la terminología necesaria para ese campo. No se desespere si no tiene tantos datos. Lo importante es comenzar a entrenar el motor. Puede añadir texto poseditado y otros materiales que pueda ir obteniendo con la experiencia en reentrenamientos posteriores.

Se ha argumentado mucho acerca de la “efectividad irracional de enormes cantidades de datos” frente a “cantidades más pequeñas de datos bien seleccionados”. La mayoría de la gente que se plantea un desarrollo de la TA por primera vez no está segura de si les conviene más poner la mayor cantidad de texto posible (enormes cantidades de datos) o seleccionar los textos bilingües más exactos incluso aunque eso suponga tratar con conjuntos de datos más pequeños. Nuestra experiencia apunta a diferentes direcciones

a) si tiene por objeto construir un motor de tipo más general, capaz de traducir lo inesperado (desde artículos periodísticos a textos económicos y literatura), recabe tantos datos como le sea posible. Por decirlo de alguna forma, está tratando de construir un sistema válido tanto para los días de sol como para los de lluvia. Nunca habrá un número suficiente de palabras. Tarde o temprano necesitará incorporar algún tipo de ayuda sintáctica.

b) si está tratando de construir un motor que se ajuste a un campo lingüístico y a unas necesidades particulares (o incluso si desea un motor que comprenda sus productos y servicios, así como cierta información financiera y legal), no necesita trillones de datos. En tal caso, recopilar tantos datos como pueda de su organización (o afines) resulta más razonable y merece la pena.

De una manera u otra, no infravalore el esfuerzo y trabajo en equipo necesarios durante las etapas de recopilación de datos, ya que son esenciales para el buen entrenamiento (y, por tanto, para los resultados) del motor. Será el principio del cambio en su adopción de tecnologías de TA y una buena oportunidad para involucrar a diferentes personas en el proceso.

P2: ¿Por qué TA estadística y no TA basada en reglas? ¿Cuáles son las ventajas y desventajas?

Cualquier persona con experiencia en TA (o que, al menos, haya sido lector o poseditor de TA) le dirá que la traducción automática estadística (TA estadística) fluye mucho mejor que la traducción de sistemas tradicionales basados en reglas (BR). Cualquiera que haya estudiado o implementado la TA estadística le dirá que los tiempos de desarrollo e implementación son mucho más cortos (por lo tanto, hay retorno de la inversión). Un sistema BR se vende normalmente como un paquete más barato una vez que la empresa ha llevado a cabo toda la programación de reglas e integrado la sintaxis. El paquete se cierra y la personalización (o hibridación) es un proceso más largo. La TA estadística puede mejorar con reordenamiento y codificación de pares y mediante la aplicación de infinidad de otras fórmulas matemáticas y estadísticas que determinarán con certeza que una palabra (o frases o combinaciones de palabras) ocurren juntas en comparación con otras palabras. Lea más abajo si necesita un listado más amplio.

  • La TA estadística solo necesita aprender de un corpus paralelo para generar un motor de traducción. En cambio, la TABR necesita una gran cantidad de conocimiento externo al corpus que solamente expertos lingüistas pueden generar, p. ej. la categorización superficial, sintaxis y semántica de todas las palabras de un idioma además de las reglas de transferencia entre lenguas. Estas últimas reglas son totalmente dependientes del par de idiomas en cuestión y, por lo general, no se estudian tanto como la caracterización de cada idioma por separado. Definir las reglas de transferencia tampoco es fácil, por lo que se necesita definir múltiples reglas en función de los casos individuales que se necesiten definir, en especial entre idiomas con estructuras muy diferentes, o cuando el idioma de partida posee una mayor flexibilidad para el manejo de los objetos estructurales en una oración.
  • Un sistema de TA estadística se desarrolla rápidamente si se tiene el corpus apropiado, que también se rentabiliza así. En cambio, un sistema de TABR requiere grandes costes de desarrollo y personalización hasta que alcanza el umbral de calidad deseado. Los sistemas de TABR empaquetados se desarrollan antes de que el usuario los compre:  la mayoría de los usuarios se acercan a la TA comprando programas listos al salir de la caja y para el servidor. El programa funciona y funcionará de alguna manera, si bien es extremadamente difícil reprogramar modelos y equivalencias. Sobre todo, la utilización de TABR por lo general comporta un proceso mucho más largo que incluye más recursos humanos. Este aspecto es primordial a la hora de calcular el coste total de implementación por parte de las compañías.
  • La TA estadística se adapta para poder reentrenarla automáticamente y responder a situaciones no vistas con anterioridad (por citar algunas: palabras desconocidas, nuevas expresiones que se traducen de manera diferente a como se hubieran traducido antes, etc.). La TABR se “reentrena” añadiendo reglas y vocabulario nuevos, entre otras cosas, lo cual implica más tiempo/mayor implicación de “humanos expertos”.
  • La TA estadística genera traducciones con mayor fluidez, si bien los sistemas puramente estadísticos pueden ofrecer menos consistencia y resultados menos predecibles si el corpus de entrenamiento es demasiado amplio para este fin. La TABR, sin embargo, puede no haber encontrado la información superficial o sintáctica, o las palabras apropiadas para analizar el idioma de partida, o no conoce la palabra. Esto le impedirá encontrar una regla apropiada.
  • Mientras que la traducción automática estadística funciona bien para traducciones en un campo especializado, con el motor entrenado con un corpus bilingüe perteneciente al campo, la TABR puede funcionar mejor para campos más generales.
  • La TA estadística requiere, sin lugar a duda, potentes herramientas informáticas en términos de hardware para entrenar los modelos. Son necesarios billones de cálculos durante el entrenamiento del motor. El hardware y el conocimiento computacional que se requieren para ello es altamente especializado. No obstante, hoy en día se puede reducir el tiempo de entrenamiento gracias a una mayor disponibilidad de ordenadores más potentes. La TABR requiere un tiempo de implementación y compilación más largo por parte de los expertos, por lo que, en principio, los costes de construcción también son mayores.
  • La TA estadística genera patrones estadísticos automáticamente, incluyendo un buen aprendizaje de excepciones a reglas. Por lo que respecta a las reglas que gobiernan la transferencia de los sistemas de TABR, la verdad es que estas se pueden ver como casos especiales de estándares estadísticos. En cualquier caso, generalizan demasiado y no pueden manejar excepciones.
  • Finalmente, los sistemas de TA estadística pueden actualizarse con información sintáctica, e incluso semántica, como la TABR. Pero en ese caso los patrones estadísticos que un sistema de TA estadística aprendería pueden verse como un tipo más general de reglas de transferencia, si bien en la actualidad la inclusión de tal información en los sistemas actuales no proporciona mejoras significativas.
  • Un motor de TA estadística puede generar traducciones mejoradas si se reentrena o adapta de nuevo. En cambio, uno de TABR genera traducciones muy similares entre las diferentes versiones.

P3: ¿Sustituirá la TA a los traductores humanos?

Por supuesto que no. Las herramientas de traducción asistida por ordenador (TAO) no erradicaron la necesidad de traductores humanos, de hecho, crearon e hicieron crecer el mercado, puesto que la traducción se hizo más asequible. La mayoría de nosotros, con varios años de experiencia en la industria, todavía recordamos la resistencia inicial de algunos lingüistas experimentados a la hora de adoptar las herramientas iniciales basadas en memorias de traducción (MT). Muchos las consideraron una treta, un truco para pagar menos a los traductores, cuando la verdad era que a los traductores se les pagaba mucho incluso por las repeticiones, ya que no había manera de contarlas… si no era de forma manual. Aquellos felices años 90…

La era digital ha transformado el papel del traductor y, desde hace mucho tiempo, los traductores han tenido que lidiar con problemas de formato en las herramientas de TAO para los que no estaban formados. XLIFF y los estándares Dita son una manera de ayudar al traductor a hacer lo que hace mejor (transferencia lingüística) en lugar de tener que pelear con las etiquetas y los colores dentro de las herramientas de traducción asistida por ordenador. En este sentido, la TA es una herramienta de productividad masiva.

La traducción automática va a ser una de las mejores ayudas que un traductor pueda tener. Mejora la velocidad a la que un traductor trabaja (al no tener que “pensar” las traducciones y las conexiones de palabras que se han traducido antes miles de veces). Incluso aunque solo constituyera un ahorro de tiempo al escribir, ya sería una mejora. Si se trata de un campo determinado (ingeniería mecánica), ayudará a que el traductor se familiarice con la terminología y se concentre en las tareas de valor añadido que solo los humanos pueden hacer.

Curiosamente, la verdad es que las máquinas ya traducen más palabras por día que los humanos. Es decir, abunda la gente que hace clic en el botón “Traducir” de una web o en un programa de escritorio o servidor de traducción como BabelFish o Google Translate para obtener una traducción general, tipo gisting, o para entender el sentido general de un texto. Por otro lado, hay unos 300 000 traductores registrados en el mundo, con una producción media de alrededor de 2200-2800 palabras al día.

Por supuesto que no. Las herramientas de traducción asistida por ordenador (TAO) no erradicaron la necesidad de traductores humanos, de hecho, crearon e hicieron crecer el mercado, puesto que la traducción se hizo más asequible. La mayoría de nosotros, con varios años de experiencia en la industria, todavía recordamos la resistencia inicial de algunos lingüistas experimentados a la hora de adoptar las herramientas iniciales basadas en memorias de traducción (MT). Muchos las consideraron una treta, un truco para pagar menos a los traductores, cuando la verdad era que a los traductores se les pagaba mucho incluso por las repeticiones, ya que no había manera de contarlas… si no era de forma manual. Aquellos felices años 90…
La era digital ha transformado el papel del traductor y, desde hace mucho tiempo, los traductores han tenido que lidiar con problemas de formato en las herramientas de TAO para los que no estaban formados. XLIFF y los estándares Dita son una manera de ayudar al traductor a hacer lo que hace mejor (transferencia lingüística) en lugar de tener que pelear con las etiquetas y los colores dentro de las herramientas de traducción asistida por ordenador. En este sentido, la TA es una herramienta de productividad masiva.

La traducción automática va a ser una de las mejores ayudas que un traductor pueda tener. Mejora la velocidad a la que un traductor trabaja (al no tener que “pensar” las traducciones y las conexiones de palabras que se han traducido antes miles de veces). Incluso aunque solo constituyera un ahorro de tiempo al escribir, ya sería una mejora. Si se trata de un campo determinado (ingeniería mecánica), ayudará a que el traductor se familiarice con la terminología y se concentre en las tareas de valor añadido que solo los humanos pueden hacer.

Curiosamente, la verdad es que las máquinas ya traducen más palabras por día que los humanos. Es decir, abunda la gente que hace clic en el botón “Traducir” de una web o en un programa de escritorio o servidor de traducción como BabelFish o Google Translate para obtener una traducción general, tipo gisting, o para entender el sentido general de un texto. Por otro lado, hay unos 300 000 traductores registrados en el mundo, con una producción media de alrededor de 2200-2800 palabras al día.

P4: ¿Cuánto cuesta la posedición?

Las tendencias del mercado apuntan a una tasa del 60 % de la tarifa de traducción completa para poseditar un buen texto de salida (output) traducido automáticamente… sirva esto más a título orientativo que como una regla fija. Existen muchos aspectos que considerar alrededor de esa cifra. No podemos decir cuál es la mejor tarifa de posedición en todas las circunstancias y para cualquier campo especializado. Sin embargo, los proveedores de servicios lingüísticos y los redactores de contenido están tomando esa cifra como referencia y trabajando en pro de cifras de mejora de la producción. Sabemos además que la posedición también se está pagando por Kb, por segmento o por tiempo empleado.

P5: ¿Los ahorros en la traducción son inmediatos?

Nuestros motores pasan varias pruebas (incluyendo ensayos de posedición) antes de la entrega para asegurar que su inversión se rentabilice en dinero y tiempo desde el primer día. La implementación no comporta dificultades y puede ser virtual. Puede instalarse en un servidor de su organización, funcionar en una intranet o adaptarse a sus necesidades específicas.

Sí, los costes de la traducción (así como los de tiempo de salida al mercado, que son todavía más importantes) se reducirán considerablemente. Se percatará de ello desde la primera semana. Sin embargo, tenga presente que los motores mejorarán con el tiempo y que son muy recomendables algunos ejercicios de reentrenamiento (por lo menos uno al año). De hecho, el material poseditado es un candidato muy bueno para el reentrenamiento del motor ya que refleja sus necesidades del día a día.

P6: ¿Qué quiere decir con reentrenamiento? ¿Es necesario actualizar los motores todo el tiempo, al igual que las memorias de traducción? ¿Cuánto cuesta?

Su motor se construirá a partir del material que tendrá que proporcionar a PangeaMT para el entrenamiento. De lo contrario, podemos utilizar el material genérico que tenemos en la mayoría de las combinaciones de idiomas. En septiembre de 2019, teníamos 4500 millones de frases alineadas en más de 80 idiomas, es decir, 3000 millones de frases para el aprendizaje automático más que en 2018, según se informa en Slator.

PangeaMT utilizará este material para refinar un modelo lingüístico para su caso particular (es decir, un motor que habla como un farmacéutico bilingüe EN/FR o un motor que habla como un ingeniero alemán bilingüe, etc.). Dependiendo del campo particular y el tamaño de sus datos bilingües, puede que se precise más contenido o que haya que generarlo. Así, el primer motor, por bueno que sea ya, se hallará en lo que llamamos “Etapa 1” (en realidad, lo denominamos un motor adolescente). Una vez que usted nos proporcione más información (normalmente un archivo TMX con traducciones previas o contenido poseditado), volvemos a entrenar al motor con más material tal y como se pretende traducir. Esto significa que el motor aprende y da mayor preferencia a ciertas expresiones, combinaciones de palabras, etc.

PangeaMT ha alcanzado 1200 millones de frases alineadas para el aprendizaje automático en 2018 y 4500 millones en 2019. El hecho de reunir grandes recursos para el aprendizaje automático le ayuda a crear motores de traducción automática de calidad casi humana con pocas entradas de texto del cliente.

El material del campo especializado se agrega generalmente al principio y al final del ciclo de entrenamiento del motor neuronal. Esto asegura que el algoritmo escoja los matices y características del ámbito, el idioma y el campo que va a traducir. Esto es cierto en especial cuando el material se añade en el momento del ciclo de entrenamiento (la última época), lo cual es altamente prioritario y, por lo tanto, sirve como “filtro de campo y estilo”.

P7: ¿Cuál es el retorno de la inversión en un motor de TA?

Por regla general, los motores se amortizan antes del final del primer año de funcionamiento. La misión de PangeaMT es democratizar el mundo de la traducción automática y hacer la tecnología accesible y utilizable por el mayor número posible de usuarios. Hoy en día, el coste de un motor ha pasado a ser extremadamente asequible. Así, los primeros en adoptar esta tecnología se están beneficiando más a medida que sus sistemas pueden alcanzar niveles de madurez más rápido. Esto, a su vez, significa un ahorro y la posibilidad de automatizar procesos en más idiomas y campos especializados del conocimiento.

El siguiente gráfico muestra los gastos de traducir 750 000 palabras nuevas con una herramienta de TAO con una tarifa por palabra de origen de 11 céntimos. Se calculan dos actualizaciones de software bianuales.

TA estadística = coste del entrenamiento a medida (año 1), 2 actualizaciones anuales y 750 000 palabras nuevas a un 60 % de la tarifa de traducción. “Plan de protección” a partir del año 2.*

* Incluye código intralineal (in-line parser)

Costes de traducción con TAO de 750 000 palabras nuevas al año.TA estadística + entrenamiento + actualización + PE de 750 000 palabras
Año 182 50043 912,5
Año 2 (actualización de software)85 50022 207,5
Año 382 50021 352,5
Año 4 (actualización de software)85 50021 352,5
Año 585 50021 352,5

P8: ¿Qué pasa con la “resistencia de los traductores” a convertirse en poseditores?

¿Recuerda la resistencia de los traductores a usar herramientas de traducción asistida a finales de los 90? Yo sí, ya que en aquel entonces traducía como freelance en el Reino Unido. Pues entonces se podrá hacer una idea sobre la cierta reticencia a la posedición en 2010 y en adelante.
Toda “nueva” tecnología (o técnica) encuentra siempre resistencia. No hay nada que nos guste más que la seguridad, la certeza de las cosas. En el mundo de la traducción, esto es equiparable al ciclo de aprendizaje relativamente largo (?) de las herramientas de TAO. No nos referimos a las omnipresentes herramientas que se comercializan tan bien, sino también a las herramientas menos conocidas que pueden hacer el trabajo bastante bien. Algunos han hecho un esfuerzo consciente para ofrecer plugins para TA (Swordfish, de maxprograms.com) y, al igual que PangeaMT, están diseñados en estándares abiertos con una mentalidad de “no lock-in” (no atrapar al usuario de por vida con costosas actualizaciones). Ahora usted está pidiendo a sus traductores que “corrijan” contenido traducido automáticamente y por una tarifa más baja. Vuelta a los 90…

De hecho puede haber algo de resistencia por parte de los traductores con amplia experiencia. Los recién graduados sigue recibiendo teoría de la traducción relacionada con las herramientas asistidas por ordenador.

Sin embargo, ahora que los usuarios finales pueden, en ciertos contextos, jugar con los sistemas de TA ya construidos (aunque no sean totalmente personalizados en cuanto a su campo especializado) la fase de posedición puede convertirse en un criterio de selección. Antes de una implementación total, las corporaciones, organizaciones, industrias y proveedores de servicios lingüísticos normalmente llevan a cabo numerosos proyectos piloto de evaluación para acostumbrarse a las tareas de posedición, identifican los cambios periódicos de soluciones automáticas y las expectativas sobre la base de calidad y precios en datos objetivos. De este modo, los futuros poseditores, ya sean traductores en la actualidad o personal recién reclutado, tienen que participar en algún momento antes de la adopción total.

La posedición sigue siendo una profesión naciente y requiere la experimentación con sistemas de TA para ganar una serie de competencias en relación con cada idioma. Por ejemplo, si está ejecutando un motor que carece de vocabulario general del “mundo” o de palabras muy habituales, puede ser molesto para el poseditor. En los sistemas a gran escala puede ser molesto, por lo que utilizamos módulos de diccionarios estadísticos para agregar palabras que no estaban en su corpus de entrenamiento. No obstante, los poseditores en los entornos de la localización o la documentación pueden pensar que es mejor dejar sin traducir los términos desconocidos en el idioma de partida para realizar operaciones de “buscar y reemplazar” y poseditar rápidamente. Por lo tanto, cuente con la misma resistencia a la que se enfrenta cualquier nueva tecnología, pero explique los beneficios de esta. La traducción humana no puede resolver los problemas en términos de velocidad y coste en la era de los contenidos digitales. Sencillamente, no hay suficientes traductores cualificados e incluso si los hubiera, la logística y los costes de traducción de 50 000 palabras en un día o dos supondrían una locura para los gestores de proyectos. Estas presiones también pueden explicar el gran “giro” humano en la industria del lenguaje. La verdad es que con la llegada de los servicios de traducción en línea, los servicios de escritorio y los motores de TA de servidores, las máquinas ya traducen más palabras que los seres humanos…

P9: Si utilizo TA, ¿significa eso que ya no puedo usar mis sistemas basados en memorias de traducción? ¿Pueden integrar la TA con mi software basado en MT?

Hay varias maneras en las que se puede usar un desarrollo de TA estadística dentro de su organización. Uno de nuestros últimos desarrollos se presentó en Localization World Barcelona 2012. Esta nueva versión de PangeaMT incluye autoentrenamiento (por lo que no tiene que volver a nosotros para las actualizaciones), creación automatizada de motores, glosario y muchas otras características. Haga clic aquí para leer el comunicado de prensa. PangeaMT le ofrece:
– Un completo servicio de TA + PE, sobre todo para los usuarios corporativos que buscan una solución de conjunto. Desarrollamos el sistema de TA con sus datos y nos encargamos del desarrollo y el entrenamiento del cambio, además de la posedición de los resultados. El motor se puede alojar en cualquier sitio y produce texto sin formato. Desde 2009, ofrecemos un flujo de trabajo de TMX sin problemas, compatibilidad con XLIFF desde 2010 e integración de TTX desde 2011 con reconocimiento de % de coincidencia para que pueda aprovechar el texto de sus MT existentes utilizando su herramienta de TAO y luego pedirle al motor que haga el trabajo duro.

– Servicios tipo SaaS: desarrollamos un motor temático en el campo especializado e idioma que precise a partir de sus datos y lo utiliza como servicio de “pago por uso”, comprando resultados de TA que después puede poseditar a voluntad internamente en formato TMX, XLIFF o TTX. El motor está alojado internamente en PangeaMT.

Sin embargo, la implementación más popular es la adaptación de un motor que se encuentra alojado internamente en el servidor del cliente. De igual modo, desarrollamos y entrenamos un motor que se ajusta a su campo y expresiones, y utilizamos sus datos de MT y otros datos relacionados para su construcción. Este motor está instalado en su servidor, junto con un conjunto de módulos periféricos (analizador de etiquetas, interfaz web de intranet, secuencias de comandos de transferencia de datos, modelo lingüístico, etc.). De esta manera, podrá utilizar su solución de PangeaMT para traducir con la frecuencia que precise dentro de su organización. Solo existe una limitación en el número de servidores en los que se instala el motor. Hay un periodo de ajuste y adecuación del motor a su sistema y, por supuesto, se recomienda encarecidamente el reentrenamiento de este una vez haya recopilado una cierta cantidad de material poseditado.

Su software de MT existente (o cualquier otro que pudiera adquirir) puede convertirse en su entorno de posedición. Así sus lingüistas y proveedores lingüísticos habituales no tendrán necesidad de pasar por una larga curva de aprendizaje aprendiendo otra herramienta nueva. Como PangeaMT puede trabajar con un flujo de trabajo de TMX, solo tendrá que exportar esos segmentos que necesita para traducir (por lo general los que están por debajo del 70 % o 75 % de coincidencia), obtener el TMX traducido, y actualizar su proyecto penalizando al “traductor de TA”. Así, su software de memorias de traducción (MT) se detendrá cada vez que encuentre un segmento que haya sido traducido por la máquina. Alternativamente, basta con aprovechar las traducciones existentes de su MT en una herramienta de TAO utilizando XLIFF estándar abierto o TTX propietario y enviar el lote de archivos a su motor de PangeaMT para su traducción.

No podría ser más sencillo. Por lo tanto, el sistema puede interactuar fácilmente con su entorno de MT existente. La ventaja es que no es necesario actualizar el software de TAO nunca más: su sistema se dirige ya mediante la TA y mejorará con los datos que se vayan generando. Además, el sistema ofrece las ventajas de aprovechar un alto porcentaje de coincidencias de su memoria de traducción (que no tendría ningún sentido enviar a traducir mediante TA puesto que un ser humano puede detectar rápidamente la diferencia) con la potencia de un motor estadístico de dominio específico.

Una alternativa (dependiendo del software de TA que utilice) es la construcción de una API para interactuar con su software de traducción segmento tras segmento si la coincidencia de la MT no alcanza un determinado umbral.

Su ahorro en la traducción es inmediato. Con este flujo, puede entregar más contenido, más texto y llegar a más clientes.

P10: ¿Se puede construir cualquier combinación (por ejemplo, chino o japonés al español o ruso)? ¿Cuáles son los desafíos?

Esta es la mayor ventaja de los sistemas estadísticos. Todo lo que necesita son datos, ningún conocimiento lingüístico de cómo la lengua A se relaciona con la lengua B. Si decidiera crear “reglas” entre el japonés y chino y cualquier lengua europea, tendría por delante una ardua tarea. Las reglas de transferencia son cada vez más remotas entre las lenguas no relacionadas entre sí. Pero con un sistema estadístico, su motor aprende los cambios de una palabra o serie de palabras que suceden cuando ocurren otras expresiones en otros idiomas. Los sistemas de TA estadística también funcionan muy bien con lenguas similares o emparentadas, ya que el reordenamiento es mínimo. Cuando se trata de lenguas muy remotas, los procesos periféricos, el preprocesamiento y el posprocesamiento se vuelven muy importantes, así como la reorganización de palabras (es decir, hacer que la frase fluya). También es importante cómo se construye el modelo de lenguaje, pero la clave es realmente un buen sistema de preprocesamiento y posprocesamiento.

La respuesta es, por tanto, afirmativa: cualquier combinación de idiomas se puede construir y de un modo mucho más rápido y eficiente que con los sistemas basados en reglas.

P11: ¿Qué pasa con la coherencia? ¿Cómo se aseguran de que la terminología de mi empresa prevalece estadísticamente frente a otras opciones?

Lo ideal sería que el motor personalizado solo contenga sus propios datos para asegurarse de que ningún material ruidoso perturbe su estilo de redacción o el de su empresa. No obstante, pocas organizaciones disponen de tantos datos. La recolección de información y el asesoramiento sobre la forma de obtener más datos relevantes se ha convertido en uno de los deportes favoritos de los desarrolladores de TA estadística.
Como parte de nuestros servicios de asesoramiento, PangeaMT puede añadir más “músculo” a su conjunto inicial de datos para que un gran corpus lingüístico forme parte del entrenamiento (es muy probable que nosotros tengamos ya unos cuantos datos para construir un modelo lingüístico o adaptar cualquiera de los nuestros a su estilo). Todos los datos que agreguemos serán relevantes para su campo del conocimiento y los motores se pondrán a prueba, tanto con estos datos incorporados como sin ellos, de manera que pueda comprobar el efecto de añadir más datos en su desarrollo. (Puede encontrar una versión resumida de cómo puede ser una prueba en una de nuestras noticias de octubre de 2009. Esto fue parte de una prueba gratuita para varias organizaciones).

En términos generales, se asume que cuantos más datos, mejor. Ha habido una cierta controversia sobre si conjuntos más pequeños y menos contaminados de datos proporcionan una mayor precisión. Esto dependerá en gran medida de su aplicación, de si el sistema requiere “conocimiento del mundo” o si está ejecutando un motor para un campo muy específico. Dos millones de palabras de datos de ingeniería civil tendrán poco impacto si usted está construyendo un sistema para el software de una compañía antivirus, o un motor médico en el que los virus serán de otra clase completamente distinta. Es un error común agregar datos y pensar que serán útiles en algún momento, pero nuestros estudios concluyen que, si la probabilidad de necesitar/recordar esos datos es baja, es mejor dejarlos como parte de su modelo lingüístico.

En resumen, no hay manera de garantizar que las estadísticas funcionen de una manera u otra (precisamente ese es el punto de la estadística, se analizan las posibilidades de que algo suceda). Si el sistema es demasiado amplio, se pueden construir sistemas de preprocesamiento y posprocesamiento (en una especie de hibridación) para “fijar” o “forzar” ciertas expresiones. Existen otras formas de trabajar hacia mayores probabilidades, ya que se puede hacer con el método combinado del motor o el de la hipótesis combinada (es decir, combinando partes de resultados probables con una certeza alta para rehacer oraciones que reprocesa el motor). Hasta ahora hemos tenido conocimiento de buenas experiencias por parte de poseditores que utilizan las mismas herramientas terminológicas presentes en las herramientas de TAO para comprobar la consistencia terminológica.

P12: ¿Existen buenas herramientas (mejor si son gratuitas) de posedición que pueda recomendar?

Sí. Cualquier herramienta de TAO se convertirá en un excelente entorno de posedición. Si sigue un flujo de trabajo de estándares abiertos TMX, podrá aprovechar las coincidencias de su memoria de traducción al tiempo que se beneficiará de grandes trozos de texto traducido.
También puede utilizar herramientas de software libre como Xbench, que le ayudarán a poseditar archivos TMX e incluso a comprobar la coherencia entre los segmentos antes de la revisión final.

P13: ¿Qué quiere decir que su sistema se basa en estándares abiertos? ¿Cuál es la diferencia con otros modelos?

Significa que nuestros desarrollos siguen los estándares de toda la industria que no son propiedad de una empresa en concreto. Queremos llevar la democracia a la traducción, y en particular, al mundo de la TA. Ambos ámbitos han estado dominados por los propietarios de tecnología con un gran ojo para los negocios. Sin embargo, es un hecho que claramente ha habido poco interés en el avance de la industria.
Con estándares abiertos, no hay efecto “lock-in” (en este contexto, dependencia exclusiva a nivel tecnológico) ni costosas actualizaciones. Necesitará actualizar su sistema con su material poseditado, eso sí, pero esa es la propia curva de aprendizaje del sistema. Un motor se amortiza en gastos de traducción antes de un año. Una actualización con material de posedición es una fracción de ese coste.

Una vez que el desarrollo llegue a la madurez, habrá poca necesidad de mantenimiento, a menos que sea un usuario corporativo extremadamente activo y con requisitos muy específicos. Así podrá concentrarse en producir más y más material traducido o tomar en consideración la experiencia para crear motores más personalizados.

P14: Yo trato con textos que están llenos de etiquetas. La mayoría de los sistemas de TA estadística solo ofrecen texto plano y se necesita mucho tiempo para copiar y pegar las etiquetas. ¿Han hecho algo para resolver este problema?

Sí, efectivamente. Los sistemas de traducción automática estadística (TA estadística) normalmente producen un resultado de texto plano porque ese es el formato que pueden procesar. Sin embargo, deseamos ver las soluciones de PangeaMT en uso y adaptadas a los requisitos más exigentes de la industria lingüística. Por ello, hemos centrado nuestros esfuerzos en desarrollar motores de TA estadística capaces de manejar la codificación intralineal típica de otros formatos de contenido utilizados en entornos de producción de localización. Gracias a un innovador analizador de código intralineal (in-line parser), PangeaMT puede identificar las etiquetas sin lanzarse a traducirlas. Se inserta primero un marcador de posición (placeholder) de la etiqueta que luego se reemplaza por la misma antes de sacar el texto traducido automáticamente.
Si el motor tiene que procesar texto muy cargado de etiquetas, lógicamente la calidad de la traducción puede resentirse. En situaciones así, algunos clientes prefieren apostar por la traducción y tener todos esos casos de etiquetas identificados y presentados en una posición de su elección (p. ej., principio o final del segmento), indicando entonces a sus poseditores que reinserten el código en el lugar apropiado. Otros, en cambio, optan por dejar que el motor ponga las etiquetas donde toca sin más.

La experiencia nos dice que esta es una buena medida. Desde nuestro punto de vista, nuestro analizador de código intralineal constituye una importante innovación en comparación con el nivel actual de madurez de los conocidos sistemas de TA estadística. Además, las soluciones de PangeaMT son las únicas que le proporcionan resultados en diferentes formatos, según precise (txt / TMX / XLIFF) ya que nuestra misión se basa en dos pilares: seguir una política de estándares abiertos y democratizar la traducción automática al máximo.

Visite nuestra demostración en línea donde podrá probar nuestro generador de TMX y algunas versiones ligeras de nuestros motores de traducción por campos especializados en unas cuantas combinaciones lingüísticas.

P15: ¿En qué se diferencian del traductor de Google?

Sí, efectivamente. Los sistemas de traducción automática estadística (TA estadística) normalmente producen un resultado de texto plano porque ese es el formato que pueden procesar. Sin embargo, deseamos ver las soluciones de PangeaMT en uso y adaptadas a los requisitos más exigentes de la industria lingüística. Por ello, hemos centrado nuestros esfuerzos en desarrollar motores de TA estadística capaces de manejar la codificación intralineal típica de otros formatos de contenido utilizados en entornos de producción de localización. Gracias a un innovador analizador de código intralineal (in-line parser), PangeaMT puede identificar las etiquetas sin lanzarse a traducirlas. Se inserta primero un marcador de posición (placeholder) de la etiqueta que luego se reemplaza por la misma antes de sacar el texto traducido automáticamente.
Si el motor tiene que procesar texto muy cargado de etiquetas, lógicamente la calidad de la traducción puede resentirse. En situaciones así, algunos clientes prefieren apostar por la traducción y tener todos esos casos de etiquetas identificados y presentados en una posición de su elección (p. ej., principio o final del segmento), indicando entonces a sus poseditores que reinserten el código en el lugar apropiado. Otros, en cambio, optan por dejar que el motor ponga las etiquetas donde toca sin más.

La experiencia nos dice que esta es una buena medida. Desde nuestro punto de vista, nuestro analizador de código intralineal constituye una importante innovación en comparación con el nivel actual de madurez de los conocidos sistemas de TA estadística. Además, las soluciones de PangeaMT son las únicas que le proporcionan resultados en diferentes formatos, según precise (txt / TMX / XLIFF) ya que nuestra misión se basa en dos pilares: seguir una política de estándares abiertos y democratizar la traducción automática al máximo.

Visite nuestra demostración en línea donde podrá probar nuestro generador de TMX y algunas versiones ligeras de nuestros motores de traducción por campos especializados en unas cuantas combinaciones lingüísticas.

P16: ¿Qué hay de la limpieza de datos? ¿Cuál es su enfoque?

Las empresas no pueden subestimar (y a menudo solo están empezando a entender) el esfuerzo que requiere la limpieza de datos cuando comienzan a exportar datos bilingües (paralelos) para el aprendizaje automático. Debido a las limitaciones y características de las herramientas de TAO, el ruido puede entrar en una frase en forma de código no deseado, pero el concepto de limpieza de datos va más allá de la eliminación de las etiquetas, como se explica en la P14. Algunos ejemplos típicos de la limpieza de datos que es necesaria se presentaron en la Japan Translation Federation 2011 como parte de nuestra traducción automática híbrida basada en la sintaxis japonesa.
Cualquiera que haya formado parte de la industria de la traducción el tiempo suficiente se ha encontrado con algún tipo de memoria de traducción “mala”. Esto podría presentarse de muchas formas, desde una simple mala traducción hasta una inexactitud terminológica, etc. Afortunadamente para nuestros usuarios, este tipo de limpieza de datos se ha convertido en parte del procedimiento de limpieza estándar de PangeaMT.

Algunos de los ciclos básicos de limpieza se describen a continuación. Tienen en cuenta algunos procedimientos que han sido automatizados para los propietarios de los sistemas de modo que puedan estar seguros de que

sus datos de entrenamiento inicial están limpios antes de entrenar el motor para conseguir los mejores resultados posibles
y de que cualquier futuro material poseditado también pasa por un ciclo de limpieza virtuoso para comprobar cualquier ruido que pueda introducirse en el sistema y afectar así a los reentrenamientos.

PangeaMT debe asegurarse inicialmente de que el conjunto de entrenamiento inicial del cliente ha superado todas las comprobaciones de limpieza antes del entrenamiento. Esto resultará en un bitexto limpio (corpus paralelo) y ayudará al aprendizaje de la máquina. Junto con los propios procesos de PangeaMT, desde las reglas específicas del lenguaje hasta la sintaxis o el etiquetado gramatical, los datos entran en el ciclo de entrenamiento del motor.

Esta no es una lista completa de todos los pasos de limpieza. Sin embargo, permitirá a los usuarios darse cuenta del tipo de material que se extraerá para la aprobación humana antes de volver a introducirlo en el ciclo de entrenamiento. Todos los segmentos detectados como “sospechosos” serán eliminados del conjunto de entrenamiento para su aprobación/revisión/edición por parte del personal en formato TMX y luego se volverán a introducir en el sistema.

  1. Segmentos con una diferencia significativa de longitud entre el idioma de partida y el de destino
    Generalmente, consideramos que una frase es “sospechosa” cuando tiene una longitud superior al 50 %, pero esto puede variar según sus necesidades particulares (el checo, por ejemplo, suele ser más corto que el inglés, y el hecho de que el francés es un 25 % – 30 % más largo que el inglés no es una indicación propiamente dicha de que suceda algo malo).
  2. Segmentos en los que el texto de origen o el de destino contienen símbolos tipográficos que faltan en el otro, como [ ], *, + =.
  3. Segmentos en los que el origen y el destino son idénticos.
  4. “Segmentos vacíos”, es decir, segmentos con texto en el idioma de partida pero sin destino.
  5.  Segmentos que contienen nombres o expresiones particulares que forman parte de la terminología preferida del cliente.

Todos estos son candidatos a la revisión humana.

Este es uno de los muchos aspectos que diferencian a PangeaMT de otras ofertas: le proporcionaremos la formación y las herramientas necesarias para que se convierta en su propio maestro en futuros reentrenamientos.
Los datos limpios son el camino hacia una entrada de calidad y, por lo tanto, hacia un mejor rendimiento del motor. Se aplica el viejo dicho de la traducción: basura dentro, basura fuera. Gracias a nuestras rutinas de limpieza, puede estar seguro de que tendrá un sistema que eliminará cualquier material “dudoso” para su consideración. Pero incluso después de la instalación, recuerde que tiene un año completo de soporte técnico gratuito. Cualquier resultado extraño que vea o experimente, cualquier patrón que desee aplicar/corregir, estamos aquí para ayudarle. Este no es un sistema de caja negra o una empresa que vende palabras o motores. Nuestro modelo se basa en el “fortalecimiento del usuario”, es decir, la transferencia de tecnología.

P17: ¿Su traducción automática al checo es de buena calidad?

Esta es una pregunta típica de algunos de nuestros clientes de habla eslava: ¿Su traducción automática al checo es de buena calidad? ¿Su traducción automática al ruso es de buena calidad? ¿Su traducción automática al croata es de buena calidad?
Las lenguas eslavas tienen muchos casos (inflexiones de palabras). Esto hizo que la traducción automática estadística funcionara bastante mal, ya que las posibilidades de que ocurriera cualquier cadena eran bastante bajas. A este tipo de lenguas también se les llama “lenguas morfológicamente ricas” por la cantidad de combinaciones posibles.

Las redes neuronales cambiaron el enfoque por completo. Una red neuronal funciona muy por debajo y por encima del nivel de la palabra para entender las complejidades de cómo se forma cada palabra y cómo se relaciona con las palabras que están próximas a ella. Esto significa que la traducción automática basada en redes neuronales entiende mucho mejor las relaciones entre las diferentes palabras de una frase. Teniendo en cuenta las dependencias entre las palabras como resultado de los datos de entrenamiento proporcionados, la traducción automática basada en redes neuronales proporciona un resultado que se traduce en una sensación de flujo casi humano o de traducción automática de calidad humana.

Uno de nuestros clientes nos comentó lo siguiente:

Pensaba que PangeaMT solo proporciona motores genéricos y podemos personalizar estos motores con nuestras propias memorias de traducción para crear “espejos” de campos especializados (con el uso del módulo “Entrenamiento en línea”). Y soy consciente de que nuestras combinaciones de idiomas (EN <-> CS y DE <-> CS, en ambos sentidos) no están suficientemente respaldadas por otros proveedores de TA (el checo es realmente complicado para las soluciones de TA). Así que tuve que preguntar si PangeaMT también proporciona esta combinación de dos.

Bueno, de hecho, usted puede personalizar su motor con nuestra herramienta en línea usando su propio servidor. Esto proporciona mucha libertad e independencia a la hora de establecer un entorno de traducción automática para una agencia de traducción. Como consultora lingüística, los lingüistas abordan textos y documentos de naturaleza diferente y terminología conflictiva. Mezclar todo en un solo motor sería perjudicial para el rendimiento y la precisión.

Observe el siguiente archivo TMX en inglés y checo.

Los traductores están muy familiarizados con este formato. Es la versión txt (versión de la base de datos) de una memoria de traducción. Cada vez que un traductor guarda un segmento, está creando un equivalente de la frase de origen en el idioma de destino. Esto es maravilloso para el aprendizaje automático, ya que los traductores crean datos paralelos. Es la base de muchos desarrollos en PangeaMT.

Una red neuronal encontrará las relaciones entre las frases y las similitudes, en las sílabas y letras si es necesario (esta es una característica muy útil en el entrenamiento neuronal llamada BPE). También es responsable del éxito de la traducción automática neuronal y de una mayor aceptación que la anterior “traducción automática estadística” basada en n-gramas que todavía tiene éxito con las frases cortas por su mayor capacidad de “memorización”, como se explica en nuestras primeras publicaciones de 2017 sobre desarrollos de traducción automática neuronal. Nuestros hallazgos de entonces demostraron que una frase corta con menos de 9-10 palabras probablemente podría ser traducida con mayor precisión con un sistema estadístico que con un sistema neuronal. A medida que el sistema ha ido mejorando a lo largo de los años, la brecha entre uno y otro se ha ido acortando. Sin embargo, es cierto que cuando los sitios web de comercio electrónico solo necesitan traducir un par de palabras, y esas palabras han formado parte de los datos de entrenamiento, un sistema estadístico las recordará de forma más rápida y eficiente. Un sistema neuronal, sin embargo, reconstruirá la frase con una fluidez más humana.

Por lo tanto, si usted pregunta si nuestra traducción automática al checo es buena, la respuesta es ¡SÍ! Disponemos del equipo, la tecnología y los datos para hacer que su motor de TA funcione sin problemas y produzca una traducción de alta calidad ¡de millones de palabras!

Póngase en contacto con nosotros o llámenos

Consulte a nuestro equipo de ventas si quiere saber más sobre cualquier configuración particular.

Pangeanic translation services