Automatic proofreading for serving translators
Rivers of ink are written about and because of translation. A huge number of texts are translated daily, and many reflections have been made on translating too.
What should we expect from translators?
Nowadays the translation subject is studied following a descriptive approach. Traditionally, reflections were made on how to properly translate a text, drawing a line between right and wrong translations to that end. More recently, however, translation has been studied as a process. Translating is not choosing between what is right and what is wrong when dealing with difficult texts, but rather choosing among an undefined number of options according to whom the text is addressed. Being able to choose between more or less appropriate options involves developing the translation competence. This competence enables translators, who must demonstrate their knowledge and skills in taking decisions (strategy), using documentary sources (instrumental skills), gaining awareness on subjects that initially are alien to them (encyclopedic knowledge) and, obviously, mastering the involved languages (linguistic awareness).
When clients order translations they expect the highest linguistic quality from the text for which they pay. A great linguistic competence is indeed on the base of the translators’ education and professional experience. In this regard, there is a circumstance that must be stressed: translating into the mother tongue does not equal to translating into a foreign language. For this reason, translators make a distinction among their working languages: The A language is the mother tongue, and the B and C languages are their first and second foreign languages respectively. The A language entails a proficiency level. For the other two languages, a distinction is commonly made between linguistic comprehension (direct translation) and production (inverse translation). The second type involves translating into a foreign language, an activity that is in no way like performing a direct translation.
This is a matter for debate, and there are those who think that these language professionals should not translate into a foreign language. Such an ideal circumstance, however, cannot always come true.
There is a market for inverse translations too. Those who translate into a foreign language know that their level of linguistic competence cannot be the same as in direct translation. Within different levels of proficiency, nevertheless, a reasonable linguistic quality is expected. Also, this level should meet the requirements of the translation brief, which means that some assignments may take priority over others. For instance, cookbooks with receipts should be easily addressed by non-natives, while bestsellers better suit native translators.
Automatic proofreading at your service
Is it possible to reach a sound level of linguistic quality for inverse translation? Were translations direct or inverse, they always welcome revisions on their linguistic quality, and it becomes even more evident in the latter. Native proofreaders would ideally perform this task, however, this is not always possible – tight deadlines or work environments force translators to meet a proper standard of linguistic performance without the aid of human proofchecking.
Thus, the automatic proofreading technologies are really helpful in such circumstances. Assuming that technology cannot substitute human proofreaders, automatic proofreading can be added to translators’ knowledge of foreign languages for inverse translation jobs.
STILUS, which is the automatic proofreading software developed by Daedalus, can be useful in an end stage of the translation process. Let’s see how some of its features would be beneficial to translators::
- Spell checking of general language words, plus proper names and specialized terminology.
- Grammar checking to detect syntax errors, such as wrong concordances or prepositional usages.
- Style checking to detect too long sentences or lexical misuses (e.g. foreign words to be avoided, or wrong transliterations).
If you work as a professional translator, we invite you to use STILUS, the proofreading tool developed by Daedalus.
La corrección automática al servicio del traductor
La traducción genera ríos de tinta, no solo por el inmenso volumen de textos que se traducen diariamente, sino también por el número de reflexiones que se dan en torno a la actividad de traducir.
¿Qué se espera de un traductor?
Actualmente la traducción se mueve en un terreno descriptivo. Si bien tradicionalmente se ha reflexionado sobre la manera de traducir correctamente, distinguiendo traducciones correctas y erradas, hoy día se estudia la traducción como proceso. Por este motivo, a la hora de enfrentarse a un texto, traducir no es elegir entre lo que está bien y lo que está mal, sino hacerlo entre un número indeterminado de opciones en función de quién sea el receptor de la traducción. Para poder elegir entre distintas opciones de traducción es necesario desarrollar una competencia traductora. Esta competencia capacita a un traductor, que tiene que demostrar una serie de habilidades y conocimientos: estratégicos (saber tomar decisiones), instrumentales (saber cómo documentarse), enciclopédicos (iniciarse en temas a los que en principio es ajeno) y, por supuesto, lingüísticos (dominar la lengua desde la que se traduce y hacia la que se traduce).
El cliente que encarga una traducción espera la máxima calidad lingüística para el texto por el que paga. En efecto, una muy buena competencia lingüística es la base de la formación y la experiencia de un traductor. Al respecto, existe una circunstancia que hay que subrayar: no es lo mismo traducir hacia la lengua materna que hacia la lengua extranjera. Por este motivo, los traductores hacen una distinción en sus lenguas de trabajo: la lengua A es la lengua materna, y las lenguas B y C son respectivamente la primera y la segunda lengua extranjera. En la lengua A la competencia lingüística tiene que ser muy buena, y para las otras dos suele diferenciarse entre la comprensión (traducción directa) y la producción lingüística (traducción inversa). Este último caso consiste en traducir hacia la lengua extrajera, que nunca será igual que hacerlo hacia la lengua materna.
Existe debate al respecto, pues hay quien opina que un traductor no debe traducir hacia una lengua extranjera. Esta visión ideal no se da en la realidad: existe el mercado de la traducción inversa. Quienes traducen hacia una lengua extranjera son conscientes de que para este caso el nivel de competencia lingüística no puede ser el mismo: con distintos grados, se espera una calidad lingüística aceptable, y que se ajuste al encargo de traducción. Esto implica priorizar unos encargos frente a otros: la traducción de un libro de recetas de cocina, por ejemplo, puede ser perfectamente asumible para un traductor no nativo, mientras que un best-seller literario estará en mejores manos si lo traduce un nativo.
La corrección automática a su servicio
Cabe preguntarse entonces cómo puede alcanzarse un nivel de calidad lingüística aceptable en traducción inversa. De por sí las traducciones, independientemente de que sean directas o inversas, requieren revisiones que tengan que ver con su calidad lingüística. Esta necesidad es evidentemente mayor para el segundo caso. La situación ideal es que un revisor nativo corrija la traducción que hace un no nativo. Sin embargo, no siempre es así: los plazos y el entorno de trabajo del traductor obligan a alcanzar un nivel aceptable de corrección lingüística sin la ayuda de un corrector humano.
Por este motivo, las tecnologías de corrección automática son de enorme ayuda en este tipo de situaciones. Aceptando la premisa de que un corrector humano es insustituible frente a la tecnología, los correctores automáticos que tienen un avanzado nivel de procesamiento pueden sumarse al propio conocimiento de la lengua extrajera que tiene un traductor para abordar un encargo de traducción inversa.
STILUS, el corrector automático que desarrolla Daedalus, puede ser una herramienta útil para la fase final de una traducción. Veamos algunas de sus características de las que podría beneficiarse un traductor:
- Revisión ortográfica no solo de palabras de la lengua general, sino también especializada, además de nombres propios.
- Revisión gramatical para detectar errores de sintaxis, como por ejemplo los relativos a concordancias o colocaciones preposiciones.
- Revisión de estilo para detectar frases largas o léxico impropio, como por ejemplo extranjerismos que pueden evitarse, falsos amigos o calcos morfosintácticos.
Si se dedica profesionalmente a la traducción, le invitamos a probar el corrector STILUS en el que trabaja diariamente Daedalus.
How can the automatic proofreading help publishing professionals? (2nd part)
As we have shown in the first part, automatic text verification systems aim to become useful resources. However, these applications are by definition tools that help in writing, and they should never replace the human proofreader, especially if the goal is publishing. Until now, there were a lot of questions that technology could not face.
Where should we focus our attention?
We cannot trust technology when text revision involves a comprehensive and careful reading in order to find ambiguous sentences or inconsistencies from the author (e.g. changing in a story the name of the same character), or decide whether a footnote would be necessary, etc.
Apart from this, we must give attention to another type of revision. It is called conceptual or technical revision, and it consists in examining the text to see if it conforms to the terminological conventions which are typical of the related subject. In fact, this task should not be assigned to a specialist in spelling and style, but rather to a specialist in the given subject (a physician for a handbook of medicine, an engineer for a technical text, etc.).
Despite these facts, we must note that language technologies specialists have begun to handle information on a semantic basis. Examples of this are the recognition of anaphoras and coreferences. We believe that, in the near future, there will be major advances in the detection of certain lexical ambiguities or misuses.
Why should publishing professionals make use of automatic proofreading?
We assume that revising a text is a time-consuming task. Thus, we believe that publishing professionals can go a step further, and not just confine themselves to the process of looking for information in dictionaries, grammars, and other reference books. The new automatic proofreading systems are certainly helpful:
- You can save time on tedious tasks that the proofreader can perform easily.
- You can focus your efforts on activities that involve human processing.
- You can improve the quality of the final revision.
- You will have more time left to meet the tight deadlines imposed by the publisher.

In conclusion, you can be more productive, increase your profits and, at the same time, maintain the quality of your work.
Try STILUS, our proofreading software.
[English version of ¿Qué aporta la corrección automática al profesional de la edición? (parte 2)]
How can the automatic proofreading help publishing professionals? (1st part)
A human proofreader is a professional in charge of revising materials written by an author. He tries to ensure that the readers receive the message clearly and free from errors.
The editing process is commonly comprised of several different levels of textual revision: spelling and typographical checking, style checking, conceptual revision, and revision of translated texts, were that the case. All of the publishing houses are aware of this process, but only a few put it into practice. In reality, it is not common for a publishing house to properly assign each revision type to specialized proofreaders. Usually, the proofreader of a given text gets far too much work, as he carries out all the revision work that three or four specialists should have done. He stands as a mediatory demiurge who links ideas to something legible. How much are they paid for this? 0,72 € per 1000 matrixes (or characters with spaces) for proofreading on screen, and around 0,50 € for second galleys (proofreading on paper). In conclusion, they are working for five or six euros per hour in the most profitable cases.
Thus, these edition demiurges may want to explore ways of increasing productivity and, at the same time, protecting the quality of their work.
How can the automatic text verification technology contribute to the proofreading process?
Granted, philologists and some other language professionals are very reluctant to anything related to “automatic proofreading”, however, we want to make clear that prejudging a last-generation software tool is somewhat unfair. Language lovers might congratulate themselves on the new Natural Language Processing technologies that make it possible to automatically proofreading a text. These automatic proofreaders are able to check, with a high degree of linguistic precision and recall, many items regarding spelling and typography (according to the application’s degree of processing). Equally, they can make a text conform to the spelling and grammar rules. On the other hand, the majority of these applications do not rewrite the text automatically, but rather they give the user a choice among the different proposals that the application makes.
What issues can be addressed by automatic proofreading?
Spelling and typographic checking. An optimum level of orthographic recall can be reached if the system has a good lexical base. This avoids false warnings on existing words (even if they are not frequent), and also permits to check the spelling of national and foreign proper nouns (e.g. toponyms, persons’ names, institutions, brand names, etc.). In addition, many tools comprise personal dictionaries where new words are added, hence the lexical base is expanded. On the other hand, these new applications are becoming context-sensitive so that homophones and diacritic errors can be found. Finally, there are more issues concerning spelling and typography that a proofreading application considers too: it can now advise on the use of italics (e.g. foreign words), verify the opening and closing of pairs of signs, warn of wrong sequences of punctuation marks, verify the correct use of upper and lower case letters, check the spacing (double spaces, required spaces or joins between typographic signs and words), etc.
- Grammar checking. Last-generation proofreading applications have the potential to disambiguate different senses. It allows for finding many agreement errors at different sentence levels, and other syntactic violations such as mismatched verb tenses, or errors in prepositional government.
- Style checking. These
applications are able to make suggestions about spelling variations that are much preferred, lexical misuses or very colloquial registers. They can also provide alternatives to foreign words, and warn of phenomena that can make reading confusing (abusive use of prepositions, word repetitions, too long sentences, redundancies, unwanted technical words, etc.).
- Revision of translations. These applications are able to find loan translations between the source and the target language. They can also warn of false friends or wrong transliterations.
Try STILUS, our proofreading software
What is left for a human proofreader?
[English version of ¿Qué aporta la corrección automática al profesional de la edición? (parte 1)]
¿Qué aporta la corrección automática al profesional de la edición? (parte 2)
En la primera parte vimos que realmente las nuevas tecnologías de verificación textual pueden resultar muy útiles. Sin embargo, estas aplicaciones se definen como “herramientas de ayuda a la escritura” y no deberían sustituir nunca al profesional humano, sobre todo cuando exista un fin editorial. Todavía hoy en día quedan muchas tareas que la tecnología no es capaz de afrontar en el ámbito de la corrección.
¿A qué cosas deberemos seguir prestando atención?
En general, no podemos delegar en la tecnología aquellas tareas de corrección que tengan que ver con una lectura especialmente meticulosa y comprensiva: detectar oraciones ambiguas, descubrir incongruencias por descuido del autor (ej.: un personaje que tutea a otro y en determinado momento lo llama de usted), decidir si es necesario incluir una nota al pie, etc.
Y tendremos que seguir prestando atención a la llamada corrección técnica o de concepto. Esto es, al examen del texto respecto de su adecuación a las convenciones terminológicas del dominio al que pertenece. De hecho, esta revisión ni siquiera debería encargarse a un especialista en ortotipografía y estilo, sino a un profesional especializado en la materia de que se trate (un médico para revisar un manual de medicina, un informático para verificar un texto sobre tecnología, etc.).
A pesar de todo, debemos saber también que actualmente las tecnologías del lenguaje están concentrando esfuerzos en el terreno del tratamiento semántico de la información y el reconocimiento de anáforas y correferencias, por lo que auguramos que en un futuro no muy lejano podremos contar con nuevas e interesantes mejoras para detectar ciertas ambigüedades o inadecuaciones léxicas.
¿Por qué un profesional de la edición también debería utilizar la corrección automática?
Asumiendo la ingente tarea que supone “corregir un texto”, parece interesante que los profesionales del sector no se limiten al manejo de diccionarios, gramáticas y otros textos de referencia para realizar su labor; las nuevas tecnologías de corrección automática también les serán de gran ayuda:
- para ahorrarse algunas tareas tediosas o asequibles por el corrector
- para centrar su dedicación en lo que requiera procesamiento humano
- para aumentar la calidad de la corrección final
- para reaccionar más cómodamente ante los plazos impuestos por la editorial
En definitiva, para aumentar su productividad y sus ingresos, preservando la calidad de su trabajo.
¿Qué aporta la corrección automática al profesional de la edición? (parte 1)
Cuando hablamos de un corrector humano hablamos de un profesional encargado de revisar material escrito por un autor con el fin de asegurar que el lector reciba el mensaje con claridad y sin errores.
Teóricamente, durante el proceso de edición deberían atenderse, como fases sucesivas e independientes, revisiones textuales de diversa índole, a saber: la corrección ortotipográfica, la corrección de estilo, la corrección de concepto y, si se trata de una traducción, también la revisión de la traducción. En toda editorial que se precie, esto se sabe, pero solo en algunas se asume. La realidad es que en muy pocas ocasiones la casa editora encarga convenientemente cada tipo de revisión a un profesional especializado. Lo habitual es que “el corrector del texto equis” sea “corrector por triplicado” y él, y solo él, se convierta en el demiurgo mediador entre las ideas y lo legible que se encargue de la ingente tarea que deberían haber realizado tres o cuatro especialistas. La retribución por ello: unos setenta y dos céntimos de euro por cada millar de matrices (o caracteres, incluyendo espacios) para primeras pruebas en pantalla, y alrededor de cincuenta y cinco céntimos si son galeradas, esto es, segundas pruebas en papel. A fin de cuentas, cinco o seis euros la hora (en los casos más productivos).
Por tanto, sí parece interesante que estos demiurgos de la edición contemplen cualquier opción que pudiera ayudarles a aumentar su productividad, salvaguardando la calidad de su trabajo.
¿Qué pueden aportar las tecnologías de verificación automática de texto durante el proceso de corrección editorial?
Asumiendo el desprecio que tradicionalmente han venido demostrando filólogos y otros profesionales de la lengua por todo lo que suene a “corrección automática”, hemos de advertir de lo injusto de la opinión cuando se trata de prejuzgar una aplicación de última generación. Por suerte para los amantes del lenguaje, las nuevas tecnologías de Procesamiento del Lenguaje Natural han permitido que actualmente existan correctores capaces de verificar, con gran cobertura y precisión lingüísticas, tanto la adecuación de un escrito a la norma ortográfica y gramatical, como (en función de los niveles de procesamiento que incluya la aplicación) la revisión de no pocos aspectos ortotipográficos y de estilo. Por otro lado, la mayoría de estas aplicaciones ofrecen la opción de no reescribir automáticamente el texto para delegar en el usuario la decisión sobre la conveniencia o no de las propuestas que ofrece el asistente.
¿Qué cuestiones alcanza a atender hoy en día la corrección automática?
En revisión ortográfica y ortotipográfica: una buena base léxica asegurará una alta cobertura ortográfica. Esto evitará en gran medida los falsos avisos sobre palabras que existan (aunque sean poco utilizadas) e incluso verificar la manera correcta de escribir nombres propios nacionales o extranjeros (ej.: topónimos, antropónimos, instituciones, nombres comerciales, etc.). Cabe mencionar además que muchas de estas herramientas incluyen un diccionario personal editable mediante el cual podemos sumar a la base léxica las voces que a priori el corrector no reconoce. Por otro lado, gracias a la cada vez mejor sensibilidad contextual de estas nuevas aplicaciones, son capaces de detectar errores relacionados con pares homófonos y diacríticos. En cuanto otro tipo de aspectos de orden ortotipográfico, un verificador automático hoy en día puede indicar la conveniencia de cursivas (ej.: sobre voces extranjeras), cotejar la apertura y cierre de pares de signos (comillas, paréntesis, corchetes, etc.), avisar sobre secuencias no permitidas de signos de puntuación, verificar ciertos usos de mayúsculas y minúsculas, revisar el espaciado (dobles espacios, exigencia de espacio o adyacencia entre signos ortográficos y palabras), etc.
- En revisión gramatical: gracias al aumento de su capacidad desambiguadora, los correctores de última generación son capaces de detectar gran cantidad de errores de concordancia a distinto nivel oracional, además de otro tipo de violaciones de índole sintáctica como puedan ser la incompatibilidad entre tiempos verbales, la no obediencia de recciones (o exigencias) preposicionales, etc.
En revisión de estilo: sugerirán recomendaciones de uso para expresiones o variantes ortográficas menos preferidas, avisarán ante posibles impropiedades léxicas, registros demasiado coloquiales, propondrán alternativas a extranjerismos y voces extranjeras, reaccionarán frente a fenómenos que puedan complicar la lectura (uso abusivo de preposiciones, repetición de palabras, frases demasiado largas, redundancias, uso injustificado de tecnicismos, etc.).
- En revisión de traducción: por ejemplo, la detección de calcos morfosintácticos entre lengua de origen y lengua meta, el aviso sobre adaptaciones gráficas incorrectas de voces extranjeras, advertencia sobre posibles falsos amigos, etc.
Pruebe nuestro corrector STILUS
Jornadas MAVIR 2011: Crisis y oportunidades, universidad y empresa, tecnología y lenguaje
Acaban de celebrarse las jornadas que anualmente convoca el Consorcio MAVIR, una red de investigadores con la que Daedalus colabora. MAVIR está formada por grupos de la Comunidad de Madrid vinculados a la universidad y la investigación. El objetivo común es desarrollar técnicas avanzadas para mejorar el acceso inteligente a la información. Dentro de este ámbito, las tecnologías del lenguaje o la Web Semántica tienen un papel protagonista, por lo que Daedalus aporta a MAVIR conocimiento y experiencia.
Este año las Jornadas han abordado temas de indiscutible actualidad, como el análisis de redes sociales, o la compresión de textos con técnicas de semántica computacional. También tuvo lugar una mesa redonda en la que participaron empresas afines (Daedalus entre ellas), y en la que se habló sobre el presente y el futuro del sector en el contexto de la crisis económica y la incesante explosión de la información en la web.
Estos dos últimos conceptos (la crisis, la web) considerados en conjunto reflejan una cierta paradoja. Se hace difícil concebir la crisis en el contexto de la web, un medio de información cuyo éxito lleva mucho tiempo disparado. Esta mesa redonda, así como las distintas charlas, arrojaron paradojas similares que tienen que ver con la naturaleza sui géneris del territorio en que nos movemos. Veamos algunas de ellas.
¿Queda alguna puerta a la que todavía no haya llamado la crisis? Las empresas y la Administración quieren ahorrar en todo, lo que supone cerrar los ojos al emprendimiento y la apuesta por tecnologías nuevas como las que se desarrollan en MAVIR. ¿No es lógico que los hospitales, por poner un ejemplo, incorporen aplicaciones de Web Semántica para organizar la enorme cantidad de datos que manejan diariamente, o que los médicos quieran acceder al conocimiento que se produce en centros sanitarios fuera de nuestras fronteras? La respuesta, evidente, conduce a otra pregunta: ¿saben en los hospitales qué es la Web Semántica o por qué es útil? Una de las conclusiones de la mesa redonda es que las tecnologías que manejamos no terminan de ser conocidas entre quienes más se pueden beneficiar de ellas. Resulta paradójico que estemos en la sociedad de la información (¿qué compañía, organización o persona no almacena digitalmente o comparte en la red la información textual o multimedia de la que dispone?), y las tecnologías de acceso a la información sigan siendo inéditas para tantos miembros de esta nueva sociedad que proclamamos. Estas tecnologías suponen un salto cualitativo de la información al conocimiento. Un reto que debemos enfrentar en estos tiempos consiste precisamente en saber explicar lo que hacemos, y generar conciencia sobre la diferencia entre información y conocimiento.
Hay otra cuestión relacionada que también se abordó en la mesa. A través de la red MAVIR, Dadedalus se vincula a grupos universitarios de investigación. ¿Cómo beneficia a estas compañías mantener un enlace universitario? Las Tecnologías de Acceso a la Información avanzan, en buena parte, gracias a iniciativas de investigación universitaria. Por tanto, en el desarrollo de estas tecnologías no se puede perder de vista lo que se hace en la universidad. Sin embargo, los ritmos de trabajo de la universidad y los centros de investigación suelen ser muy distintos a los que lleva una empresa. Los investigadores deben llegar a otros investigadores, generando publicaciones especializadas, asistiendo a foros de especialistas, etc. Las empresas, por el contrario, deben llegar a sus clientes. Este antagonismo tradicional está relacionado con la anterior paradoja: es difícil explicarle al público lo que hacemos, si los que prioritariamente investigan y desarrollan iniciativas en nuestro campo se mueven en círculos cerrados como son los congresos, o los artículos científicos.
Por último, hay otro aspecto que subraya la condición de sui géneris de las Tecnologías de Acceso a la Información. En la red MAVIR coinciden una variedad de perfiles con orígenes muy distintos: ingenieros, científicos, técnicos, documentalistas o lingüistas. El motivo es que nuestras tecnologías no pueden apoyarse únicamente en saberes técnicos. La Ciencias de la Documentación abordan la organización del conocimiento, y la Lingüística el acceso al conocimiento mediante el léxico o la gramática. Ontología, léxico y gramática son conceptos muy recurrentes en las Tecnologías de Acceso a la Información, y que también los ingenieros han hecho suyos.
Al respecto, cabe preguntarse hasta qué punto nuestro campo de trabajo es auténticamente interdisciplinar. El conocimiento lingüístico es útil y necesario en el desarrollo de sistemas de búsquedas inteligentes, capaces de comprender textos y palabras a varios niveles. Sin embargo, actualmente, hay una división muy marcada entre las diferentes ramas de las que pueden nutrirse estas tecnologías. La lingüística convencional, por ejemplo, está realmente lejos de ámbitos como este en los que puede resultar muy útil.
Iniciativas como las jornadas de MAVIR buscan reunir a profesionales con estos diferentes perfiles, lo que implica llevar decididamente las Tecnologías de Acceso a la Información a un terreno interdisciplinar. Creemos que estas jornadas igualmente cumplen el objetivo de salvar las distancias entre el mundo universitario y el ámbito empresarial. También deben servir para arrojar algo de luz sobre la primera paradoja a la que nos referíamos: se hace necesario difundir y explicar lo que hacemos (tanto desde la universidad como la empresa) en el actual contexto de superproducción y caos informativo.
Otra cuestión es si realmente, fuera de este marco ideal representado por estas jornadas, hay un verdadero acercamiento entre la tecnología y el usuario, la universidad y la empresa, o entre los diferentes profesionales que hacen avanzar nuestro sector…
Juan Fernández Fernández
Investigador UPM.







