Análisis de sentimiento: capturando la emoción

El análisis automático de sentimiento es un paso más en el intento de traducir las emociones humanas a datos. Pero la espontaneidad y la inmediatez de la opinión en medios sociales hacen que estos sentimientos sean más auténticos y preserven su contenido emocional.

El análisis de sentimiento –también llamado minería de opiniones- sobre contenidos no estructurados complementa la extracción automática de temas, entidades y conceptos con la identificación de la polaridad (¿la expresión es positiva o negativa?), la intensidad (¿qué grado de emoción se expresa?) y la subjetividad (¿la fuente es parcial o imparcial?). En este blog hemos hablado anteriormente de si el análisis de sentimiento tiene realmente un problema de precisión y de la importancia de la información semántica en el proceso. Ahora vamos a tocar algunas de sus nuevas perspectivas y aplicaciones.

Perspectivas

En primer lugar conviene recordar que si bien el interés por esta técnica ha venido últimamente impulsado por el análisis de medios sociales, la minería de opiniones no es exclusiva de este escenario. La información a analizar puede provenir tanto de fuentes externas y autónomas (redes sociales, blogs/microblogs, foros, medios de comunicación…) como internas o propias de la empresa (interacciones almacenadas en el CRM, transcripciones de conversaciones registradas en el sistema de soporte a incidencias, encuestas realizadas a clientes o empleados…).

Otro aspecto de interés lo constituye el grado de formalidad y corrección (léxica y gramatical) del lenguaje que se utiliza en los contenidos objeto de análisis, que cubre un espectro que abarca desde el más cuidado y profesional de los medios tradicionales a las abreviaturas, ambigüedades y jergas de Twitter. Esta característica condiciona enormemente tanto la precisión como la riqueza del análisis automático que se puede realizar.

Una de las críticas más habituales contra la utilización de estas técnicas es que el análisis automático en incapaz de tratar aspectos como la ironía o el sarcasmo del lenguaje natural. Ciertamente esta es una tarea difícil incluso para la capacidad intelectual del usuario humano medio. Tal vez por eso la ironía o el sarcasmo no son recursos de uso frecuente (sobre todo comparados con el insulto directo o el exabrupto).

Dependiendo de la aplicación, una herramienta de análisis de sentimiento puede utilizar reglas para identificar las expresiones sospechosas de incorporar el sarcasmo y bien descartarlas directamente (en la confianza de no producir un sesgo significativo de los resultados) o encaminarlas para su revisión por un experto humano. Todo ello, por supuesto, siempre que nuestra empresa no sea proveedor oficial de la Sociedad Oficial del Sarcasmo, en cuyo caso más nos vale dominar ese tipo de comunicación (el lema de la Sociedad, por cierto, es “Nos ENCANTARÍA oír lo que piensas” ; -).

Finalmente, hasta hace poco el resultado del análisis consistía en una valoración de sentimiento global para el documento (post, tweet…) que se obtenía agregando/restando las puntuaciones correspondientes a las diferentes expresiones de polaridad positiva/negativa que aparecían en él. Sin embargo, podría ocurrir que un documento que recogiera diversas polaridades extremas de distinto signo sobre diferentes aspectos terminara con una valoración agregada neutra, ocultado así información muy interesante sobre debilidades y fortalezas.

Para evitarlo, estas técnicas han evolucionado hacia un análisis de sentimiento basado en características, en el que se identifican los objetos sobre los que se aplica la opinión (que pueden ser entidades y sus componentes, atributos y características) y se asocian a dichos objetos las opiniones que se encuentren en el documento. De esta manera la información de sentimiento es mucho más granular y explotable.

Aplicaciones

El análisis de sentimiento se va abriendo camino y han aparecido multitud de escenarios de uso o aplicaciones donde esta técnica nos puede ayudar con resultados concretos:

  • Detectar problemas/debilidades (o fortalezas) en diferentes áreas de los productos, servicios o marcas de nuestra empresa y que puedan requerir una acción correctiva inmediata. Se trata de descubrir opiniones marcadamente negativas o positivas vertidas especialmente por clientes actuales -y potenciales- y líderes de opinión tanto en registros internos (p.ej.: sistema de gestión de incidencias) como externos (ej.: foros de análisis y comparativa de productos).
  • Prevenir el abandono de clientes. Consiste en detectar situaciones de riesgo de que un cliente actual deje de serlo, identificando opiniones negativas interpretables como intenciones de abandono. Basado en información tanto interna como externa.
  • Compararnos con la competencia. Se basa en evaluar la opinión sobre la marca/empresa/productos de nuestros competidores y compararla con la nuestra, a partir de la agregación de valoraciones directas y del análisis de expresiones comparativas. Fuentes principalmente externas.
  • Medir la satisfacción de los empleados y el clima laboral. En las encuestas para pulsar la “voz del empleado” las preguntas abiertas suelen proporcionar la información más valiosa. El procesamiento automático de opinión hace posible el tratamiento consistente y rápido de estos cuestionarios en las grandes corporaciones (fuentes de información interna).
  • Analizar la opinión del electorado. Partidos políticos y otras organizaciones sociales pueden identificar en tiempo real las tendencias y posturas de los ciudadanos pulsando la “voz del votante” en medios sociales (fuentes externas).
  • Predecir la evolución de una acción. El “sentimiento del mercado” ha sido desde siempre parte del vocabulario de las inversiones financieras. La minería de las opiniones expresadas en medios de comunicación, redes sociales y foros (fuentes externas) combinada con el tratamiento analítico de datos internos, puede suministrar predictores de la cotización de los activos.
  • Medir el impacto sobre la reputación corporativa. Aunque algunos proveedores de herramientas analíticas nos quieren hacer creer lo contrario, reputación ≠ opinión. La reputación corporativa no se mide sumando las polaridades de los tweets que la han mencionado durante la última hora. La reputación es un activo multidimensional que se va conformando a través del efecto acumulado de multitud de interacciones. Analizar el efecto de un conjunto de opiniones externas sobre la reputación no es un problema trivial y tiene que ver con las diferentes dimensiones e indicadores de esta y con la autoridad de los emisores. A ello dedicaremos el próximo post.

Capturando sentimientos en el Punto de Emoción

Para terminar, una reflexión sobre el uso de análisis de sentimiento especialmente sobre medios sociales. El análisis tradicional de opiniones (en estudios de mercado, sondeos políticos, etc.) se basa en el recuerdo o evocación de experiencias. Pero este enfoque es imperfecto porque se está solicitando a una persona información sobre un evento pasado desde fuera del contexto o situación en el cual lo experimentó.

Por el contrario, lo que caracteriza a la mayoría de la gente que comparte contenidos, publica comentarios y ofrece opiniones en los medio sociales se encuentra en lo que A. Jeavons denomina en este post el “Punto de Emoción”. En otras palabras: están involucrados emocionalmente con los productos o experiencias sobre los cuales están opinando. La espontaneidad e inmediatez de los medios sociales, combinados con el acceso permanente que proporcionan los móviles, permiten que la gente se convierta en “micro-encuestados” cuando y donde se produce la experiencia, eliminando el retardo entre la generación y la publicación de la opinión.

In ciertos contextos las emociones son distorsionadoras. Pero si necesitamos conocer lo que consumidores, influenciadores, votantes, etc. piensan realmente y ser capaces de predecir cómo podrían comportarse, es mejor que los encontremos en el Punto de Emoción.

[¿Quieres saber cómo las tecnologías Semánticas y de Procesamiento del Lenguaje permiten analizar y explotar opiniones, ideas… y otros contenidos generados por los usuarios? Visita el sitio web de Daedalus y descubre cómo estamos ayudando a las empresas de seguimiento y análisis de medios, tanto tradicionales como sociales.]

Categorías:Medios sociales

Automatic proofreading for serving translators

Rivers of ink are written about and because of translation. A huge number of texts are translated daily, and many reflections have been made on translating too.

 

 

What should we expect from translators?

Nowadays the translation subject is studied following a descriptive approach. Traditionally, reflections were made on how to properly translate a text, drawing a line between right and wrong translations to that end. More recently, however, translation has been studied as a process. Translating is not choosing between what is right and what is wrong when dealing with difficult texts, but rather choosing among an undefined number of options according to whom the text is addressed. Being able to choose between more or less appropriate options involves developing the translation competence. This competence enables translators, who must demonstrate their knowledge and skills in taking decisions (strategy), using documentary sources (instrumental skills), gaining awareness on subjects that initially are alien to them (encyclopedic knowledge) and, obviously, mastering the involved languages (linguistic awareness).

When clients order translations they expect the highest linguistic quality from the text for which they pay. A great linguistic competence is indeed on the base of the translators’ education and professional experience. In this regard, there is a circumstance that must be stressed: translating into the mother tongue does not equal to translating into a foreign language. For this reason, translators make a distinction among their working languages: The A language is the mother tongue, and the B and C languages are their first and second foreign languages respectively. The A language entails a proficiency level. For the other two languages, a distinction is commonly made between linguistic comprehension (direct translation) and production (inverse translation). The second type involves translating into a foreign language, an activity that is in no way like performing a direct translation.

This is a matter for debate, and there are those who think that these language professionals should not translate into a foreign language. Such an ideal circumstance, however, cannot always come true.

There is a market for inverse translations too. Those who translate into a foreign language know that their level of linguistic competence cannot be the same as in direct translation. Within different levels of proficiency, nevertheless, a reasonable linguistic quality is expected. Also, this level should meet the requirements of the translation brief, which means that some assignments may take priority over others. For instance, cookbooks with receipts should be easily addressed by non-natives, while bestsellers better suit native translators.

 

Automatic proofreading at your service

Is it possible to reach a sound level of linguistic quality for inverse translation? Were translations direct or inverse, they always welcome revisions on their linguistic quality, and it becomes even more evident in the latter. Native proofreaders would ideally perform this task, however, this is not always possible – tight deadlines or work environments force translators to meet a proper standard of linguistic performance without the aid of human proofchecking.

Thus, the automatic proofreading technologies are really helpful in such circumstances. Assuming that technology cannot substitute human proofreaders, automatic proofreading can be added to translators’ knowledge of foreign languages for inverse translation jobs.

STILUS, which is the automatic proofreading software developed by Daedalus, can be useful in an end stage of the translation process. Let’s see how some of its features would be beneficial to translators::

- Spell checking of general language words, plus proper names and specialized terminology.

- Grammar checking to detect syntax errors, such as wrong concordances or prepositional usages.

- Style checking to detect too long sentences or lexical misuses (e.g. foreign words to be avoided, or wrong transliterations).

If you work as a professional translator, we invite you to use STILUS, the proofreading tool developed by Daedalus.

La corrección automática al servicio del traductor

12 enero, 2012 3 comentarios

La traducción genera ríos de tinta, no solo por el inmenso volumen de textos que se traducen diariamente, sino también por el número de reflexiones que se dan en torno a la actividad de traducir.

¿Qué se espera de un traductor?

Actualmente la traducción se mueve en un terreno descriptivo. Si bien tradicionalmente se ha reflexionado sobre la manera de traducir correctamente, distinguiendo traducciones correctas y erradas, hoy día se estudia la traducción como proceso. Por este motivo, a la hora de enfrentarse a un texto, traducir no es elegir entre lo que está bien y lo que está mal, sino hacerlo entre un número indeterminado de opciones en función de quién sea el receptor de la traducción. Para poder elegir entre distintas opciones de traducción es necesario desarrollar una competencia traductora. Esta competencia capacita a un traductor, que tiene que  demostrar una serie de habilidades y conocimientos: estratégicos (saber tomar decisiones), instrumentales (saber cómo documentarse), enciclopédicos (iniciarse en temas a los que en principio es ajeno) y, por supuesto, lingüísticos (dominar la lengua desde la que se traduce y hacia la que se traduce).

El cliente que encarga una traducción espera la máxima calidad lingüística para el texto por el que paga. En efecto, una muy buena competencia lingüística es la base de la formación y la experiencia de un traductor. Al respecto, existe una circunstancia que hay que subrayar: no es lo mismo traducir hacia la lengua materna que hacia la lengua extranjera. Por este motivo, los traductores hacen una distinción en sus lenguas de trabajo: la lengua A es la lengua materna, y las lenguas B y C son respectivamente la primera y la segunda lengua extranjera. En la lengua A la competencia lingüística tiene que ser muy buena, y para las otras dos suele diferenciarse entre la comprensión (traducción directa) y la producción lingüística (traducción inversa). Este último caso consiste en traducir hacia la lengua extrajera, que nunca será igual que hacerlo hacia la lengua materna.

Existe debate al respecto, pues hay quien opina que un traductor no debe traducir hacia una lengua extranjera. Esta visión ideal no se da en la realidad: existe el mercado de la traducción inversa. Quienes traducen hacia una lengua extranjera son conscientes de que para este caso el nivel de competencia lingüística no puede ser el mismo: con distintos grados, se espera una calidad lingüística aceptable, y que se ajuste al encargo de traducción. Esto implica priorizar unos encargos frente a otros: la traducción de un libro de recetas de cocina, por ejemplo, puede ser perfectamente asumible para un traductor no nativo, mientras que un best-seller literario estará en mejores manos si lo traduce un nativo.

La corrección automática a su servicio

Cabe preguntarse entonces cómo puede alcanzarse un nivel de calidad lingüística aceptable en traducción inversa. De por sí las traducciones, independientemente de que sean directas o inversas, requieren revisiones que tengan que ver con su calidad lingüística. Esta necesidad es evidentemente mayor para el segundo caso. La situación ideal es que un revisor nativo corrija la traducción que hace un no nativo. Sin embargo, no siempre es así: los plazos y el entorno de trabajo del traductor obligan a alcanzar un nivel aceptable de corrección lingüística sin la ayuda de un corrector humano.

Por este motivo, las tecnologías de corrección automática son de enorme ayuda en este tipo de situaciones. Aceptando la premisa de que un corrector humano es insustituible frente a la tecnología, los correctores automáticos que tienen un avanzado nivel de procesamiento pueden sumarse al propio conocimiento de la lengua extrajera que tiene un traductor para abordar un encargo de traducción inversa.

STILUS, el corrector automático que desarrolla Daedalus, puede ser una herramienta útil para la fase final de una traducción. Veamos algunas de sus características de las que podría beneficiarse un traductor:

- Revisión ortográfica no solo de palabras de la lengua general, sino también especializada, además de nombres propios.

- Revisión gramatical para detectar errores de sintaxis, como por ejemplo los relativos a concordancias o colocaciones preposiciones.

- Revisión de estilo para detectar frases largas o léxico impropio, como por ejemplo extranjerismos que pueden evitarse, falsos amigos o calcos morfosintácticos.

Si se dedica profesionalmente a la traducción, le invitamos a probar el corrector STILUS en el que trabaja diariamente Daedalus.

How can the automatic proofreading help publishing professionals? (2nd part)

22 diciembre, 2011 Deja un comentario

As we have shown in the first part, automatic text verification systems aim to become useful resources. However, these applications are by definition tools that help in writing, and they should never replace the human proofreader, especially if the goal is publishing. Until now, there were a lot of questions that technology could not face.

Where should we focus our attention?

We cannot trust technology when text revision involves a comprehensive and careful reading in order to find ambiguous sentences or inconsistencies from the author (e.g. changing in a story the name of the same character), or decide whether a footnote would be necessary, etc.

Apart from this, we must give attention to another type of revision. It is called conceptual or technical revision, and it consists in examining the text to see if it conforms to the terminological conventions which are typical of the related subject. In fact, this task should not be assigned to a specialist in spelling and style, but rather to a specialist in the given subject (a physician for a handbook of medicine, an engineer for a technical text, etc.).

Despite these facts, we must note that language technologies specialists have begun to handle information on a semantic basis. Examples of this are the recognition of anaphoras and coreferences. We believe that, in the near future, there will be major advances in the detection of certain lexical ambiguities or misuses.

Why should publishing professionals make use of automatic proofreading?

We assume that revising a text is a time-consuming task. Thus, we believe that publishing professionals can go a step further, and not just confine themselves to the process of looking for information in dictionaries, grammars, and other reference books. The new automatic proofreading systems are certainly helpful:

  • You can save time on tedious tasks that the proofreader can perform easily.
  • You can focus your efforts on activities that involve human processing.
  • You can improve the quality of the final revision.
  • You will have more time left to meet the tight deadlines imposed by the publisher.

In conclusion, you can be more productive, increase your profits and, at the same time, maintain the quality of your work.

Try STILUS, our proofreading software.

[English version of  ¿Qué aporta la corrección automática al profesional de la edición? (parte 2)]

How can the automatic proofreading help publishing professionals? (1st part)

22 diciembre, 2011 2 comentarios

A human proofreader is a professional in charge of revising materials written by an author. He tries to ensure that the readers receive the message clearly and free from errors.

The editing process is commonly comprised of several different levels of textual revision: spelling and typographical checking, style checking, conceptual revision, and revision of translated texts, were that the case. All of the publishing houses are aware of this process, but only a few put it into practice. In reality, it is not common for a publishing house to properly assign each revision type to specialized proofreaders. Usually, the proofreader of a given text gets far too much work, as he carries out all the revision work that three or four specialists should have done. He stands as a mediatory demiurge who links ideas to something legible. How much are they paid for this? 0,72 € per 1000 matrixes (or characters with spaces) for proofreading on screen, and around 0,50 € for second galleys (proofreading on paper). In conclusion, they are working for five or six euros per hour in the most profitable cases.

Thus, these edition demiurges may want to explore ways of increasing productivity and, at the same time, protecting the quality of their work.

How can the automatic text verification technology contribute to the proofreading process?

Granted, philologists and some other language professionals are very reluctant to anything related to “automatic proofreading”, however, we want to make clear that prejudging a last-generation software tool is somewhat unfair. Language lovers might congratulate themselves on the new Natural Language Processing technologies that make it possible to automatically proofreading a text. These automatic proofreaders are able to check, with a high degree of linguistic precision and recall, many items regarding spelling and typography (according to the application’s degree of processing). Equally, they can make a text conform to the spelling and grammar rules. On the other hand, the majority of these applications do not rewrite the text automatically, but rather they give the user a choice among the different proposals that the application makes.

What issues can be addressed by automatic proofreading?

  • Spelling and typographic checking. An optimum level of orthographic recall can be reached if the system has a good lexical base. This avoids false warnings on existing words (even if they are not frequent), and also permits to check the spelling of national and foreign proper nouns (e.g. toponyms, persons’ names, institutions, brand names, etc.). In addition, many tools comprise personal dictionaries where new words are added, hence the lexical base is expanded. On the other hand, these new applications are becoming context-sensitive so that homophones and diacritic errors can be found. Finally, there are more issues concerning spelling and typography that a proofreading application considers too: it can now advise on the use of italics (e.g. foreign words), verify the opening and closing of pairs of signs, warn of wrong sequences of punctuation marks, verify the correct use of upper and lower case letters, check the spacing (double spaces, required spaces or joins between typographic signs and words), etc.
  • Grammar checking. Last-generation proofreading applications have the potential to disambiguate different senses. It allows for finding many agreement errors at different sentence levels, and other syntactic violations such as mismatched verb tenses, or errors in prepositional government.
  •  Style checking. These applications are able to make suggestions about spelling variations that are much preferred, lexical misuses or very colloquial registers. They can also provide alternatives to foreign words, and warn of phenomena that can make reading confusing (abusive use of prepositions, word repetitions, too long sentences, redundancies, unwanted technical words, etc.).
  •  Revision of translations. These applications are able to find loan translations between the source and the target language. They can also warn of false friends or wrong transliterations.

Try STILUS, our proofreading software

What is left for a human proofreader?

Read it on the next post.

[English version of  ¿Qué aporta la corrección automática al profesional de la edición? (parte 1)]

¿Qué aporta la corrección automática al profesional de la edición? (parte 2)

En la primera parte vimos que realmente las nuevas tecnologías de verificación textual pueden resultar muy útiles. Sin embargo, estas aplicaciones se definen como “herramientas de ayuda a la escritura” y no deberían sustituir nunca al profesional humano, sobre todo cuando exista un fin editorial. Todavía hoy en día quedan muchas tareas que la tecnología no es capaz de afrontar en el ámbito de la corrección.

¿A qué cosas deberemos seguir prestando atención?

En general, no podemos delegar en la tecnología aquellas tareas de corrección que tengan que ver con una lectura especialmente meticulosa y comprensiva: detectar oraciones ambiguas, descubrir incongruencias por descuido del autor (ej.: un personaje que tutea a otro y en determinado momento lo llama de usted), decidir si es necesario incluir una nota al pie, etc.

Y tendremos que seguir prestando atención a la llamada corrección técnica o de concepto. Esto es, al examen del texto respecto de su adecuación a las convenciones terminológicas del dominio al que pertenece. De hecho, esta revisión ni siquiera debería encargarse a un especialista en ortotipografía y estilo, sino a un profesional especializado en la materia de que se trate (un médico para revisar un manual de medicina, un informático para verificar un texto sobre tecnología, etc.).

A pesar de todo, debemos saber también que actualmente las tecnologías del lenguaje están concentrando esfuerzos en el terreno del tratamiento semántico de la información y el reconocimiento de anáforas y correferencias, por lo que auguramos que en un futuro no muy lejano podremos contar con nuevas e interesantes mejoras para detectar ciertas ambigüedades o inadecuaciones léxicas.

¿Por qué un profesional de la edición también debería utilizar la corrección automática?

Asumiendo la ingente tarea que supone “corregir un texto”, parece interesante que los profesionales del sector no se limiten al manejo de diccionarios, gramáticas y otros textos de referencia para realizar su labor; las nuevas tecnologías de corrección automática también les serán de gran ayuda:

  • para ahorrarse algunas tareas tediosas o asequibles por el corrector
  • para centrar su dedicación en lo que requiera procesamiento humano
  • para aumentar la calidad de la corrección final
  • para reaccionar más cómodamente ante los plazos impuestos por la editorial

En definitiva, para aumentar su productividad y sus ingresos, preservando la calidad de su trabajo.

Pruebe nuestro corrector STILUS

¿Qué aporta la corrección automática al profesional de la edición? (parte 1)

Cuando hablamos de un corrector humano hablamos de un profesional encargado de revisar material escrito por un autor con el fin de asegurar que el lector reciba el mensaje con claridad y sin errores.

Teóricamente, durante el proceso de edición deberían atenderse, como fases sucesivas e independientes, revisiones textuales de diversa índole, a saber: la corrección ortotipográfica, la corrección de estilo, la corrección de concepto y, si se trata de una traducción, también la revisión de la traducción. En toda editorial que se precie, esto se sabe, pero solo en algunas se asume. La realidad es que en muy pocas ocasiones la casa editora encarga convenientemente cada tipo de revisión a un profesional especializado. Lo habitual es que “el corrector del texto equis” sea “corrector por triplicado” y él, y solo él, se convierta en el demiurgo mediador entre las ideas y lo legible que se encargue de la ingente tarea que deberían haber realizado tres o cuatro especialistas. La retribución por ello: unos setenta y dos céntimos de euro por cada millar de matrices (o caracteres, incluyendo espacios) para primeras pruebas en pantalla, y alrededor de cincuenta y cinco céntimos si son galeradas, esto es, segundas pruebas en papel. A fin de cuentas, cinco o seis euros la hora (en los casos más productivos).

Por tanto, sí parece interesante que estos demiurgos de la edición contemplen cualquier opción que pudiera ayudarles a aumentar su productividad, salvaguardando la calidad de su trabajo.

¿Qué pueden aportar las tecnologías de verificación automática de texto durante el proceso de corrección editorial?

Asumiendo el desprecio que tradicionalmente han venido demostrando filólogos y otros profesionales de la lengua por todo lo que suene a “corrección automática”, hemos de advertir de lo injusto de la opinión cuando se trata de prejuzgar una aplicación de última generación. Por suerte para los amantes del lenguaje, las nuevas tecnologías de Procesamiento del Lenguaje Natural han permitido que actualmente existan correctores capaces de verificar, con gran cobertura y precisión lingüísticas, tanto la adecuación de un escrito a la norma ortográfica y gramatical, como (en función de los niveles de procesamiento que incluya la aplicación) la revisión de no pocos aspectos ortotipográficos y de estilo. Por otro lado, la mayoría de estas aplicaciones ofrecen la opción de no reescribir automáticamente el texto para delegar en el usuario la decisión sobre la conveniencia o no de las propuestas que ofrece el asistente.

¿Qué cuestiones alcanza a atender hoy en día la corrección automática?

  • En revisión ortográfica y ortotipográfica: una buena base léxica asegurará una alta cobertura ortográfica. Esto evitará en gran medida los falsos avisos sobre palabras que existan (aunque sean poco utilizadas) e incluso verificar la manera correcta de escribir nombres propios nacionales o extranjeros (ej.: topónimos, antropónimos, instituciones, nombres comerciales, etc.). Cabe mencionar además que muchas de estas herramientas incluyen un diccionario personal editable mediante el cual podemos sumar a la base léxica las voces que a priori el corrector no reconoce. Por otro lado, gracias a la cada vez mejor sensibilidad contextual de estas nuevas aplicaciones, son capaces de detectar errores relacionados con pares homófonos y diacríticos. En cuanto otro tipo de aspectos de orden ortotipográfico, un verificador automático hoy en día puede indicar la conveniencia de cursivas (ej.: sobre voces extranjeras), cotejar la apertura y cierre de pares de signos (comillas, paréntesis, corchetes, etc.), avisar sobre secuencias no permitidas de signos de puntuación, verificar ciertos usos de mayúsculas y minúsculas, revisar el espaciado (dobles espacios, exigencia de espacio o adyacencia entre signos ortográficos y palabras), etc.
  • En revisión gramatical: gracias al aumento de su capacidad desambiguadora, los correctores de última generación son capaces de detectar gran cantidad de errores de concordancia a distinto nivel oracional, además de otro tipo de violaciones de índole sintáctica como puedan ser la incompatibilidad entre tiempos verbales, la no obediencia de recciones (o exigencias) preposicionales, etc.
  • En revisión de estilo: sugerirán recomendaciones de uso para expresiones o variantes ortográficas menos preferidas, avisarán ante posibles impropiedades léxicas, registros demasiado coloquiales, propondrán alternativas a extranjerismos y voces extranjeras, reaccionarán frente a fenómenos que puedan complicar la lectura (uso abusivo de preposiciones, repetición de palabras, frases demasiado largas, redundancias, uso injustificado de tecnicismos, etc.).
  • En revisión de traducción: por ejemplo, la detección de calcos morfosintácticos entre lengua de origen y lengua meta, el aviso sobre adaptaciones gráficas incorrectas de voces extranjeras, advertencia sobre posibles falsos amigos, etc.

Pruebe nuestro corrector STILUS

¿Qué le queda al corrector humano?

Descúbralo en la segunda parte.

Jornadas MAVIR 2011: Crisis y oportunidades, universidad y empresa, tecnología y lenguaje

21 noviembre, 2011 Deja un comentario

Acaban de celebrarse las jornadas que anualmente convoca el Consorcio MAVIR, una red de investigadores con la que Daedalus colabora. MAVIR está formada por grupos de la Comunidad de Madrid vinculados a la universidad y la investigación. El objetivo común es desarrollar técnicas avanzadas para mejorar el acceso inteligente a la información. Dentro de este ámbito, las tecnologías del lenguaje o la Web Semántica tienen un papel protagonista, por lo que Daedalus aporta a MAVIR conocimiento y experiencia.

Este año las Jornadas han abordado temas de indiscutible actualidad, como el análisis de redes sociales, o la compresión de textos con técnicas de semántica computacional. También tuvo lugar una mesa redonda en la que participaron empresas afines (Daedalus entre ellas), y en la que se habló sobre el presente y el futuro del sector en el contexto de la crisis económica y la incesante explosión de la información en la web.

Estos dos últimos conceptos (la crisis, la web) considerados en conjunto reflejan una cierta paradoja. Se hace difícil concebir la crisis en el contexto de la web, un medio de información cuyo éxito lleva mucho tiempo disparado. Esta mesa redonda, así como las distintas charlas, arrojaron paradojas similares que tienen que ver con la naturaleza sui géneris del territorio en que nos movemos. Veamos algunas de ellas.

¿Queda alguna puerta a la que todavía no haya llamado la crisis? Las empresas y la Administración quieren ahorrar en todo, lo que supone cerrar los ojos al emprendimiento y la apuesta por tecnologías nuevas como las que se desarrollan en MAVIR. ¿No es lógico que los hospitales, por poner un ejemplo, incorporen aplicaciones de Web Semántica para organizar la enorme cantidad de datos que manejan diariamente, o que los médicos quieran acceder al conocimiento que se produce en centros sanitarios fuera de nuestras fronteras? La respuesta, evidente, conduce a otra pregunta: ¿saben en los hospitales qué es la Web Semántica o por qué es útil? Una de las conclusiones de la mesa redonda es que las tecnologías que manejamos no terminan de ser conocidas entre quienes más se pueden beneficiar de ellas. Resulta paradójico que estemos en la sociedad de la información (¿qué compañía, organización o persona no almacena digitalmente o comparte en la red la información textual o multimedia de la que dispone?), y las tecnologías de acceso a la información sigan siendo inéditas para tantos miembros de esta nueva sociedad que proclamamos. Estas tecnologías suponen un salto cualitativo de la información al conocimiento. Un reto que debemos enfrentar en estos tiempos consiste precisamente en saber explicar lo que hacemos, y generar conciencia sobre la diferencia entre información y conocimiento.

Hay otra cuestión relacionada que también se abordó en la mesa. A través de la red MAVIR, Dadedalus se vincula a grupos universitarios de investigación. ¿Cómo beneficia a estas compañías mantener un enlace universitario? Las Tecnologías de Acceso a la Información avanzan, en buena parte, gracias a iniciativas de investigación universitaria. Por tanto, en el desarrollo de estas tecnologías no se puede perder de vista lo que se hace en la universidad. Sin embargo, los ritmos de trabajo de la universidad y los centros de investigación suelen ser muy distintos a los que lleva una empresa. Los investigadores deben llegar a otros investigadores, generando publicaciones especializadas, asistiendo a foros de especialistas, etc. Las empresas, por el contrario, deben llegar a sus clientes. Este antagonismo tradicional está relacionado con la anterior paradoja: es difícil explicarle al público lo que hacemos, si los que prioritariamente investigan y desarrollan iniciativas en nuestro campo se mueven en círculos cerrados como son los congresos, o los artículos científicos.

Por último, hay otro aspecto que subraya la condición de sui géneris de las Tecnologías de Acceso a la Información. En la red MAVIR coinciden una variedad de perfiles con orígenes muy distintos: ingenieros, científicos, técnicos, documentalistas o lingüistas. El motivo es que nuestras tecnologías no pueden apoyarse únicamente en saberes técnicos. La Ciencias de la Documentación abordan la organización del conocimiento, y la Lingüística el acceso al conocimiento mediante el léxico o la gramática. Ontología, léxico y gramática son conceptos muy recurrentes en las Tecnologías de Acceso a la Información, y que también los ingenieros han hecho suyos.

Al respecto, cabe preguntarse hasta qué punto nuestro campo de trabajo es auténticamente interdisciplinar. El conocimiento lingüístico es útil y necesario en el desarrollo de sistemas de búsquedas inteligentes, capaces de comprender textos y palabras a varios niveles. Sin embargo, actualmente, hay una división muy marcada entre las diferentes ramas de las que pueden nutrirse estas tecnologías. La lingüística convencional, por ejemplo, está realmente lejos de ámbitos como este en los que puede resultar muy útil.

Iniciativas como las jornadas de MAVIR buscan reunir a profesionales con estos diferentes perfiles, lo que implica llevar decididamente las Tecnologías de Acceso a la Información a un terreno interdisciplinar. Creemos que estas jornadas igualmente cumplen el objetivo de salvar las distancias entre el mundo universitario y el ámbito empresarial. También deben servir para arrojar algo de luz sobre la primera paradoja a la que nos referíamos: se hace necesario difundir y explicar lo que hacemos (tanto desde la universidad como la empresa) en el actual contexto de superproducción y caos informativo.

Otra cuestión es si realmente, fuera de este marco ideal representado por estas jornadas, hay un verdadero acercamiento entre la tecnología y el usuario, la universidad y la empresa, o entre los diferentes profesionales que hacen avanzar nuestro sector…

Juan Fernández Fernández

Investigador UPM.


Categorías:Eventos, Innovación

¿Qué vamos a hacer con tantas APIs?

Sólo en ProgrammableWeb hay más de 4000 APIs. Según datos de esta web la evolución del número de APIs publicadas en 2011 doblará a las desarrolladas durante el año anterior. Esto ha hecho proliferar el número de soluciones de integración que prometen facilitar la combinación de varias de estas interfaces. La mayoría de esas APIs son de tipo REST (RESTful) o, al menos, algo parecido y, precisamente, ese es uno de los tipos más utilizados en el campo del análisis de medios sociales. El problema es que no existe un estándar específico que permita gestionar de manera uniforme las múltiples APIs disponibles. Por ejemplo, sólo en el entorno de las interfaces relacionadas con el lenguaje natural es fácil encontrar decenas de opciones diferentes (si el idioma que interesa es el inglés, claro, si nos centramos en el español, el número se reduce considerablemente) pero, ¿cuál es el coste de integración de esta API en una aplicación?, ¿qué sucede si esa API desaparece o si queremos sustituirla por otra? Sólo por mencionar algunos ejemplos de software que trata de cubrir estas necesidades de integración cabe mencionar Apache CFX, una plataforma open source para el desarrollo de interfaces de programación en lenguajes como SOAP, XML/HTTP, RESTful HTTP o CORBA. En el artículo “How REST replaced SOAP on the Web: What it means to you”, se menciona Mule iON, otra plataforma pensada para esa función de intermediación que pretende eliminar la necesidad de desarrollar conectores punto a punto entre cada dos APIs que se desee comunicar. En ese mismo artículo aparece, además, una discusión interesante en torno a la pregunta: ¿una plataforma de esas características soluciona realmente ese problema de integración?

En mi opinión, es claro que no lo resuelve pero al menos ayuda bastante. Si los desarrolladores de esas plataformas se encargan de proporcionar conectores para las APIs más comunes, ahorrarán ese trabajo al resto. Evidentemente, si la plataforma de integración que se elija deja de mantenerse o desaparece, habrá que rehacer gran parte del trabajo, pero éste no es un problema nuevo en el proceso de desarrollo de software.
Por otra parte, la clave de la integración reside en la semántica de las operaciones que se utilizan, eso es lo que debería estandarizarse, pero esa semántica depende del dominio. No sería descabellado: en el caso de la comprobación de identidad para acceder a las APIs ya ha sucedido, el protocolo abierto OAuth es el utilizado por la mayoría de las APIs más demandadas.

¿Conoces algún estándar de esas características para el dominio del Procesamiento de Lenguaje Natural? ¿Crees posible definir un estándar de esas características? Cuéntanos cuál es tu experiencia.

¿Es posible el análisis de sentimiento sin información semántica?

NO. Saber cuándo aparece una palabra en un tweet o en una entrada de un blog no es suficiente para saber si se habla bien o mal de algo o de alguien. Aunque sea el nombre de una empresa o un adjetivo o cualquier otra categoría gramatical. Existen muchas herramientas y plataformas, disponibles tanto en modo servicio como producto instalado en cliente, que incluyen funcionalidades relacionadas con el análisis de opinión y de sentimientos y la mayoría de ellos se centran en contar apariciones de nombres de empresas, marcas y de determinados adjetivos, mediante mecanismos más o menos complejos. Pero, ¿basta con saber que nuestra marca se menciona x veces en determinados sitios web? ¿es suficiente que aparezca junto a las palabras bueno o inútil para decir que se está hablando bien o mal de la marca? No. Es necesario ir más allá, hay que identificar opiniones sobre atributos de entidades. Por ejemplo:

El iPhone me gusta pero su teclado es incómodo

Cualquier sistema de los que hay ahora mismo en el mercado diría, casi con toda seguridad, que en esta frase se expresa una opinión neutra sobre iPhone. Aparecen las palabras ‘gusta’ e ‘incómodo’, así que la opinión final sería neutra y, como aparece iPhone, se dirá que es una opinión neutra sobre ese teléfono. En cambio, esa frase está diciendo es que el móvil en general está bien pero que su teclado no gusta o parece que puede dificultar el uso del dispositivo. Ese análisis de sentimiento puede obtenerse manualmente mediante crowdsourcing, pero a un coste elevado. En cambio, para interpretar automáticamente expresiones como esta es necesario disponer de tecnología de Procesamiento de Lenguaje Natural que analice la frase en profundidad obteniendo, por ejemplo, árboles sintácticos similares al que se muestra a continuación.

Árbol Sintáctico para la frase 'El iPhone me gusta pero su teclado es incómodo'

Vemos que no sólo se tiene información sobre cada término de la frase si no que se contemplan relaciones semánticas como que ‘su’ es una anáfora de ‘iPhone’ y que, por tanto, se está hablando del ‘teclado’ de un iPhone, al que está asociado el adjetivo ‘incómodo’. La identificación de las funciones sintácticas que los sintagmas juegan en las frases (sujeto, objeto directo, objeto indirecto, complementos, etc.) permite enlazar con el contenido semántico, mostrando quién sufre una acción, quién la realiza, etc. Así, con este análisis lingüístico no sólo es posible saber si un adjetivo aplica a un determinado sintagma nominal, determinando así el sentimiento que se expresa sobre algo ( ‘La serie de TV X es aburrida’), sino que pueden identificarse relaciones, hechos y/o eventos. Por ejemplo, será posible interpretar automáticamente si ‘Pedro Pérez es el Director General de la Empresa A’.

Contra este enfoque se puede argumentar preguntando ¿qué sucede si el texto no es lingüísticamente correcto, si hay errores ortográficos o las frases no están bien construidas? Esto es algo que sucede con muchos mensajes de Twitter o Facebook, ¿qué se puede hacer con ellos? Utilizando tecnología de revisión ortográfica y gramatical automática de textos es posible encontrar términos alternativos más probables para las palabras con error que permitan reconstruir la frase y acabar extrayendo su significado.
Tampoco hay que olvidar el aspecto multilingüe del problema, si la marca bajo estudio tiene un ámbito internacional, habrá comentarios sobre ella en redes sociales en diversos idiomas. Este es el principal inconveniente de las herramientas disponibles hoy día para análisis de sentimientos, trabajan muy bien en inglés pero ¿y en español? ¿Tienen en cuenta giros propios del castellano, por ejemplo, dirían que la frase ‘Ese móvil es una castaña’ expresa una opinión negativa? Este es un factor importante a tener en cuenta a la hora de tener en cuenta los números que ofrece una herramienta de análisis de opinión para una futura campaña de marketing o cualquier otra decisión estratégica.

Cuéntanos cuál es tu experiencia con este tipo de herramientas, ¿Consideras fiables los resultados que te ofrecen? ¿Has detectado situaciones en las que te han fallado? ¿Qué más les pedirías?

[¿Quieres saber cómo las tecnologías Semánticas y de Procesamiento del Lenguaje permiten analizar y explotar opiniones, ideas… y otros contenidos generados por los usuarios? Visita el sitio web de Daedalus y descubre cómo estamos ayudando a las empresas de seguimiento y análisis de medios, tanto tradicionales como sociales.]

Categorías:Medios sociales Etiquetas:
Seguir

Get every new post delivered to your Inbox.

Únete a otros 112 seguidores