Archivo
Las tecnologías de la lengua y el futuro del sector de los contenidos
Hace unos días tuve oportunidad de participar como ponente en una jornada organizada por LT-Innovate (Foro de la industria europea en Tecnologías de la Lengua) orientada al sector editorial y de los medios de comunicación. Esta iniciativa forma parte de los “focus groups” que LT-Innovate está organizando para dinamizar y expandir la actividad de las empresas proveedoras de productos y servicios basados en las tecnologías del lenguaje (procesamiento inteligente de contenidos, tecnologías del habla y traducción automática). A este foro asistieron representantes de una treintena de empresas europeas, tanto clientes como proveedores.
En mi intervención resalté la trasformación que está sufriendo el sector como consecuencia de una crisis que tiene múltiples facetas: los cambios en el modo en que los usuarios consumen contenidos, el abandono de los soportes tradicionales y su desplazamiento rápido al entorno de internet, la abundancia de contenidos gratuitos, con un ingente volumen producido y publicado directa e instantáneamente por los usuarios, el descenso de los ingresos publicitarios… Un escenario que está causando la quiebra de modelos de negocio hasta hace poco exitosos, y la aparición de otros llenos de incógnitas.
Hasta hace no mucho, las soluciones basadas en tecnologías del lenguaje ocupaban lugares marginales en los gestores de contenidos o quedaban relegados a aplicaciones aisladas de los entornos de producción. Sin embargo, la progresiva digitalización y crecimiento del canal de internet para el consumo de contenidos, las presiones por reducir costes y tiempos, la integración de las redacciones de los medios con independencia de los soportes, etc. han hecho crecer progresivamente las necesidades de nuestros clientes. Así, poco a poco, a lo largo de quince años, en Daedalus hemos ido cubriendo esas necesidades, aumentando nuestro catálogo de soluciones, entre las que se encuentran las siguientes:
- Corrección ortográfica, gramatical y de estilo, orientada a un entorno profesional, que requiere de rigor y homogeneidad de criterio.
- Publicación semántica, incluyendo la identificación automática de entidades (personas, organizaciones, lugares, instalaciones, conceptos, referencias temporales o monetarias…) y conceptos relevantes, la clasificación o agrupamiento de textos conforme a estándares periodísticos o documentales.
- Moderación o filtrado automático de foros y la corrección al vuelo de contenidos generados por usuarios.
- Indexación y búsqueda de contenidos multilingües y multimedia.
- Interfaces de búsqueda aproximada y en lenguaje natural.
- Búsqueda sobre contenidos multilingües, incorporando sistemas de traducción automática.
- Transcripción de contenidos multimedia y subtitulado automático de vídeo.
- Análisis automático de opiniones, sentimientos y reputación en medios sociales.
Todas estas aplicaciones tienen uso en procesos cada vez más diversos en la industria de los contenidos:
- Entrega de contenidos y publicidad contextual adaptados a perfiles de intereses de usuarios.
- Producción de contenidos transmedia (distribución simultánea, complementaria y sincronizada a través de múltiples soportes: TV, internet, tabletas, móviles inteligentes).
- Soporte a funciones de documentación y de periodismo de datos, a partir del análisis y exploración avanzado de fuentes de información heterogéneas.
- Soporte para funciones de posicionamiento en buscadores y marketing online.
- Soporte para nuevos modelos de negocio, basados en la venta de piezas individuales de contenidos o de historias construidas por agregación de contenidos producidos a lo largo del tiempo sobre un tema, un evento, un personaje, etc.
Como vemos, las tecnologías del lenguaje han pasado de la marginalidad a desempeñar un papel ubicuo y central en todas las áreas de esta industria. En Daedalus nos sentimos orgullosos de acompañar en este proceso desde hace años a un buen número de empresas y grupos del sector, con los que nos sentimos estrechamente comprometidos.
Le invitamos a que acceda a nuestra presentación en el Foro del sector editorial/media de LT-Innovate (Berlín, 12 de abril de 2013).
José Carlos González
@jc_gonzalez
@jgonzalez_es
Jornadas MAVIR 2011: Crisis y oportunidades, universidad y empresa, tecnología y lenguaje
Acaban de celebrarse las jornadas que anualmente convoca el Consorcio MAVIR, una red de investigadores con la que Daedalus colabora. MAVIR está formada por grupos de la Comunidad de Madrid vinculados a la universidad y la investigación. El objetivo común es desarrollar técnicas avanzadas para mejorar el acceso inteligente a la información. Dentro de este ámbito, las tecnologías del lenguaje o la Web Semántica tienen un papel protagonista, por lo que Daedalus aporta a MAVIR conocimiento y experiencia.
Este año las Jornadas han abordado temas de indiscutible actualidad, como el análisis de redes sociales, o la compresión de textos con técnicas de semántica computacional. También tuvo lugar una mesa redonda en la que participaron empresas afines (Daedalus entre ellas), y en la que se habló sobre el presente y el futuro del sector en el contexto de la crisis económica y la incesante explosión de la información en la web.
Estos dos últimos conceptos (la crisis, la web) considerados en conjunto reflejan una cierta paradoja. Se hace difícil concebir la crisis en el contexto de la web, un medio de información cuyo éxito lleva mucho tiempo disparado. Esta mesa redonda, así como las distintas charlas, arrojaron paradojas similares que tienen que ver con la naturaleza sui géneris del territorio en que nos movemos. Veamos algunas de ellas.
¿Queda alguna puerta a la que todavía no haya llamado la crisis? Las empresas y la Administración quieren ahorrar en todo, lo que supone cerrar los ojos al emprendimiento y la apuesta por tecnologías nuevas como las que se desarrollan en MAVIR. ¿No es lógico que los hospitales, por poner un ejemplo, incorporen aplicaciones de Web Semántica para organizar la enorme cantidad de datos que manejan diariamente, o que los médicos quieran acceder al conocimiento que se produce en centros sanitarios fuera de nuestras fronteras? La respuesta, evidente, conduce a otra pregunta: ¿saben en los hospitales qué es la Web Semántica o por qué es útil? Una de las conclusiones de la mesa redonda es que las tecnologías que manejamos no terminan de ser conocidas entre quienes más se pueden beneficiar de ellas. Resulta paradójico que estemos en la sociedad de la información (¿qué compañía, organización o persona no almacena digitalmente o comparte en la red la información textual o multimedia de la que dispone?), y las tecnologías de acceso a la información sigan siendo inéditas para tantos miembros de esta nueva sociedad que proclamamos. Estas tecnologías suponen un salto cualitativo de la información al conocimiento. Un reto que debemos enfrentar en estos tiempos consiste precisamente en saber explicar lo que hacemos, y generar conciencia sobre la diferencia entre información y conocimiento.
Hay otra cuestión relacionada que también se abordó en la mesa. A través de la red MAVIR, Dadedalus se vincula a grupos universitarios de investigación. ¿Cómo beneficia a estas compañías mantener un enlace universitario? Las Tecnologías de Acceso a la Información avanzan, en buena parte, gracias a iniciativas de investigación universitaria. Por tanto, en el desarrollo de estas tecnologías no se puede perder de vista lo que se hace en la universidad. Sin embargo, los ritmos de trabajo de la universidad y los centros de investigación suelen ser muy distintos a los que lleva una empresa. Los investigadores deben llegar a otros investigadores, generando publicaciones especializadas, asistiendo a foros de especialistas, etc. Las empresas, por el contrario, deben llegar a sus clientes. Este antagonismo tradicional está relacionado con la anterior paradoja: es difícil explicarle al público lo que hacemos, si los que prioritariamente investigan y desarrollan iniciativas en nuestro campo se mueven en círculos cerrados como son los congresos, o los artículos científicos.
Por último, hay otro aspecto que subraya la condición de sui géneris de las Tecnologías de Acceso a la Información. En la red MAVIR coinciden una variedad de perfiles con orígenes muy distintos: ingenieros, científicos, técnicos, documentalistas o lingüistas. El motivo es que nuestras tecnologías no pueden apoyarse únicamente en saberes técnicos. La Ciencias de la Documentación abordan la organización del conocimiento, y la Lingüística el acceso al conocimiento mediante el léxico o la gramática. Ontología, léxico y gramática son conceptos muy recurrentes en las Tecnologías de Acceso a la Información, y que también los ingenieros han hecho suyos.
Al respecto, cabe preguntarse hasta qué punto nuestro campo de trabajo es auténticamente interdisciplinar. El conocimiento lingüístico es útil y necesario en el desarrollo de sistemas de búsquedas inteligentes, capaces de comprender textos y palabras a varios niveles. Sin embargo, actualmente, hay una división muy marcada entre las diferentes ramas de las que pueden nutrirse estas tecnologías. La lingüística convencional, por ejemplo, está realmente lejos de ámbitos como este en los que puede resultar muy útil.
Iniciativas como las jornadas de MAVIR buscan reunir a profesionales con estos diferentes perfiles, lo que implica llevar decididamente las Tecnologías de Acceso a la Información a un terreno interdisciplinar. Creemos que estas jornadas igualmente cumplen el objetivo de salvar las distancias entre el mundo universitario y el ámbito empresarial. También deben servir para arrojar algo de luz sobre la primera paradoja a la que nos referíamos: se hace necesario difundir y explicar lo que hacemos (tanto desde la universidad como la empresa) en el actual contexto de superproducción y caos informativo.
Otra cuestión es si realmente, fuera de este marco ideal representado por estas jornadas, hay un verdadero acercamiento entre la tecnología y el usuario, la universidad y la empresa, o entre los diferentes profesionales que hacen avanzar nuestro sector…
Juan Fernández Fernández
Investigador UPM.
“Eppur si muove”
“Y sin embargo, se mueve“, dijo Galileo Galilei refiriéndose a la tierra, después de verse forzado a retractarse de la teoría heliocéntrica del mundo ante el tribunal de la Santa Inquisición. Desde entonces, esta frase simboliza la rebeldía de la ciencia (o la ingeniería) ante las convenciones comunes, la tradición o la autoridad establecida.
Precisamente en la Universidad de Padua (Italia), en el aula magna donde Galileo impartió clase de geometría y astronomía durante casi 20 años, tuvo lugar la semana pasada la XI edición del Cross Language Evaluation Forum (CLEF), con la participación destacada de Daedalus.
CLEF es el foro europeo más importante para la evaluación de sistemas de recuperación multilingüe y multimedia, que rivaliza a nivel mundial con TREC (Text Retrieval Conference) en Norteamérica y NTCIR (NII Test Collection for IR Systems) en Asia. A diferencia de TREC, que se centra en las técnicas de recuperación de información sobre el idioma inglés, y de NTCIR, centrado en los idiomas asiáticos como el japonés, chino y coreano, el objetivo de CLEF es la investigación en un gran número de idiomas (europeos y no europeos) y en las técnicas de recuperación cross-lingual, es decir, cuando el idioma de la consulta es diferente del de la colección de documentos en la que se busca. El objetivo final es promover y estimular el desarrollo de las tecnologías de recuperación de información en Europa para garantizar su competitividad en un ámbito mundial.
CLEF 2010 ha estado dividido en diferentes áreas temáticas (labs) que investigan diversos aspectos de la recuperación de información multilingüe: búsqueda de patentes (CLEF-IP), búsqueda de información de personas en la web (Web People Search), la recuperación de imágenes (ImageCLEF), análisis de log (LogCLEF), los sistemas de búsqueda de respuestas (RespubliQA), detección de plagio (PAN), etc.
En concreto, en Daedalus enviamos cuatro contribuciones:
- ImageCLEF Wikipedia Retrieval: “Expanding with Semantic Information from Context“, donde analizamos el impacto en los resultados de búsqueda al incorporar información semántica, expandiendo las descripciones de las imágenes mediante términos relacionados en las ontologías DBpedia y YAGO.
- LogCLEF: “Analyzing the Success of Search Queries“, donde realizamos diferentes experimentos para estudiar si hay alguna diferencia en el éxito de las consultas a “The European Library” (es decir, si el usuario encuentra lo que está buscando) cuando se utiliza el idioma nativo para buscar o bien se consulta empleando un idioma diferente. Indirectamente planteamos un análisis de si realmente es mejor para el usuario consultar en un idioma que no domina o bien sería preferible proporcionarle un traductor de consultas y resultados, a pesar de la ambigüedad que podría introducir.
- PAN: “A Plagiarism Detector for Intrinsic Plagiarism“, donde describimos el diseño, implementación y evaluación de un sistema de detección de plagio intrínseco, externo y en Internet, de textos en lenguaje natural, basado en calcular la distancia LempelZiv (relacionada con el grado de compresión de un texto) aplicada a extraer información estructural de un texto.
- WebPS-3: “k-Medoids Clustering using a Cost Function Minimization“, donde definimos y evaluamos una función de coste para obtener el valor del número óptimo de clusters con el que ejecutar el algoritmo clásico de clustering llamado k-Medoids (similar a k-Means) con el que agrupar páginas web relacionadas con una misma persona, obtenidas como resultado de una búsqueda en Internet.
Además, participamos en la sesión de pósters de LogCLEF y PAN.
Sobre todo, nuestras presentaciones en las sesiones de WebPS y LogCLEF suscitaron bastante interés y estuvimos discutiendo animadamente con grupos de diferentes países sobre los resultados obtenidos y las soluciones aportadas. En general, creo que el hecho de que Daedalus sea una empresa privada, a diferencia de nuestros colegas de la universidad, nos da en muchos casos una visión más global y pragmática sobre lo que necesita la sociedad en el campo de la gestión inteligente de la información, muy atractiva para ellos. En realidad el objetivo de la participación de Daedalus en actividades de I+D+i no es sino para intentar resolver cuestiones actualmente planteadas en nuestros clientes o anticipar soluciones de futuro.
Un motivo de satisfacción fue saludar personalmente a Satoshi Sekine, moderador de la sesión de WebPS, que es el autor de la Extended Named Entity Hierarchy, una jerarquía de Entidades con Nombre mundialmente utilizada y que concretamente nosotros usamos para etiquetar semánticamente todos nuestros recursos lingüísticos (pruébalo), empleado en soluciones para nuestros clientes como el corrector de STILUS empleado en EL PAÍS, El Mundo, Grupo SM, etc. o la herramienta de etiquetado de entidades.
Al margen del trabajo, hicimos algo de turismo en esa bonita ciudad, disfrutamos de la comida y del café italianos, y pasamos buenos momentos, especialmente con nuestros amigos de la Universidad de Jaén, de Alicante, la Carlos III y la UNED. Los españoles en general hacemos una piña cuando viajamos y esto te hace sentir un poco más como en casa.
Pero no es nada fácil esto de ser innovadores… muchas veces es una inversión de esfuerzo que no se ve directamente recompensada, bien porque la tecnología está demasiado adelantada para su tiempo, por falta de confianza en algo diferente de lo habitual, o a veces por falta de visión de futuro. Pero en Daedalus seguimos trabajando en investigar, descubrir, evaluar, innovar… en foros como CLEF u otros, con la esperanza de fomentar la transferencia de tecnología y lograr avances reales en la sociedad de la información, y poder decir algún día a los escépticos, como Galileo, “y sin embargo, se mueve”.
Daedalus participa en la conferencia User Centric Media 2010
User Centric Media es una conferencia centrada en el estudio, desde todos los ámbitos (científico, artístico, tecnológico y de negocio), de contenidos multimedia y su distribución a través de la Internet del Futuro. Es interesante destacar las charlas invitadas. En la primera de ellas Leonardo Chiarigione habló, entre otras cosas, sobre los cambios que sufre el concepto de usuario. El usuario ya no es un mero espectador, sino que también genera contenidos, por lo que debe disponer de procedimientos que le permitan tener el control sobre los contenidos que crea. Ese control alcanza también a los derechos de autor. Por ejemplo, ¿y si pudieras ganar dinero con los vídeos que cuelgas en la red? Ya es posible hacerlo con YouTube pero, ¿no estaría bien que el autor tuviese más capacidad de negociación? Ahora hay que aceptar las condiciones de Google …Puedes encontrar más información sobre las iniciativas que describió Mr. Chiarigione en http://www.dmpf.org/
Cubriendo otro de los aspectos importantes de la Internet del Futuro, Theodore Zahariadis describió el estado actual de las arquitecturas que soportan la red y algunas de las alternativas existentes para su extensión, procurando conservar su sencillez y escalabilidad.
En este marco, Daedalus presentó un trabajo sobre la combinación de diferentes formatos (texto, audio, vídeo, imagen) en los motores de búsqueda, tanto en la consulta como en los contenidos a localizar. ¿Imaginas poder combinar una foto con un texto o con un vídeo para describir lo que estás buscando? Ese es uno de los objetivos que Daedalus ayuda a lograr en el proyecto Buscamedia. Un paso más allá de la búsqueda semántica que puede parecer ciencia ficción pero está más cerca de lo que imaginas.
Documentalistas: redefiniendo la profesión
I Jornadas de Lenguajes y Gestión de Información
El pasado 17 de junio se celebró esta jornada, organizada por SEDIC (Asociación Española de Documentación e Información) y por el Instituto Cervantes, con el copatrocinio de Daedalus. El evento estaba diseñado para resaltar el papel del análisis del lenguaje como elemento vertebrador de todos los procesos asociados a la gestión y a la búsqueda de información.
El salón de actos del Cervantes se quedó pequeño para acoger a los interesados, debiéndose cerrar la inscripción días antes del evento. Del espíritu del acto, de las preguntas de los asistentes y de la fecunda interacción durante las pausas, destacaría la sensación generalizada de que la profesión del documentalista (¿y cuál no?) está sufriendo un proceso acelerado de cambio. El cambio viene impuesto por las nuevas tecnologías, por la globalización de la economía y por la necesidad de incrementar la productividad de las organizaciones mediante la automatización de procesos.
Un buen ejemplo de esto lo constituyó la ponencia de Jorge Martín-Luengo. Siempre me ha llamado la atención el cargo que ostenta en lainformacion.com: Director de Factoría. Chocante para una empresa periodística, ¿verdad? Y es que lainformacion.com, además de producir información periodística propia (y libre de ataduras), funciona como un agregador de contenidos, alimentándose de 20.000 noticias al día procedentes de agencias, otros medios y blogs especializados. Casi 15 noticias por minuto (a fecha de hoy). ¿Cómo organizar ese volumen de información y hacerla accesible a sus lectores? Imposible abordar esa tarea manualmente. Durante años, los departamentos de Documentación de los medios tradicionales se ocupaban de estas labores, pero la crisis los está reduciendo a mínimos…
En lainformacion.com siempre se apostó por automatizar el etiquetado, la clasificación y el agrupamiento de las noticias. Y así, son nuestros especialistas en Daedalus (una productiva mezcla de documentalistas, lingüistas e ingenieros) los que desarrollan y afinan día a día la “Factoría” para automatizar estas tareas con un espíritu de mejora continuada de la calidad. A pesar de su juventud en el panorama de los medios, lainformacion.com (un medio exclusivamente on line) aumenta de manera consistente su tráfico. Merece la pena que sigáis su trayectoria.
Como todas las crisis, la que afecta al subsector de la Documentación, traslada el empleo de sitio; nuevas funciones, nuevos conocimientos, nuevas herramientas: nuevos perfiles profesionales.
Encontrarás un resumen de la Jornada en el blog de SEDIC. ¿Fuiste uno de los asistentes? ¿Te gustaría destacar alguna de las intervenciones?
José Carlos González













