Archivo

Archivo para la Categoría "Innovación"

La ciudad a pie de calle: el Sensor Ciudadano

19 noviembre, 2012 Dejar un comentario

El fin último de las decisiones municipales es el bienestar del ciudadano. Partiendo de esa base, los administradores toman medidas de distinta índole, siempre con el objetivo de aumentar la calidad de vida de los habitantes de su ciudad.

El problema viene cuando hay problemas que la Administración local desconoce, o cuando los problemas toman mayor dimensión de lo que los gestores están considerando. En estos casos, la opinión ciudadana es la clave para poder resolver estas situaciones de la mejor forma posible. Y para obtener esta opinión de forma transparente y sencilla podemos utilizar el Sensor Ciudadano.

Daedalus ve el Sensor Ciudadano como el registro de eventos en la relación del ciudadano con su municipio. Es una forma innovadora de capturar información heterogénea, de alto nivel, muy descriptiva y de gran valor añadido, sobre todo si se observa de forma agregada.

Los eventos generados pueden registrarse de distintas formas:

  • Utilizando el teléfono móvil del ciudadano como sensor. Para detectar contaminación acústica, por ejemplo, el usuario arranca una aplicación en su teléfono que registra el nivel de ruido y lo envía a un servidor. Este gesto, realizado por todos los usuarios, nos dará un mapa  de los focos de ruido más destacables de la ciudad, que evoluciona en el tiempo (obras por las mañanas, fiestas los fines de semana…). Este tipo de sensado, además, permite expandir la red con menor coste, y proporciona nuevas vías de investigación  con respecto al bienestar ciudadano.
  • Utilizando los registros del usuario interactuando con la ciudad. Estos eventos denotan tendencias ciudadanas. Por ejemplo, el usuario pica el billete de tren para dirigirse a su trabajo. Esto, agregado a los eventos generados por el resto de usuarios que usen el tren, nos dará una idea de la densidad de viajeros que usan el tren para ir al trabajo cada mañana y qué trayecto hacen.
  • Utilizando las redes sociales. De esta forma, la información capturada es más compleja y rica que la capturada por otros sensores, y es necesario procesarla de forma especial para sacarle todo el partido posible. Este método de recolectar información se basa en la tecnología desarrollada por Daedalus para análisis de opinión y sentimiento en redes sociales, ya utilizada en otros productos como Sentimentalytics.
    • Con Twitter, se puede analizar el flujo de tuits en una zona determinada para saber de qué hablan los usuarios, y si es algo que consideramos relevante (un accidente de coche que provoca retenciones, un incendio, un festival de música…) podemos usar estos datos para elaborar un modelo (de ruido, de contaminación atmosférica, de flujo de tráfico…) con predicciones mucho más ajustadas.
    • También se pueden recopilar opiniones y sentimientos de los ciudadanos sobre su municipio, haciendo un seguimiento  en redes sociales con respecto a medidas específicas tomadas por la administración local (por ejemplo, la política de disminuir el consumo en climatización en transporte público).

En definitiva, el Sensor Ciudadano (desarrollado en el marco del Proyecto Ciudad2020 [1][2] y financiado por el CDTI) es una herramienta fundamental a la hora de ajustar las políticas municipales a la realidad del ciudadano, ya que proporciona una visión de la ciudad a pie de calle de forma transparente para los usuarios.

Y vosotros, ¿qué opináis? ¿Creéis que los ciudadanos participarían activamente utilizando su teléfono móvil como sensor? ¿Pensáis que la información en redes sociales sería útil para mejorar la calidad de vida en la ciudad?

Daedalus obtiene el mejor resultado en una comparativa internacional de tecnologías para análisis de medios sociales

Daedalus ha obtenido los mejores resultados en un taller internacional de evaluación competitiva de tecnologías para análisis de la reputación online celebrado en el marco de CLEF 2012.

Hace unas semanas tuvo lugar en Roma la edición 2012 de CLEF. El Conference and Labs of the Evaluation Forum (CLEF) es una iniciativa internacional que tiene por misión promover la investigación, la innovación y el desarrollo de sistemas de acceso a la información con énfasis en los contenidos multilingües, multiformato y no estructurados. Además de una conferencia, CLEF consiste en una serie de talleres en los que se muestran implantaciones novedosas y se realizan evaluaciones competitivas de este tipo de sistemas.

CLEF 2012

Este año CLEF ha incorporado por primera vez un taller de evaluación específico (RepLab) dedicado a los sistemas de gestión de la reputación online y Daedalus ha participado en él. El objetivo era comparar distintas tecnologías y soluciones para el análisis de la reputación a partir de información vertida en medios sociales, específicamente en Twitter.

El taller constaba de dos fases: la de entrenamiento de los sistemas (previa a la conferencia) y la fase de evaluación, en la que se entregaba a los participantes un corpus extraído de medios sociales que debían procesar automáticamente. Posteriormente se comparaban los resultados obtenidos por los distintos participantes.

Para el entrenamiento se suministró un corpus formado por tweets en español e inglés asociados a seis empresas diferentes. Para cada una de ellas se habían extraído 30000 tweets, utilizando el nombre de la empresa como criterio de búsqueda. Para la fase de evaluación el corpus de test se compiló utilizando la misma metodología y consistió en tweets relacionados con un total de 31 empresas de diversos sectores (banca, automoción, cosmética, comunicaciones…), diferentes a las utilizadas en el corpus de entrenamiento, y cada una de ellas representada por entre 19400 y 50000 tweets.

En este taller se plantearon dos escenarios de trabajo:

  • Perfilado (profiling): el análisis de reputación se está convirtiendo en un indicador de relevancia para el marketing y la gestión de las relaciones con los clientes. Los medios sociales constituyen en este sentido una fuente de información fundamental para las empresas ya que les permiten medir directamente el sentir de los clientes hacia sus marcas y productos. En este contexto se plantearon dos tareas: filtrado (filtering) y clasificación de la polaridad (polarity classification). La primera de ellas tenía como objetivo determinar si un tweet estaba o no relacionado con una determinada empresa y la segunda -supuesto que el tweet se encuentra relacionado con la empresa objeto de análisis- clasificar su polaridad, es decir, establecer si el contenido del tweet tiene connotaciones positivas o negativas sobre la reputación de la empresa.
  • Monitorización (monitoring): en un escenario real a la empresa le interesa medir el sentir general de sus clientes y/o competidores, no la opción individual de cada uno de ellos. Por tanto, el análisis de reputación debe ir orientado a la extracción de los temas más relevantes sobre los que opinan los ciudadanos y de los puntos fuertes (opiniones positivas) y puntos débiles (opiniones negativas) que manifiestan sobre ellos. En este escenario se planteó una tarea consistente en, dada una secuencia de tweets, generar agrupaciones atendiendo a su temática y dotar cada una de ellas de un indicador de relevancia atendiendo a su polaridad, novedad, impacto potencial, etc.

Daedalus participó en las tareas derivadas del escenario de perfilado para poner a prueba las diferentes tecnologías multilingües que sobre reconocimiento de entidades y análisis de sentimientos ha venido desarrollando la empresa en los últimos años.

Los resultados fueron inmejorables. En la tarea de filtrado, de un total de 33 experimentos evaluados los tres de Daedalus coparon las tres primeras posiciones. En la tarea de clasificación de polaridad, entre 38 experimentos evaluados el enviado por Daedalus quedó en primer lugar. Aquí podéis encontrar nuestra ponencia, explicando el enfoque que aplicamos y el artículo de los organizadores analizando los resultados obtenidos por los participantes. Sinceramente, algo de lo que creo que podemos sentirnos orgullosos.

Daedalus organiza el Taller de Análisis de Sentimientos en la SEPLN

12 noviembre, 2012 1 comentario

En varias entradas de este blog hemos puesto de manifiesto el interés creciente que despierta la aplicación de las tecnologías semánticas para el análisis de medios sociales y cómo Daedalus ha apostado por el desarrollo de herramientas lingüísticas orientadas a satisfacer esta demanda (por ejemplo, Sentimentalytics).

En este contexto, durante el presente año Daedalus ha participado en diversos talleres de evaluación de soluciones para el análisis de sentimiento (opinión y/o reputación) sobre textos cortos extraídos de medios sociales. Estos talleres, con una marcada componente competitiva, tienen como objetivo identificar las diferentes técnicas y estrategias empleadas por los participantes y comparar las prestaciones de los diversos sistemas mediante la aplicación de métricas de evaluación.

Daedalus participó en calidad de organizador -junto con la Universidad Politécnica de Madrid y la Universidad de Jaén- en el TASS (Taller de Análisis de Sentimientos de la SEPLN) . Se trata de una iniciativa de evaluación experimental en el marco de la SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural) para fomentar la investigación en el campo del análisis de sentimiento en los medios sociales, específicamente centrado en el idioma español.

El principal objetivo de este taller fue promover el diseño de nuevas técnicas y algoritmos y la aplicación de los ya existentes para realizar un análisis de reputación basado en opiniones a partir de textos cortos extraídos de medios sociales (concretamente Twitter).

Se compiló un corpus formado por 70000 tweets escritos en español, por cerca de doscientas personalidades de diferentes sectores de impacto (política, economía, medios de comunicación y cultura), entre noviembre del 2011 y marzo de 2012. Para la fase de entrenamiento se proporcionó un subconjunto del corpus (en torno a 7200 tweets) etiquetado. El etiquetado se realizó por medios semiautomáticos aplicando tecnología desarrollada por Daedalus.

El corpus se proporcionó en formato XML, conforme al esquema de la figura. El texto de cada uno de los tweets fue eliminado para satisfacer las restricciones impuestas por Twitter, proporcionándose el resto de metadatos.

XML Tweet

Para la cuantificación de la opinión, se establecieron seis grados de polaridad (muy positiva, positiva, neutra, negativa, muy negativa y sin opinión) y se definieron tres ámbitos de análisis: el documento, cada una de las entidades del documento y la temática.

En el taller se plantearon dos tareas:

  • Análisis de Sentimiento (Sentiment Analysis): aplicación de técnicas de procesamiento de lenguaje natural y análisis de texto orientadas a la identificación y extracción de información subjetiva existente en el texto y, en función de ellas, definición de la polaridad global del texto o de la polaridad asociada a cada una de las entidades identificadas en el mismo.
  • Análisis de tendencias (Trending Topic Coverage): aplicación de técnicas de clasificación textual para determinar las temáticas del texto y de técnicas de análisis de sentimientos para caracterizar la polaridad de cada una de ellas. Para esta tarea se definieron diez áreas temáticas presentes en el corpus (política, fútbol, literatura y entretenimiento entre otras).

En el taller se registraron un total de 15 grupos de los que únicamente 8 enviaron resultados. Todos ellos participaron en la primera de las tareas planteadas y 6 en la segunda.

La diversidad de los grupos participantes procedentes de diferentes áreas de conocimiento, tales como Recuperación de Información (Information Retrieval), Procesamiento de Lenguaje Natural/Lingüística Computacional, Máquinas de Aprendizaje/Minería de Datos/Análisis textual y Web Semántica, ha puesto de manifiesto que el Análisis de Sentimiento constituye un nicho de mercado emergente que está intentando ser abordado desde gran diversidad de enfoques tecnológicos.

En el contexto del XXVIII Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural – SEPLN 2012 celebrado los días 4, 5 y 7 de septiembre de 2012 en la Universidad Jaume I de Castellón de la Plana tuvo lugar un monográfico sobre el taller, en el que los diferentes grupos participantes, empresas y miembros de la comunidad investigadora compartieron sus experiencias, soluciones, inquietudes y expectativas.

[¿Quieres saber cómo las tecnologías Semánticas y de Procesamiento del Lenguaje permiten analizar y explotar opiniones, ideas… y otros contenidos generados por los usuarios? Visita el sitio web de Daedalus y descubre cómo estamos ayudando a las empresas de seguimiento y análisis de medios, tanto tradicionales como sociales.]

Hazte global, hazte multilingüe, hazlo con Flavius!

3 septiembre, 2012 Dejar un comentario

Cada día hay más información que se publica y comparte a través de internet, pero no siempre está disponible en la lengua que maneja un usuario. Aun contando con herramientas de traducción automática, el lenguaje sigue siendo la principal barrera ya que hay muchas personas que únicamente acceden a la información en su propio idioma. Hoy día existen opciones para acceder a contenidos en otros idiomas, sin embargo todos requieren el uso de escenarios y configuraciones particulares y por tanto no tienen un uso extendido. Existen herramientas que permiten a los visitantes de los sitios web sugerir traducciones, aunque estas herramientas no disponen de todas las características necesarias, no son personalizables y tampoco mantienen la estructura original de la página. Además, como las páginas web solo se indexan en la lengua original, son invisibles de cara a las búsquedas que se hacen en otros idiomas.

Flavius es la primera solución extremo a extremo para la traducción y el indexado de sitios web. Se trata de un proyecto Europeo financiado por el Programa de Apoyo a las Tecnologías de la Información y la Comunicación (ICT Policy Support Programme), en el contexto de la Web Multilingüe y las técnicas, herramientas y procedimientos relacionados con la gestión de contenidos.

Flavius le permite crear versiones multilingües de sus sitios web y sus aplicaciones en unos minutos, proporcionando además herramientas fáciles de utilizar para mejorar y revisar la traducción gracias a sus opciones de configuración.

  Flavius permite traducir cualquier archivo de datos (aplicaciones y blogs, XML y sus declinaciones: ReSX, WordPress …) o sitios web. El contenido de los sitios web se extrae realizando una copia idéntica para posteriormente ser traducida por Flavius.

  Para realizar una buena traducción es importante asegurar la calidad del texto de origen, para ello, Flavius incluye un corrector ortográfico y gramatical que detecta posibles errores y le invita a corregirlos. En este contexto Daedalus proporciona su experiencia en el campo de la corrección de textos, así como sus productos disponibles para ese fin.

  En pocos segundos, Flavius realiza una primera traducción que podrá revisar manualmente. Flavius incluye algunos motores personalizados para mejorar la calidad de la traducción, por ejemplo, para traducciónes Francés-Inglés, usted puede optar por traducir una página web sobre viajes utilizando el diccionario correspondiente a dicho tema. La calidad de la traducción aumentará, reduciendo el número de revisiones necesarias para alcanzar una traducción de buena calidad.

  A continuación, puede revisar y modificar la traducción. Accediendo a la vista previa de su sitio web traducido podrá seleccionar una “etiqueta” o un párrafo para editarlo, o si lo prefiere, puede invitar a un revisor. Adicionalmente Flavius implementa un módulo de retroalimentación que le permite obtener opiniones de los usuarios de su sitio web (obtendrá propuestas para mejorar la traducción, opiniones sobre los problemas de diseño y comentarios variados)

  Para garantizar la correcta traducción de expresiones y términos clave, Flavius permite crear un diccionario al que añadir sus palabras clave y su traducción. Además, los cambios realizados durante la etapa de revisión se mantienen y reutilizada durante las actualizaciones de su sitio web traducido, gracias a la función de memoria de traducción. Además, si usted ya tiene memorias de traducción en formato TMX, puede importarlos a Flavius y utilizarlos.

  Su sitio web está listo, traducido en nuestros servidores. Ahora sólo hay que ponerlo a disposición de todos los usuarios de Internet mediante la publicación a través de la plataforma.

  Los sitios web traducidos por Flavius se optimizan para asegurar una correcta indexación. Así, cuando un usuario de Internet realice una búsqueda mediante palabras clave en un idioma extranjero, su buscador habitual devolverá como resultado las páginas traducidas por Flavius.

La plataforma Flavius ya está disponible permitiendo hacer uso de todas las funcionalidades descritas, así que no lo dudes y crea tu cuenta gratuita para comprobar los beneficios de la traducción Flavius.

El consorcio que desarrolla este proyecto lo forman Softissimo (como empresa líder), Across, Language Weaver y Daedalus. Adicionalmente, varios proveedores de contenido participan en el proyecto (TVTrip, Overblog, Qype) aportando no solo la información de la que disponen sino también contribuyendo al lanzamiento de la plataforma a través de sus sitios web.

Analizando tuits en español

Se ha escrito mucho sobre la utilización que se hace del lenguaje en Twitter, desde Vargas Llosa hasta José Manuel Blecua, entre muchos otros, se han pronunciado sobre este asunto. Pero aquí nos interesa el tema desde el punto de vista del tratamiento automático, ¿qué retos supone trabajar con el lenguaje de Twitter?

En primer lugar, es necesario procesar las etiquetas específicas de Twitter: los nombres de los usuarios van precedidos de una @, cuando un tuit se retuitea se precede de las siglas RT, las hashtags se diferencian del resto de palabras porque llevan delante un carácter #, etc. Incluso es posible encontrar discusiones sobre el uso de las caritas sonrientes ;-) en los tuits, como en esta conversación en Linkedin. Desde el punto de vista del tratamiento automático, interpretar estas marcas específicas no supone complicación alguna.

En cambio, las abreviaturas de palabras pueden ser más problemáticas, entre otras cosas porque empeoran uno de los problemas tradicionales del procesamiento del lenguaje natural, la ambigüedad. Por ejemplo, en Twitter, es posible encontrar tanto las letras ‘pk’ como ‘xq’ como ‘pq’ para abreviar la palabra ‘porque’, o ‘tbn’ y ‘tb’ para representar la palabra ‘también’. Estas abreviaturas podrían confundirse con otras habituales en el lenguaje escrito o, si no se conoce la palabra completa a la que representan, impedirían un análisis más a fondo de la frase.

A lo anterior se suma la presencia de gran cantidad de errores de escritura, ya sean cometidos por los usuarios o por el autocompletado de palabras que incorporan algunos dispositivos.

Esos errores ortográficos se unen a la ausencia de puntuación. En la mayor parte de las  ocasiones, en los tuits no se emplean comas, ni puntos y comas, ni puntos seguidos, etc., lo que complica en gran medida los procesos de segmentación, encargados de separar las frases o sintagmas que componen un texto.

También habría que considerar problemas de capitalización. Algunos usuarios no emplean mayúsculas al escribir nombres propios o, en otros casos, se emplean capitalizaciones propias de los medios de comunicación, escribiendo en mayúscula la primera letra de cada palabra. Es fácil deducir que estas diferencias de capitalización dificultan la identificación de entidades que se mencionan en los tuits.

Superadas las no pocas dificultades introducidas por la notación específica de Twitter, las abreviaturas, los errores ortográficos, la ausencia de puntuación y la capitalización, queda afrontar el reto de extraer el contenido semántico de la frase resultante. Eso sí, ahora se tiene a favor que el texto de entrada es más parecido al que se emplea en las páginas web “tradicionales” y existen ya herramientas capaces de enfrentarse a la extracción de entidades, el análisis sintáctico o el tratamiento de la anáfora cuando el texto de entrada es morfosintácticamente correcto. Este es el punto de partida para un análisis de sentimiento que vaya más allá de contemplar la estadística de aparición de determinadas palabras. El análisis sintáctico combinado con el tratamiento de la negación permite asociar el adjetivo adecuado con la polaridad correcta a la entidad que le corresponde. Si únicamente se tienen en cuenta las apariciones de determinadas palabras en una frase, es posible llegar a situaciones en las que mensajes como ‘@empresax trabaja muy bien no como su competencia’ se interpretan como neutros (aparece ‘muy bien’ y ‘no’) cuando en realidad son muy positivos.

Estas peculiaridades del lenguaje hacen que, si no se emplean herramientas específicamente desarrolladas para el idioma en el que se quiere trabajar, los procesos de monitorización de la marca y de análisis de sentimiento no proporcionen resultados fiables.

¿Qué opinas? ¿Las herramientas de análisis de buzz monitoring y análisis de sentimiento que utilizas trabajan bien en español?

[¿Quieres saber cómo las tecnologías Semánticas y de Procesamiento del Lenguaje permiten analizar y explotar opiniones, ideas… y otros contenidos generados por los usuarios? Visita el sitio web de Daedalus y descubre cómo estamos ayudando a las empresas de seguimiento y análisis de medios, tanto tradicionales como sociales.]

“Compete or Retire”: Competitive challenges – Learning from research in language technologies

It’s been almost 20 years since the first TREC (Text REtrieval Conference), started in 1992. This technical workshop series, co-sponsored by the National Institute of Standards and Technology (NIST) and the U.S. Department of Defense, was, to my knowledge, the first attempt to abandon the classical model of scientific conferences, where colleagues meet “simply” for exchanging knowledge advances or discoveries in a scientific or technical discipline.

TREC deepened into an experimental approach started at Cranfield University years before. The TREC model consists in proposing a set of tasks or challenges to be addressed by research teams along a period of time (a campaign which lasts several months). Large-size data sets are prepared by the organizers (NIST), permitting the different teams to build, train and tune their systems for each task during several months. At a particular moment in the campaign, unseen testing data are delivered to the teams to produce results in a few days. Afterwards, results from different teams are evaluated against a blueprint developed manually or extracted from the pool of solutions obtained by the participants through automatic or semiautomatic procedures. With the output of the evaluation process at hand, teams write reports describing the approach, architecture and algorithms used in their “runs”, explaining the reasons for failure or success, comparing the output of other teams, and proposing ways for improving performance. Such reports are presented to colleagues in a workshop, where results are discussed and tasks for the following year are planned.

In the area of Information Retrieval, TREC was followed by parallel events in Japan (NTCIR, Japanese National Institute of Informatics Test Collection for IR Systems, started in 1999 and specialized in Asian languages) and in Europe (CLEF, Cross-Language Evaluation Forum, started in 2000, and focused around the specific challenges of a multilingual Europe). Nowadays, the same approach is followed by many other national and international conferences linked to language technologies, artificial intelligence and other disciplines.

The field of Information Retrieval has shown great progress during all these years, and the contribution of these (both cooperative and competitive) challenges cannot be dismissed.

Let’s be honest: a great deal of the research published in scientific conferences and journals is simply useless. Researchers have been forced to write papers (“publish or perish”) for years as the main output of their work. And the obligation of publishing (and organizing) in workshops and symposiums has led to an inflation of scientific events and publications.

Against the publication fever, M.I.T. Media Lab started in 1985 a new culture incarnated in its unofficial motto “demo or die”. Excerpting its founder Nicholas Negroponte: “When we started the Media Lab, I kept telling people we must demo, demo, demo… Forget technical papers and to a lesser extent theories. Let’s prove by doing.”

Competitive challenges go a step further in the Media Lab model, fostering cooperation among competing research teams in a model that we call now “coopetition”, a first-class citizen of the country of open innovation. I would propose “compete or retire” as the advertising slogan of this 20-years old approach.

Take a look at the work by Michael Schrage (fellow at MIT Center for Digital Business, Sloan School of Management) for a thorough discussion on the key role of experiments in organizations: a pillar of innovation and entrepreneurship.

Daedalus has been cooperating with research teams from Spanish universities: LABDA (Carlos III University of Madrid, GSI (Technical University of Madrid), LLI (Autonomous University of Madrid) and SINAI (University of Jaen) in CLEF,  NTCIR and other competitive conferences since 2003. Our experience participating hand in hand with them has been always highly motivating and encouraging, and has provided a valuable contribution to our company’s learning and growth.  And, moreover… it is being plenty of fun!

Right now, Daedalus co-organizes a challenge on sentiment analysis in social media (TASS Workshop, at the SEPLN-2012 Conference). The proposed task consists in performing automatic sentiment analysis on tweets to determine the polarity of each message in a test collection. A training data set of 70,000 tweets in Spanish has been tagged manually for use by participants. Our experimental vocation is also well represented by our web site for demos: the Daedalus showroom.

How was your experience in competitive challenges in any scientific or technical field? At some universities, experiment-oriented approaches are used as the basis of learning processes. Have you followed this experimental and competitive approach in undergraduate or graduate courses in any computing-related area, as a student or as a teacher?

Jose C. Gonzalez
@jc_gonzalez

Categorías:Innovación, Soluciones

WhoGotFunded: Applying information extraction on a semantic basis

Now it is the time to take simple search a stage further. Now it is the time to focus on information that matters to avoid reading hundreds of pages with search results. This is the goal of WhoGotFunded, a website to extract data on funding rounds for start-ups. WhoGotFunded handles useful information ready to be consumed: the institutions that fund the transactions, the place where the company comes from, or the involved business sector.

WhoGotFunded

The Daedalus semantic technology is behind all this. This technology, on which we have already discussed in a previous post, has been made possible by the development of linguistic processing tools for English, French and Spanish that:

  • detect entities present in a given text (for instance, names of persons, companies or places),
  • show the industrial sector to which the company belongs, using automatic classification algorithms together with linguistic information,
  • extract dates and quantities, and indentify funding events.

These funding events or agreements can be identified by means of rule-based methods which analyze if a sentence structure matches or not an event structure. To put it in plain language, it is similar to finding which sentences conform to the following rule: If the name of a company is identified as the subject of the verb ‘to obtain’ in the present perfect tense, and a sum of money is identified as the direct complement of the same verb, then there is a funding event to detect. Obviously, the funder entity may be verbalized as an additional complement, or perhaps may be expressed in the next sentence. It is not hard to guess how many different cases there may be, and how thorny this question is.

Árbol Sintáctico de la fraseThe image on the left (click on it to enlarge) shows an example of the sort of analysis performed for a sentence through automatic processing. It provides the necessary information to apply rules similar to that of the previous example.

Applications of this kind represent the natural evolution of search technologies. Google has recently announced which are its first steps towards navigating through information in such a new way. The English version of this latest development from Google provides structured information on some persons, places or organizations. The next stage involves applying this information to a real problem. This is the goal that Daedalus and Digimind, our French partner in this project, are pursuing with WhoGotFunded. We aim to provide a better tracking of information published daily on funding for several sectors and start-ups. To that end, we process daily 2 million of news stories, and extract 140 daily events.

WhoGotFunded is temporarily a private beta version, but it will be open access within the following weeks, so stay tuned! Meanwhile, you can read in Techcrunch the first comments on WhoGotFunded.

Categorías:Innovación

WhoGotFunded – Aplicando la Extracción de Información basada en Semántica

Ya es hora de ir un poco más allá de la búsqueda simple, es momento de centrarse en los datos que importan y dejar de leer páginas y más páginas de resultados. Este es el objetivo de WhoGotFunded, un sitio web que extrae datos sobre rondas de financiación de startups; desde la entidad que financia la operación hasta la región a la que pertenece la empresa pasando por el sector en el que opera, todo información útil, preparada para su consumo.

Y detrás de todo ello está la tecnología semántica de Daedalus, de la que ya hablábamos en un post anterior, proporcionada a través de herramientas de procesamiento lingüístico para inglés, francés y español que:

  • detectan las entidades que aparecen en un texto (nombres de personas, empresas, lugares, etc.),
  • indican el sector al que pertenece la empresa, combinando algoritmos de clasificación automática con información lingüística,
  • extraen fechas y cantidades presentes en el texto, e
  • identifican eventos de financiación.
 

WhoGotFunded

La detección de esos acuerdos o eventos de financiación se realiza en combinación con métodos basados en reglas que permiten saber si la estructura de una frase se corresponde o no con la de los eventos que interesa localizar. Simplificando mucho, sería algo parecido a comprobar si una frase cumple la siguiente regla: “Si aparece el nombre de una empresa como sujeto del verbo ‘conseguir’ en su forma de pretérito perfecto compuesto y aparece una cantidad de dinero como complemento directo del verbo entonces hay un evento de financiación”. Evidentemente, la empresa financiadora aparecería en un complemento adicional o, tal vez, en la siguiente frase. Como ya se adivina, la casuística es extensa y el problema complejo.

En la imagen de la derecha (haciendo click sobre ella) puede verse un ejemplo del tipo de análisis que puede obtenerse para una frase mediante procesamiento automático y que proporciona la información necesaria para aplicar reglas similares a la del ejemplo anterior.

Árbol Sintáctico de la frase

Aplicaciones de este estilo son la evolución natural de la tecnología de búsqueda. Hace poco que Google anunció los primeros pasos hacia este nuevo modo de navegar por la información. En la versión en inglés proporciona ya algo de información estructurada para algunas personas, lugares u organizaciones. El siguiente paso será aplicar toda esa información a un problema real. Eso es lo que DaedalusDigimind, la empresa francesa con la que colaboramos en este proyecto, perseguimos con WhoGotFunded, facilitar el seguimiento de la información sobre financiación que se publica diariamente para diversos sectores y startups, procesando para ello 2 millones de noticias diariamente y extrayendo alrededor de 150 eventos diarios.

Por el momento, WhoGotFunded está en fase de beta privada pero en las próximas semanas estará accesible al público, ¡mantente conectado! Mientras tanto, puedes leer en Techcrunch los primeros comentarios sobre WhoGotFunded.

Categorías:Innovación

Jornadas MAVIR 2011: Crisis y oportunidades, universidad y empresa, tecnología y lenguaje

21 noviembre, 2011 Dejar un comentario

Acaban de celebrarse las jornadas que anualmente convoca el Consorcio MAVIR, una red de investigadores con la que Daedalus colabora. MAVIR está formada por grupos de la Comunidad de Madrid vinculados a la universidad y la investigación. El objetivo común es desarrollar técnicas avanzadas para mejorar el acceso inteligente a la información. Dentro de este ámbito, las tecnologías del lenguaje o la Web Semántica tienen un papel protagonista, por lo que Daedalus aporta a MAVIR conocimiento y experiencia.

Este año las Jornadas han abordado temas de indiscutible actualidad, como el análisis de redes sociales, o la compresión de textos con técnicas de semántica computacional. También tuvo lugar una mesa redonda en la que participaron empresas afines (Daedalus entre ellas), y en la que se habló sobre el presente y el futuro del sector en el contexto de la crisis económica y la incesante explosión de la información en la web.

Estos dos últimos conceptos (la crisis, la web) considerados en conjunto reflejan una cierta paradoja. Se hace difícil concebir la crisis en el contexto de la web, un medio de información cuyo éxito lleva mucho tiempo disparado. Esta mesa redonda, así como las distintas charlas, arrojaron paradojas similares que tienen que ver con la naturaleza sui géneris del territorio en que nos movemos. Veamos algunas de ellas.

¿Queda alguna puerta a la que todavía no haya llamado la crisis? Las empresas y la Administración quieren ahorrar en todo, lo que supone cerrar los ojos al emprendimiento y la apuesta por tecnologías nuevas como las que se desarrollan en MAVIR. ¿No es lógico que los hospitales, por poner un ejemplo, incorporen aplicaciones de Web Semántica para organizar la enorme cantidad de datos que manejan diariamente, o que los médicos quieran acceder al conocimiento que se produce en centros sanitarios fuera de nuestras fronteras? La respuesta, evidente, conduce a otra pregunta: ¿saben en los hospitales qué es la Web Semántica o por qué es útil? Una de las conclusiones de la mesa redonda es que las tecnologías que manejamos no terminan de ser conocidas entre quienes más se pueden beneficiar de ellas. Resulta paradójico que estemos en la sociedad de la información (¿qué compañía, organización o persona no almacena digitalmente o comparte en la red la información textual o multimedia de la que dispone?), y las tecnologías de acceso a la información sigan siendo inéditas para tantos miembros de esta nueva sociedad que proclamamos. Estas tecnologías suponen un salto cualitativo de la información al conocimiento. Un reto que debemos enfrentar en estos tiempos consiste precisamente en saber explicar lo que hacemos, y generar conciencia sobre la diferencia entre información y conocimiento.

Hay otra cuestión relacionada que también se abordó en la mesa. A través de la red MAVIR, Dadedalus se vincula a grupos universitarios de investigación. ¿Cómo beneficia a estas compañías mantener un enlace universitario? Las Tecnologías de Acceso a la Información avanzan, en buena parte, gracias a iniciativas de investigación universitaria. Por tanto, en el desarrollo de estas tecnologías no se puede perder de vista lo que se hace en la universidad. Sin embargo, los ritmos de trabajo de la universidad y los centros de investigación suelen ser muy distintos a los que lleva una empresa. Los investigadores deben llegar a otros investigadores, generando publicaciones especializadas, asistiendo a foros de especialistas, etc. Las empresas, por el contrario, deben llegar a sus clientes. Este antagonismo tradicional está relacionado con la anterior paradoja: es difícil explicarle al público lo que hacemos, si los que prioritariamente investigan y desarrollan iniciativas en nuestro campo se mueven en círculos cerrados como son los congresos, o los artículos científicos.

Por último, hay otro aspecto que subraya la condición de sui géneris de las Tecnologías de Acceso a la Información. En la red MAVIR coinciden una variedad de perfiles con orígenes muy distintos: ingenieros, científicos, técnicos, documentalistas o lingüistas. El motivo es que nuestras tecnologías no pueden apoyarse únicamente en saberes técnicos. La Ciencias de la Documentación abordan la organización del conocimiento, y la Lingüística el acceso al conocimiento mediante el léxico o la gramática. Ontología, léxico y gramática son conceptos muy recurrentes en las Tecnologías de Acceso a la Información, y que también los ingenieros han hecho suyos.

Al respecto, cabe preguntarse hasta qué punto nuestro campo de trabajo es auténticamente interdisciplinar. El conocimiento lingüístico es útil y necesario en el desarrollo de sistemas de búsquedas inteligentes, capaces de comprender textos y palabras a varios niveles. Sin embargo, actualmente, hay una división muy marcada entre las diferentes ramas de las que pueden nutrirse estas tecnologías. La lingüística convencional, por ejemplo, está realmente lejos de ámbitos como este en los que puede resultar muy útil.

Iniciativas como las jornadas de MAVIR buscan reunir a profesionales con estos diferentes perfiles, lo que implica llevar decididamente las Tecnologías de Acceso a la Información a un terreno interdisciplinar. Creemos que estas jornadas igualmente cumplen el objetivo de salvar las distancias entre el mundo universitario y el ámbito empresarial. También deben servir para arrojar algo de luz sobre la primera paradoja a la que nos referíamos: se hace necesario difundir y explicar lo que hacemos (tanto desde la universidad como la empresa) en el actual contexto de superproducción y caos informativo.

Otra cuestión es si realmente, fuera de este marco ideal representado por estas jornadas, hay un verdadero acercamiento entre la tecnología y el usuario, la universidad y la empresa, o entre los diferentes profesionales que hacen avanzar nuestro sector…

Juan Fernández Fernández

Investigador UPM.


Categorías:Eventos, Innovación

¿Qué vamos a hacer con tantas APIs?

8 noviembre, 2011 1 comentario

Sólo en ProgrammableWeb hay más de 4000 APIs. Según datos de esta web la evolución del número de APIs publicadas en 2011 doblará a las desarrolladas durante el año anterior. Esto ha hecho proliferar el número de soluciones de integración que prometen facilitar la combinación de varias de estas interfaces. La mayoría de esas APIs son de tipo REST (RESTful) o, al menos, algo parecido y, precisamente, ese es uno de los tipos más utilizados en el campo del análisis de medios sociales. El problema es que no existe un estándar específico que permita gestionar de manera uniforme las múltiples APIs disponibles. Por ejemplo, sólo en el entorno de las interfaces relacionadas con el lenguaje natural es fácil encontrar decenas de opciones diferentes (si el idioma que interesa es el inglés, claro, si nos centramos en el español, el número se reduce considerablemente) pero, ¿cuál es el coste de integración de esta API en una aplicación?, ¿qué sucede si esa API desaparece o si queremos sustituirla por otra? Sólo por mencionar algunos ejemplos de software que trata de cubrir estas necesidades de integración cabe mencionar Apache CFX, una plataforma open source para el desarrollo de interfaces de programación en lenguajes como SOAP, XML/HTTP, RESTful HTTP o CORBA. En el artículo “How REST replaced SOAP on the Web: What it means to you”, se menciona Mule iON, otra plataforma pensada para esa función de intermediación que pretende eliminar la necesidad de desarrollar conectores punto a punto entre cada dos APIs que se desee comunicar. En ese mismo artículo aparece, además, una discusión interesante en torno a la pregunta: ¿una plataforma de esas características soluciona realmente ese problema de integración?

En mi opinión, es claro que no lo resuelve pero al menos ayuda bastante. Si los desarrolladores de esas plataformas se encargan de proporcionar conectores para las APIs más comunes, ahorrarán ese trabajo al resto. Evidentemente, si la plataforma de integración que se elija deja de mantenerse o desaparece, habrá que rehacer gran parte del trabajo, pero éste no es un problema nuevo en el proceso de desarrollo de software.
Por otra parte, la clave de la integración reside en la semántica de las operaciones que se utilizan, eso es lo que debería estandarizarse, pero esa semántica depende del dominio. No sería descabellado: en el caso de la comprobación de identidad para acceder a las APIs ya ha sucedido, el protocolo abierto OAuth es el utilizado por la mayoría de las APIs más demandadas.

¿Conoces algún estándar de esas características para el dominio del Procesamiento de Lenguaje Natural? ¿Crees posible definir un estándar de esas características? Cuéntanos cuál es tu experiencia.

Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 177 seguidores

%d bloggers like this: