La extracción de información es una tarea del Procesamiento del Lenguaje Natural (PLN) que consiste en la detección y estructuración de información a partir de datos textuales o datos no estructurados.
Contenidos
Explicación
En la mayoría de trabajos la extracción de información se aplica a unas tareas muy concretas como son el reconocimiento de entidades referenciales (Named Entity Recognition NER) o la etiquetación de papeles semánticos (Semantic Role Labelling, SRL), es decir, la detección de relaciones y argumentos. Sin embargo, el áreade extracción de información no es estrictamente una tarea de PLN, ya que su alcance es más amplio que el tratamiento del texto: así, podemos hablar de extracción de información a partir de imágenes, vídeos, etc.
El reconocimiento de entitades referenciales (Nadeau y Sekine 2007) consiste en la identificación y clasificación semántica (desambiguación) de nombres propios, monedas, fechas y en general expresiones nominales referenciales. Las técnicas que se utilizan son la inducción de modelos a partir de corpus anotados, la construcción de gramáticas específicas o bien el uso de léxicos de nombres propios (los llamados Gazetteer).
La extracción de eventos y la identificación y clasificación de sus argumentos es otro ejemplo, en este caso de extracción de relaciones. Esta tarea suele utilizar las técnicas de etiquetación de roles semánticos (Màrquez et al. 2008). Por ejemplo, si tomamos la oración:
(1) Juan vende zapatos
Un sistema de SRL produciría una estructura como:
evento: vender, agente: Juan, tema: zapatos
Donde la relación entre vender y Juan es ‘agente’. Otra técnica utilizada en la extracción de información es la detección de otro tipo de relaciones como las que se establecen entre entidades (por ejemplo, la relación entre Obama y Estados Unidos es ‘ser_presidente’). Para la detección de patrones que realizan la relación entre las entidades es necesario el uso de grandes volúmenes de texto para aprender dichos patrones automáticamente y de forma inductiva.
La extracción de información como tarea en PLN se inició en los años 80. A partir del año 1987 esta tarea se vio impulsada por las Conferencias MUC (Message Understanding Conferences- Grishman y Sundheim 1996), que se centraban en la extracción de información. En cada una de las conferencias se establecía como objetivo una tarea concreta y se permitía a los investigadores comprobar sus sistemas y compararlos entre si.
Conceptos relacionados
Procesamiento del lenguaje natural
Enlaces de interés
Voorhees, Ellen. Introduction to Information Extraction: Message Understanding Conference
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/
Volumen dedicado a la etiquetación de papeles semánticos: Computational Linguistics
http://www.mitpressjournals.org/toc/coli/34/2
Milosavljevic, Maria. La extracción de información
http://web.science.mq.edu.au/~mariam/ie/
Sistema para la extracción de información masiva a partir de predicados y argumentos. Open Information Extraction Software
http://reverb.cs.washington.edu/
Bibliografía básica
Grishman, R. - B. Sundheim (1996), “Message Understanding Conference- 6: A Brief History”, en Colling (1996), Vol. 1: The 16th International Conference on Computational Linguistics, disponible en http://acl.ldc.upenn.edu/C/C96/C96-1079.pdf
Màrquez, Ll. - X. Carreras - K.Litkowski - S. Stevenson (2008), “Semantic Role Labeling: An Introduction to the Special Issue”, en Computational Linguistics, 34 (2), 145-159, disponible en http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.145
Nadeau, D. - S. Sekine (2007), Lingvisticae Investigationes, 30, 1, disponible en "ASurvey of Named Entity Recognition and Classification