Extracción de información

Data d'edició: 26 de Abril de 2013
Data d'actualització: 30 de Gener de 2014

Autoria:

Irene Castellón

Revisió:

Eva Juarros-Daussa

La extracción de información es una tarea del Procesamiento del Lenguaje Natural (PLN) que consiste en la detección y estructuración de información a partir de datos textuales o datos no estructurados.

Contenidos

Explicación

Conceptos relacionados

Enlaces de interés

Bibliografía básica

Bibliografía complementaria

Explicación

En la mayoría de trabajos la extracción de información se aplica a unas tareas muy concretas como son el reconocimiento de entidades referenciales (Named Entity Recognition NER) o la etiquetación de papeles semánticos (Semantic Role Labelling, SRL), es decir, la detección de relaciones y argumentos. Sin embargo, el áreade extracción de información no es estrictamente una tarea de PLN, ya que su alcance es más amplio que el tratamiento del texto: así, podemos hablar de extracción de información a partir de imágenes, vídeos, etc.

El reconocimiento de entitades referenciales (Nadeau y Sekine 2007) consiste en la identificación y clasificación semántica (desambiguación) de nombres propios, monedas, fechas y en general expresiones nominales referenciales. Las técnicas que se utilizan son la inducción de modelos a partir de corpus anotados, la construcción de gramáticas específicas o bien el uso de léxicos de nombres propios (los llamados Gazetteer).

La extracción de eventos y la identificación y clasificación de sus argumentos es otro ejemplo, en este caso de extracción de relaciones. Esta tarea suele utilizar las técnicas de etiquetación de roles semánticos (Màrquez et al. 2008). Por ejemplo, si tomamos la oración:

(1) Juan vende zapatos

Un sistema de SRL produciría una estructura como:

evento: vender, agente: Juan, tema: zapatos

Donde la relación entre vender y Juan es ‘agente’. Otra técnica utilizada en la extracción de información es la detección de otro tipo de relaciones como las que se establecen entre entidades (por ejemplo, la relación entre Obama y Estados Unidos es ‘ser_presidente’). Para la detección de patrones que realizan la relación entre las entidades es necesario el uso de grandes volúmenes de texto para aprender dichos patrones automáticamente y de forma inductiva.

La extracción de información como tarea en PLN se inició en los años 80. A partir del año 1987 esta tarea se vio impulsada por las Conferencias MUC (Message Understanding Conferences- Grishman y Sundheim 1996), que se centraban en la extracción de información. En cada una de las conferencias se establecía como objetivo una tarea concreta y se permitía a los investigadores comprobar sus sistemas y compararlos entre si.

Conceptos relacionados

Lingüística computacional

Procesamiento del lenguaje natural

Enlaces de interés

Voorhees, Ellen. Introduction to Information Extraction: Message Understanding Conference

http://www.itl.nist.gov/iaui/894.02/related_projects/muc/

Volumen dedicado a la etiquetación de papeles semánticos: Computational Linguistics

http://www.mitpressjournals.org/toc/coli/34/2

Milosavljevic, Maria. La extracción de información

http://web.science.mq.edu.au/~mariam/ie/

Sistema para la extracción de información masiva a partir de predicados y argumentos. Open Information Extraction Software

http://reverb.cs.washington.edu/

Bibliografía básica

Grishman, R. - B. Sundheim (1996), “Message Understanding Conference- 6: A Brief History”, en Colling (1996), Vol. 1: The 16th International Conference on Computational Linguistics, disponible en http://acl.ldc.upenn.edu/C/C96/C96-1079.pdf

Màrquez, Ll. - X. Carreras - K.Litkowski - S. Stevenson (2008), “Semantic Role Labeling: An Introduction to the Special Issue”, en Computational Linguistics, 34 (2), 145-159, disponible en http://www.mitpressjournals.org/doi/pdf/10.1162/coli.2008.34.2.145

Nadeau, D. - S. Sekine (2007), Lingvisticae Investigationes, 30, 1, disponible en "ASurvey of Named Entity Recognition and Classification