El resumen automático es una aplicación del área del Procesamiento de Lenguaje Natural que consiste en sintetizar un texto de forma automática.
Contenidos
El resumen automático es una tarea compleja, debido a que trabaja con el contenido semántico de un texto. Las diferentes formas de realizar un resumen automático se pueden clasificar según una serie de parámetros (Mani 2000). Según la relación con la fuente, se puede realizar un resumen por extracción o por abstracción. En el primero, el sistema utiliza partes del mismo texto y nunca incluye palabras que no estén en el texto original. En el segundo, el resumen por abstracción, el texto resultante contiene elementos que no están en el documento original, así el resumen puede contener algún grado de paráfrasis del contenido del texto original o bien ser producto de la generación en lenguaje a partir de una representación interna del texto (Hovy 2001, Hann y Mani 2000).
Un resumen según su función puede ser indicativo, informativo o crítico. Ejemplos de resumen indicativo son la extracción de palabras clave o la identificación del tópico. El resumen informativo incluye partes del contenido del texto y el resumen crítico contiene información subjetiva en relación con el texto original.
También existen sistemas que producen resúmenes multidocumento, es decir, una síntesis de diversos documentos que tratan sobre el mismo tema Otro parámetro a tener en cuenta es si los textos originales pertenecen a diversas lenguas, necesitando entonces un tratamiento multilingüe.
Otras características que deben tener en cuenta los sistemas automáticos son: el porcentaje de compresión -relación entre la longitud de texto original y la del resumen-, la coherencia y la cohesión, el género del documento- ya que puede implicar la aplicación de una estrategia diferente- o el soporte en el que está el material original o el resumen (texto, voz, vídeo).
Una de las tareas fundamentales del resumen automático es la detección de las partes más relevantes del texto. Por ejemplo, algunas de las estrategias de extracción utilizan la frecuencia de las palabras o la posición en el texto para conseguir detectar los elementos más relevantes (palabras o fragmentos) o los temas del documento. Con el mismo fin, algunos sistemas utilizan el reconocimiento de entidades nombradas, las cadenas léxicas (Hassan 1984) o el análisis del discurso (Marcu, 2000b). En esta última línea, la propuesta de W.C. Mann y S.A Thompson, Rethorical Structure Theory (Mann y Thompson 1987) ha sido aplicada en diversos sistemas. Estos sistemas realizan una representación arbórea del texto basada en las relaciones retóricas que se dan en el texto original mediante el tratamiento de marcadores discursivos. Una vez expresado el árbol, se procede a la poda de este árbol según las relaciones retóricas de forma que se seleccionan las clausulas más nucleares eliminando las cláusulas satélite (Marcu 2000a, Alonso 2004).
Contenidos relacionados
Relaciones retóricas
Enlaces de Interés
Introduction to RST: Rhetorical Structure Theory
http://www.sfu.ca/rst/01intro/intro.html
YACHS es un sistema de resumen automático especializado en documentos Química
http://daniel.iut.univ-metz.fr/yachs/
SUMMARIST es un sistema que produce resúmenes en cinco idiomas
http://www.isi.edu/natural-language/projects/SUMMARIST.html
Bibliografia
Alonso, L. (2005), "Representing Discourse for Automatic text Summarization", via Shallow NLP Techniques. PhD thesis, Department of General Linguistics, University of Barcelona.
Hasan, R. (1984),“Coherence and Cohesive Harmony” en James Flood, Understanding reading comprehension: cognition, language, and the structure of prose, International Reading Association.
Hovy, E.H. (2005), "Automated Text Summarization", in R. Mitkov (ed.), The Oxford Handbook of Computational Linguistics, Oxford, Oxford University Press, 583–598.
Hovy, E.H. - Lin, C.Y. (1999), "Automated Text Summarization in SUMMARIST", in M. Maybury - I.Mani (eds.), Advances in Automatic Text Summarization, Cambridge, MIT Press.
Mani,I. (2001), Automatic Summarization, Amsterdam , John Benjaming Publishing Company.
Mann, W.C. - Thompson, S.A. (1988), "Rhetorical Structure Theory: Toward a functional theory of text organization", Text, 8 (3), 243-281.
Mann, W.C. - Thompson, S.A. (1987), Rhetorical Structure Theory: A Theory of Text Organization [No. ISI/RS-87-190], Marina del Rey, CA Information Sciences Institute.
Marcu, Daniel (2000a), "The rhetorical parsing of unrestricted texts: A surface based approach", in Computational Linguistics, 26 (3), 395-448.
Marcu, Daniel (2000b), The Theory and Practice of Discourse Parsing and Summarization, Cambridge, Mass MIT Press.