Generación automática de resúmenes de texto para el acceso a la información

Manuel J. Maña López

Departamento de Informática
Universidad de Vigo
Septiembre de 2003

RESUMEN

En esta memoria de tesis se proponen nuevas formas de generación, aplicación y evaluación de resúmenes indicativos, abordando tanto el ámbito de los resúmenes monodocumento como el de los multidocumento. La finalidad de estos resúmenes es la de convertirse en una ayuda eficaz para los usuarios de sistemas de acceso a la información. El marco de aplicación, en el que los documentos pueden ser de muy distintas características, requiere un sistema robusto, moderadamente independiente del género, dominio, estructura y escala de los textos. La utilización de técnicas de extracción de frases garantiza esa independencia.

Para la generación de resúmenes monodocumento se han utilizado métricas estadísticas y posicionales. La personalización del resumen se basa en la consulta de usuario y la expansión de la misma utilizando WordNet. Los resúmenes generados de esta forma han sido evaluados en un marco de recuperación ad hoc. En la evaluación se utilizaron recursos disponibles y muy difundidos en el ámbito de la RI: las colecciones TREC. La ventaja que aporta este marco experimental es que se pueden llevar a cabo evaluaciones sistemáticas y comparables sobre grandes colecciones de documentos. Los resultados de esta evaluación muestran la efectividad de los resúmenes adaptados a la consulta.

Respecto a los resúmenes multidocumento, se propone su aplicación a un entorno de RI con agrupamiento de los resultados de la búsqueda. La información común y los aspectos particulares que se observan en los grupos de documentos relacionados semánticamente se presentan por separado en dos resúmenes. Los resúmenes de los grupos intentan ser indicativos sobre el tema central que comparte el grupo de documentos. Los resúmenes de los documentos se centran en las diferencias relevantes que caracterizan a cada uno de ellos respecto a la información común proporcionada por el grupo al que pertenecen. El sistema segmenta los textos, tratando de identificar los temas tratados en cada documento y de averiguar el grado de cohesión entre los mismos.

Estos resúmenes han sido evaluados en un experimento donde los usuarios llevan a cabo una tarea de búsqueda interactiva. Los resultados muestran que, utilizados conjuntamente con un agrupamiento de los resultados de la búsqueda, los resúmenes así generados pueden constiutir una alternativa viable y efectiva a la interfaz clásica de lista ordenada de los sistemas de RI.