Shuffled Frog-Leaping Algorithm Metaheuristic for Extractive Single- Document Summarization

Due to the increasing amount of information available on the Internet, it is important for users to have a summary containing the most important ideas from the documents they find, in order to quickly identify which ones to read. This article addresses this issue through a modified algorithm for the...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Revista cientifica del Centro de Investigaciones y Desarrollo Cientifico de la Universidad Distral Francisco Jose de Caldas Jg. 51; H. 3; S. 47 - 61
Hauptverfasser: Yip Herrera, Juan-David, Mendoza Becerra, Martha Eliana
Format: Journal Article
Sprache:Englisch
Veröffentlicht: Universidad Distrital Francisco José de Caldas 07.12.2024
Schlagworte:
ISSN:0124-2253, 2344-8350, 2344-8350
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Due to the increasing amount of information available on the Internet, it is important for users to have a summary containing the most important ideas from the documents they find, in order to quickly identify which ones to read. This article addresses this issue through a modified algorithm for the automatic generation of single-document  extractive summaries, aiming to produce summaries of a quality comparable to those generated by expert humans. This proposal is based on the shuffled frog-leaping metaheuristic algorithm (SFLA) and includes a global explicit tabu memory. Its goal is to optimize a weighted objective function with characteristics such as length (measured in words), position within the document, similarity to the document's title, cohesion (similarity between the sentences in the summary), and coverage (similarity between the sentences in the summary and the document). To this effect, an iterative research procedure was followed, consisting of four stages (observation, problem identification, development, and solution testing) over two iterative cycles. In the first cycle, the initialization and evolution schemes were analyzed and selected to modify the base algorithm. This, in addition to parameter tuning. In the second cycle, a tabu memory was selected for integration into the proposed algorithm, and the corresponding tuning was performed. To evaluate the quality of the summaries generated by our proposal, ROUGE metrics were used on the DUC datasets. The results are comparable to and surpass those of various methods in the state of th art. The proposed algorithm stands out for its simplicity of implementation and the reduced number of objective function evaluations, which implies lower computation times. Debido a la creciente cantidad de información disponible en Internet, para un usuario es importante contar un resumen con las ideas más importantes delos documentos que encuentra, con el propósito de identificar rápidamente cuáles debe leer. En este artículo se aborda esta problemática mediante un algoritmo modificado para la generación automática de resúmenes extractivos de un solo documento, el cual busca obtener resúmenes de calidad similar a aquellos generados por humanos expertos. Esta propuesta está basada en el algoritmo metaheurístico de saltos de ranas mezcladas e incluye una memoria tabú explícita global. Su propósito es optimizar una función objetivo ponderada con características como longitud (medida en palabras), posición en el documento, similitud con el título del documento, cohesión (similitud entre las oraciones del resumen) y cobertura (similitud entre las oraciones del resumen y el documento). Para ello, se siguió un procedimiento de investigación iterativa compuesto por cuatro etapas (observación, identificación del problema, desarrollo y prueba de la solución) en dos ciclos iterativos. En el primer ciclo se realizó el análisis y selección de los esquemas de inicialización y de evolución, en aras de modificar el algoritmo base. Esto, además del afinamiento de parámetros. Por su parte, en el segundo ciclo se seleccionó una memoria tabú para su integración en el algoritmo propuesto, y se realizó el afinamiento correspondiente. Para evaluar la calidad de los resúmenes obtenidos con nuestra propuesta, se usaron las métricas ROUGE sobre los conjuntos de datos de la DUC. Los resultados se equiparan y superan a diversos métodos del estado del arte. El algoritmo propuesto se diferencia por su simplicidad de implementación y por el reducido número de evaluaciones de la función objetivo, lo que implica un menor tiempo computacional.
ISSN:0124-2253
2344-8350
2344-8350
DOI:10.14483/23448350.22578