Doclux OCR: Software libre para la restauración y transcripción de imágenes archivísticas.

Doclux OCR: free software for image restoration and transcript archivistic.

Descargar PDF

Publicado en 3C Tecnología – Volumen 3 Número 1 (Edición 8)

Autores


  • Lisbet Milagros Guerra Cantero

  • Eriberto Vanegas Lago

Resumen

El Archivo Histórico del Municipio de Manzanillo se atesora gran cantidad de documentos, esta institución tiene la misión de recuperar, restaurar y difundir la documentación de valor histórico que conserva. Cuenta con un portal web a disposición del público, donde se pueden consultar imágenes digitalizadas de dicha información. Sin embargo, producto al grado de deterioro que presentan dichos documentos antiguos, es necesario realizarles un proceso de restauración para mejorar su calidad. Producto a esto se desarrolló el sistema DocLux que permite el tratamiento de imágenes digitalizadas por lotes. DocLux permite aplicar una serie de filtros que posibilitan mejorar la calidad de las imágenes. A pesar de esto, es necesario aplicarle un proceso de transcripción, ya que se dificulta el reconocimiento de la información contenida en las imágenes. Surge la necesidad de desarrollar una alternativa de software libre que permita el Reconocimiento Óptico de los Caracteres. Se desarrolló un prototipo de aplicación DocLux OCR que permite reconocer y transcribir las vocales minúsculas sin tilde del lenguaje español, utilizando el motor Tesseract.

Abstract

The Historical Archive of the Municipality of Manzanillo is treasured lot of documents, this institution has the mission to recover, restore and dissemination of records of historical value it retains. It has a website available to the public, where you can view digitized images of such information. However, due to the degree of impairment arising from those old documents, you need to have a follow restoration process to improve its quality. Product of this system was developed which allows the treatment DocLux digitized image batch. DocLux allows applying a series of filters which allow improving the quality of images. Despite this, it is necessary to apply a process of transcription, as it makes the recognition of the information contained in the images. The need arises to develop a free software alternative that allows the Optical Character Recognition. We developed a prototype application that DocLux OCR to recognize and transcribe the vowels tiny Spanish language without accent, using the Tesseract engine.

Artículo

Palabras clave

Restauración, tratamiento, transcripción.

Keywords

Restoration, processing, transcription.

Articulos relacionados