Escanear con Reconocimiento Óptico de Caracteres (OCR )

Spanish Forum

Moderator: vrkalak

Escanear con Reconocimiento Óptico de Caracteres (OCR )

Postby hatteras on Wed Nov 27, 2013 3:51 am

He ido leyendo por varios sitios, y probando... y aquí os dejo un resumen de lo que he publicado en mi blog
---------------
Un programa para el Reconocimiento Óptico de Caracteres (en inglés OCR) es una aplicaciones dirigida a la digitalización de textos. Identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto/idioma, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar.

En este tema voy a explicar como hacerlo con el programa Gscan2pdf.

Paquetes necesarios: gscan2pdf, imagemagic, tesseract-ocr, tesseract-ocr-esp, tesseract-ocr-eng, unpaper.

El programa gscan2pdf está en los repositorios de Ubuntu, pero podemos instalar el paquete gscan2pdf_1.0.0_all.deb desde http://sourceforge.net/projects/gscan2p ... gscan2pdf/


Resumen del uso básico de gScan2pdf:

a) Con un documento con solo texto
b) Con un documento con texto e imagen, del que queremos extraer/conservar solo el texto
c) Con un documento con texto e imagen, del que queremos conservar ambos

– a) y b) : gScan2pdf -> escanear con OCR-> pestaña OCR-output -> copiar texto ->> abrir LibreOffice ( Writter )-> pegar texto -> editarlo a nuestro gusto -> exportarlo como .pdf

– c) : gScan2pdf -> escanear con OCR -> pestaña Image -> guardar como archivo .pdf ->> abrir LibreOffice ( Draw )* -> abrir el archivo.pdf -> editarlo a nuestro gusto -> exportarlo como .pdf


* (LibreOffice + la extensión PdfImport.oxt; o con PdfEdit )

Ver el tema entero y con imágenes en http://hatteras-blog.blogspot.com.es/20 ... ptico.html
-------------------------------
xSane + sxane2tess + tesseract-ocr

El programa xSane tal y como se instala por defecto no permite usar el motor de OCR tesseract, pero con unos pocos ajustes al sistema podemos hacer que si que sea usable dicho motor.

Paquetes necesarios: el paquete principal del programa: xsane, e imagemagick los paquetes para instalar el motor ocr: tesseract-ocr, tesseract-ocr-esp, tesseract-ocr-eng ( para que el motor reconozca los idiomas español e ingles; si es necesario se pueden instalar mas paquetes de otros idiomas ) , y un script (xsane2tess ) que es el que hace que xsane use el motor tesseract-ocr.

El script xsane2tess se puede instalar a partir de un paquete .deb que nos podemos descargar desde : http://foro-ubuntu-guia.963965.n3.nabbl ... e2tess.deb


Mas información e imágenes: http://hatteras-blog.blogspot.com.es/20 ... co_18.html
------------------------------------
OcrFeeder:

Aquí están los últimos paquetes .deb para ocrfeeder (la versión ocrfeeder_0.7.5-1_all.deb permite importar desde un pdf, desde una imagen, o desde el escáner ) http://mirror.fcaglp.unlp.edu.ar/pub/ub ... ocrfeeder/

Además del paquete para instalar el programa, si queremos usar el motor de Ocr tesseract debemos instalar los paquetes: tesseract-ocr, o gocr (en este tema vamos a usar el motor tesseract-ocr ) y uno o varios paquetes para el reconocimiento en un idioma en concreto: tesseract-ocr-spa y tesseract-ocr-eng ( para reconocimiento de caracteres en español e inglés ; si fuera necesario se pueden instalar mas paquetes para otros idiomas. ), unpaper ( es una herramienta de post-procesamiento de las hojas de papel escaneados, especialmente para las páginas de los libros que han sido escaneados desde fotocopias. El objetivo principal es hacer que las páginas escaneadas sean mas legibles en pantalla después de la conversión a PDF. Además, unpaper puede ser útil para mejorar la calidad de las páginas escaneadas antes de realizar el reconocimiento óptico de caracteres ).

Seguir leyendo en: http://hatteras-blog.blogspot.com.es/20 ... co_28.html
hatteras
Level 5
Level 5
 
Posts: 740
Joined: Fri Sep 24, 2010 6:43 pm

Linux Mint is funded by ads and donations.
 

Return to Spanish

Who is online

Users browsing this forum: No registered users and 3 guests