Page 1 of 1
[SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 05, 2020 12:06 pm
by matrovska
He probado varias utilidades, incluida la del último link de EvaEva, sobre GScan2pdf, y no hay manera.
La otra aplicación que configuré en su momento fue GImageReader (con las dependencias también de tesseract tras seguir un turorial). Lo bueno de este programa es que te detecta bloques de texto e incluso autodetecta la disposición, y rota páginas que no están completamente rectas.
Aun así, lo dejo de momento por imposible, ya que se dan varios factores que afectan a la limitación de los programas y detección, y OCR, como son Formularios de la administración escaneados complejos, con casillas varias y bloques
Con lo que el OCR para esos formularios, no es nada óptimo y tiene más errores que aciertos, una pena.

Re: Programa para pasar de texto OCR a texto editable. -
Posted: Thu Feb 06, 2020 3:31 am
by tomeu
sudo apt install ocrmypdf
En desde comandos en terminal, pero no solo es lo mejor que hay (en mi modestísima opinión), sino que es absolutamente eficiente.
Ya ampliaremos
Re: Programa para pasar de texto OCR a texto editable. -
Posted: Fri Feb 07, 2020 11:11 am
by matrovska
Me instalé
ocrmypdf, y estoy haciendo pruebas y jugando con los parámetros con un texto escaneado mucho más sencillo, y a calidad máxima 600ppp.
Le estoy echando un ojo a la ayuda mediante
y a
su web.
Los parámetros que me resultan apropiados en esta investigación son:
Code: Select all
ocrmypdf --language spa "prueba escaneo 600ppp_color.pdf" zoutput_color_v4.pdf --sidecar zoutput_color_v4.txt --deskew
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Tue Feb 11, 2020 6:25 am
by tomeu
He separado este hilo del
del anterior por considerar que éste no se refiere exactamente a lo mismo y es de 2016.
Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Tue Feb 11, 2020 7:43 am
by matrovska
tomeu wrote: ↑Tue Feb 11, 2020 6:25 am
...
Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.
Instalé la aplicación CLI desde los propios repositorios de Linux Mint, que va por la versión 6.1.2 (
para Ubuntu 18.04 o superiores según la web).
Desde mi linux Mint de la firma, ¿como puedo instalar la versión 9.5 que comentas?.
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Tue Feb 11, 2020 8:06 am
by tomeu
He seguido las indicaciones de aquí:
https://ocrmypdf.readthedocs.io/en/late ... om-sources
editado: ¡maldición! había puesto todos los pasos seguidos y me había desconectado, con lo que se perdió el mensaje.
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Tue Feb 11, 2020 11:12 am
by tomeu
Voy a intentar recuperar (pero más resumido):
Podemos tener como referencia
también esta web 'como generar un pdf ocr...'
1) Tenemos instalado
ocrmypdf
con
apt o
synaptic. Si tenemos L.Mint 19.* (ubuntu 18.04) tendremos la versión 6.1.4
2) Instalamos los archivos de idiomas que vayamos a utilizar:
tesseract-ocr
y
tesseract-ocr-***
donde *** es/son los idiomas que queremos o vamos a usar en nuestros documentos (spa, cat, eng....)
3) De los paquetes opcionales, yo prescindo de 'jbig2enc' que no está en lkos repositorios, y sí instalo 'pngquant' y 'unpaper' porque están en las versiones requeridas y pueden hacer un uso.
4) Instalamos la nueva versión de pip:
Code: Select all
wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
5) INstalamos la última versión de ocrmypdf para el usuario:
Code: Select all
export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
Tras reiniciar y darle al comando
ocrmypdf --version
debería salir esto:
9.5.0.post1+g6f66232
Ventajas de la versión 9.5 frente a la del repositorio:
1.- Antes si un documento pdf tenía parte editable y parte no, había que añadir el comando
--force-ocr
ahora no me lo ha pedido ninguna vez .
2.- Ha mejorado la calidad del resultado.
3.- Antes había que poner una serie de variantes, dependiendo del documento, tipo:
ocrmypdf --language spa --rotate-pages -deskew --force-ocr --clean-final documento.pdf documento-ocr.pdf
Ahora basta:
ocrmypdf documento.pdf documento-ocr.pdf
4.- Antes un documento con resultado de calidad tal vez pasaba de 100 a 600 Mb, ahora uno de 100 Mb es solo un poco más pesado (120 Mb aprox)
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Tue Feb 11, 2020 5:10 pm
by matrovska
Unas dudas sobre estos puntos de la instalación.
tomeu wrote: ↑Tue Feb 11, 2020 11:12 am
4) Instalamos la nueva versión de pip:
Code: Select all
wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
5) INstalamos la última versión de ocrmypdf para el usuario:
Code: Select all
export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
Tras reiniciar y darle al comando
ocrmypdf --version
debería salir esto:
9.5.0.post1+g6f66232
Al ejecutar
python3 get-pip.py
salen los siguientes warnings, por lo que ahora entiendo lo de añadir ese directorio del warning al PATH:
Code: Select all
WARNING: The scripts pip, pip3 and pip3.6 are installed in '/home/miusuario/.local/bin' which is not on PATH.
Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
...
Duda sobre la 2ª línea del punto 5
Code: Select all
python3 -m pip install --user ocrmypdf
¿en qué ruta instalará
ocrmypdf
, en
$HOME/.local/bin
?
¿Tendríamos dos versiones del software, una en:
Code: Select all
$ type ocrmypdf
ocrmypdf está asociado (/usr/bin/ocrmypdf)
Y otra en una ruta local del usuario, teniendo preferencia la local del usuario por estar como 1ª en el PATH?.
Edito:
También me ha quedado la duda de si es obligatorio el paso de instalar la nueva versión de pip (en mi caso la he ejecutado).
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 12, 2020 2:25 am
by tomeu
Copio y pego desde el terminal:
Code: Select all
tomeub@vant-H110M-S2H:~$ pip --version
pip 20.0.2 from /home/tomeub/.local/lib/python3.6/site-packages/pip (python 3.6)
tomeub@vant-H110M-S2H:~$ python3 --version
Python 3.6.9
tomeub@vant-H110M-S2H:~$ ocrmypdf --version
9.5.0.post1+g6f66232
El paquete 'pip' yo no leo en "synaptic", por tanto no debe estar en los repositorios oficiales.
Synaptic, también me dice que la versión de ocrmypdf que tengo instalada es la 6.1.2-1ubuntu, y la versión de python3 es la 3.6.7-1ubuntu
Efectivamente, y así parece, ocrmypdf 9.5 y su séquito/dependencias se ha instalado en directorio /home
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 12, 2020 4:27 am
by matrovska
Para ampliar información sobre la instalación en el directorio local dentro de la Home del usuario.
Se ve que en su momento instalé alguna utilidad/aplicación, y ya tenía una versión de pip instalada.
Code: Select all
$ pip --version
pip 9.0.1 from /usr/lib/python2.7/dist-packages (python 2.7)
Añado al PATH la ruta local para bin de la HOME
Code: Select all
$ export PATH=$HOME/.local/bin:$PATH
Ahora, la utilidad pip la localiza en el primer directorio configurado en el PATH ($HOME/.local/bin). Para comprobarlo, lanzo los siguientes comandos:
Code: Select all
$ pip --version
pip 20.0.2 from /home/miusuario/.local/lib/python3.6/site-packages/pip (python 3.6)
type pip
pip está asociado (/home/miusuario/.local/bin/pip)
Ahora ejecuto el siguiente comando tras el export del PATH
Code: Select all
$ python3 -m pip install --user ocrmypdf
Requirement already satisfied: ocrmypdf in /usr/lib/python3/dist-packages (6.1.2)
Reinicio, y luego:
Creo que en mi máquina hay algun problema en el paso
python3 -m pip install --user ocrmypdf
, y no me ha instalado la versión 9.5 de ocrmypdf. Desconozco el motivo, tras seguir los pasos indicatos por
tomeu.
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 12, 2020 7:20 am
by tomeu
Puede que me olvidara de esto; ahora no recuerdo si lo hice en su día o no:
Code: Select all
pip3 install git+https://github.com/jbarlow83/OCRmyPDF.git

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 12, 2020 7:31 am
by matrovska
Independientemente de la incidencia a la hora de instalar la versión 9.5, sigo realizando pruebas con la versión de los repositorios.
Con documentos que en su estructura no son complejos, los parámetros que estoy poniendo son:
Code: Select all
ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background
Dependiendo de cómo sean los escaneos, utilizo en ocasiones
--remove-background
, que me deja el fondo del pdf más limpio.
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 12, 2020 8:48 am
by matrovska
Estoy probando ocrmypdf como AppImage (
enlace como appimage)
- En la página darle al botón Download, y luego, si desplegamos assets disponemos de la versión 9.0.1 en formato Appimage para descargar.
- Le damos permisos de ejecución al Appimage descargado
- hacemos un enlace simbólico a una de las rutas del PATH (en mi caso enlazo a /usr/local/bin con nombre "ocrmypdf_appimage"
- Para ejecutarlo:
Code: Select all
ocrmypdf_appimage ocrmypdf --version
9.0.1
Code: Select all
ocrmypdf_appimage ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 12, 2020 2:06 pm
by tomeu
No sé si te estas complicando demasiado. Yo simplemente escribo:
Code: Select all
cd ruta_donde_esta_archivo
# ruta_donde_esta_archivo>> ocrmypdf documento.pdf documento_ocr.pdf
Y en 1 minuto o menos me lo convierte perfecto y mismo tamaño del original, o casi (en un par de ocasiones incluso de menor tamaño)
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Wed Feb 12, 2020 3:47 pm
by matrovska
Hola
tomeu, me funciona mejor el OCR si le indico idioma, que corrija leve ángulo de escaneo, etc...
Empecé por el método sencillo sin parámetros, y fui haciendo pruebas hasta llegar al resultado del comando que os comento.
Como ya se los parámetros, solo cambio el nombre del fichero pdf de origen y de destino.

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Thu Feb 13, 2020 1:21 pm
by tomeu
Gracias por compartir

Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Thu Feb 13, 2020 2:44 pm
by matrovska
Como no he visto diferencia, me he quedado con la versión de los repositorios de Linux Mint.
Doy por solucionado este tema, ya que:
- Se han aportado al hilo cómo instalar diferentes versiones del software (repositorios, última versión mediante pip, y versión appimage)
- Web oficial de la aplicación
- Uso de la aplicación y parámetros que pueden usarse, para optimizar el OCR y generar el PDF destino
Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Fri Feb 14, 2020 4:30 am
by tomeu
matrovska wrote: ↑Thu Feb 13, 2020 2:44 pm
Como no he visto diferencia, me he quedado con la versión de los repositorios de Linux Mint.
Yo también me hubiera quedado con la versión del repositorio, pero en mi caso las diferencias de la ver 9.5 frente a la 6.1 son más que notables:
1.- Calidad del resultado tras pasar el pdf a ocr: en ocasiones incluso se ve más nítido que el original.
2.- Mayor rapidez en la conversión.
3.- Mayor facilidad: por regla general no hay que ir añadiendo comandos adicionales.
Y sobre todo:
4.- Peso/tamaño del resultado: Ejemplo:
Un documento de unas 20 páginas con 2.9 Mb al usar la versión 6.1 del repositorio ha pasado a pesar 5.0 Mb y una calidad "regular"; con la versión 9.5 ha pasado a pesar 3.1 Mb con buena calidad.
Si ese documento es solo 1 de tropecientos a enviar, ya no hay color.
Sea como fuere poder contar con el programa 'ocrmypdf' en el repositorio es extraordinario.
"Master PDF editor" también permite pasar pdf a ocr/pdf-a pero hay fallos notables (versión 4.3.89)
Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
Posted: Fri Feb 14, 2020 11:17 am
by matrovska
El uso que le doy no es tan intenviso, y la versión de la paquetería de Mint me vale.
Hice pruebas comparándola con la versión appimage (con los mismos parámetros), y el resultado era similar, en calidad a simple vista, y el peso en MB era similar también.