[SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Spanish Forum

Moderators: tomeu, JCSenar

Post Reply
matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

[SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

He probado varias utilidades, incluida la del último link de EvaEva, sobre GScan2pdf, y no hay manera.

La otra aplicación que configuré en su momento fue GImageReader (con las dependencias también de tesseract tras seguir un turorial). Lo bueno de este programa es que te detecta bloques de texto e incluso autodetecta la disposición, y rota páginas que no están completamente rectas.

Aun así, lo dejo de momento por imposible, ya que se dan varios factores que afectan a la limitación de los programas y detección, y OCR, como son Formularios de la administración escaneados complejos, con casillas varias y bloques

Con lo que el OCR para esos formularios, no es nada óptimo y tiene más errores que aciertos, una pena. :?
Last edited by matrovska on Thu Feb 13, 2020 2:42 pm, edited 1 time in total.
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para pasar de texto OCR a texto editable. -

Post by tomeu »

sudo apt install ocrmypdf

En desde comandos en terminal, pero no solo es lo mejor que hay (en mi modestísima opinión), sino que es absolutamente eficiente.

Ya ampliaremos
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: Programa para pasar de texto OCR a texto editable. -

Post by matrovska »

Me instalé ocrmypdf, y estoy haciendo pruebas y jugando con los parámetros con un texto escaneado mucho más sencillo, y a calidad máxima 600ppp.
Le estoy echando un ojo a la ayuda mediante

Code: Select all

man
y a su web.

Los parámetros que me resultan apropiados en esta investigación son:

Code: Select all

ocrmypdf --language spa "prueba escaneo 600ppp_color.pdf" zoutput_color_v4.pdf --sidecar zoutput_color_v4.txt --deskew
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

He separado este hilo del del anterior por considerar que éste no se refiere exactamente a lo mismo y es de 2016.

Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

tomeu wrote:
Tue Feb 11, 2020 6:25 am
...
Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.
Instalé la aplicación CLI desde los propios repositorios de Linux Mint, que va por la versión 6.1.2 (para Ubuntu 18.04 o superiores según la web).

Desde mi linux Mint de la firma, ¿como puedo instalar la versión 9.5 que comentas?.
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

He seguido las indicaciones de aquí: https://ocrmypdf.readthedocs.io/en/late ... om-sources

editado: ¡maldición! había puesto todos los pasos seguidos y me había desconectado, con lo que se perdió el mensaje.
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

Voy a intentar recuperar (pero más resumido):

Podemos tener como referencia también esta web 'como generar un pdf ocr...'

1) Tenemos instalado ocrmypdf con apt o synaptic. Si tenemos L.Mint 19.* (ubuntu 18.04) tendremos la versión 6.1.4

2) Instalamos los archivos de idiomas que vayamos a utilizar:
tesseract-ocr y tesseract-ocr-*** donde *** es/son los idiomas que queremos o vamos a usar en nuestros documentos (spa, cat, eng....)

3) De los paquetes opcionales, yo prescindo de 'jbig2enc' que no está en lkos repositorios, y sí instalo 'pngquant' y 'unpaper' porque están en las versiones requeridas y pueden hacer un uso.

4) Instalamos la nueva versión de pip:

Code: Select all

wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
5) INstalamos la última versión de ocrmypdf para el usuario:

Code: Select all

export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
Tras reiniciar y darle al comando ocrmypdf --version debería salir esto: 9.5.0.post1+g6f66232

Ventajas de la versión 9.5 frente a la del repositorio:

1.- Antes si un documento pdf tenía parte editable y parte no, había que añadir el comando --force-ocr ahora no me lo ha pedido ninguna vez .

2.- Ha mejorado la calidad del resultado.

3.- Antes había que poner una serie de variantes, dependiendo del documento, tipo:
ocrmypdf --language spa --rotate-pages -deskew --force-ocr --clean-final documento.pdf documento-ocr.pdf
Ahora basta:
ocrmypdf documento.pdf documento-ocr.pdf

4.- Antes un documento con resultado de calidad tal vez pasaba de 100 a 600 Mb, ahora uno de 100 Mb es solo un poco más pesado (120 Mb aprox)
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

Unas dudas sobre estos puntos de la instalación.
tomeu wrote:
Tue Feb 11, 2020 11:12 am
4) Instalamos la nueva versión de pip:

Code: Select all

wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
5) INstalamos la última versión de ocrmypdf para el usuario:

Code: Select all

export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
Tras reiniciar y darle al comando ocrmypdf --version debería salir esto: 9.5.0.post1+g6f66232
Al ejecutar python3 get-pip.py salen los siguientes warnings, por lo que ahora entiendo lo de añadir ese directorio del warning al PATH:

Code: Select all

  WARNING: The scripts pip, pip3 and pip3.6 are installed in '/home/miusuario/.local/bin' which is not on PATH.
  Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
...
Duda sobre la 2ª línea del punto 5

Code: Select all

python3 -m pip install --user ocrmypdf

¿en qué ruta instalará ocrmypdf, en $HOME/.local/bin?
¿Tendríamos dos versiones del software, una en:

Code: Select all

$ type ocrmypdf 
ocrmypdf está asociado (/usr/bin/ocrmypdf)
Y otra en una ruta local del usuario, teniendo preferencia la local del usuario por estar como 1ª en el PATH?.



Edito:
También me ha quedado la duda de si es obligatorio el paso de instalar la nueva versión de pip (en mi caso la he ejecutado).
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

Copio y pego desde el terminal:

Code: Select all

tomeub@vant-H110M-S2H:~$ pip --version
pip 20.0.2 from /home/tomeub/.local/lib/python3.6/site-packages/pip (python 3.6)
tomeub@vant-H110M-S2H:~$ python3 --version
Python 3.6.9
tomeub@vant-H110M-S2H:~$ ocrmypdf --version
9.5.0.post1+g6f66232
El paquete 'pip' yo no leo en "synaptic", por tanto no debe estar en los repositorios oficiales.

Synaptic, también me dice que la versión de ocrmypdf que tengo instalada es la 6.1.2-1ubuntu, y la versión de python3 es la 3.6.7-1ubuntu

Efectivamente, y así parece, ocrmypdf 9.5 y su séquito/dependencias se ha instalado en directorio /home
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

Para ampliar información sobre la instalación en el directorio local dentro de la Home del usuario.

Se ve que en su momento instalé alguna utilidad/aplicación, y ya tenía una versión de pip instalada.

Code: Select all

$ pip --version
pip 9.0.1 from /usr/lib/python2.7/dist-packages (python 2.7)
Añado al PATH la ruta local para bin de la HOME

Code: Select all

$ export PATH=$HOME/.local/bin:$PATH
Ahora, la utilidad pip la localiza en el primer directorio configurado en el PATH ($HOME/.local/bin). Para comprobarlo, lanzo los siguientes comandos:

Code: Select all

$ pip --version
pip 20.0.2 from /home/miusuario/.local/lib/python3.6/site-packages/pip (python 3.6)

type pip
pip está asociado (/home/miusuario/.local/bin/pip)
Ahora ejecuto el siguiente comando tras el export del PATH

Code: Select all

$ python3 -m pip install --user ocrmypdf
Requirement already satisfied: ocrmypdf in /usr/lib/python3/dist-packages (6.1.2)

Reinicio, y luego:

Code: Select all

$ ocrmypdf --version
6.1.2
Creo que en mi máquina hay algun problema en el paso python3 -m pip install --user ocrmypdf, y no me ha instalado la versión 9.5 de ocrmypdf. Desconozco el motivo, tras seguir los pasos indicatos por tomeu.
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

Puede que me olvidara de esto; ahora no recuerdo si lo hice en su día o no:

Code: Select all

pip3 install git+https://github.com/jbarlow83/OCRmyPDF.git
:oops:
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

Independientemente de la incidencia a la hora de instalar la versión 9.5, sigo realizando pruebas con la versión de los repositorios.

Con documentos que en su estructura no son complejos, los parámetros que estoy poniendo son:

Code: Select all

ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background
Dependiendo de cómo sean los escaneos, utilizo en ocasiones --remove-background, que me deja el fondo del pdf más limpio.
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

Estoy probando ocrmypdf como AppImage (enlace como appimage)
- En la página darle al botón Download, y luego, si desplegamos assets disponemos de la versión 9.0.1 en formato Appimage para descargar.
- Le damos permisos de ejecución al Appimage descargado
- hacemos un enlace simbólico a una de las rutas del PATH (en mi caso enlazo a /usr/local/bin con nombre "ocrmypdf_appimage"
- Para ejecutarlo:

Code: Select all

ocrmypdf_appimage ocrmypdf --version
9.0.1

Code: Select all

ocrmypdf_appimage ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

No sé si te estas complicando demasiado. Yo simplemente escribo:

Code: Select all

cd ruta_donde_esta_archivo
# ruta_donde_esta_archivo>> ocrmypdf documento.pdf documento_ocr.pdf
Y en 1 minuto o menos me lo convierte perfecto y mismo tamaño del original, o casi (en un par de ocasiones incluso de menor tamaño)
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

Hola tomeu, me funciona mejor el OCR si le indico idioma, que corrija leve ángulo de escaneo, etc...

Empecé por el método sencillo sin parámetros, y fui haciendo pruebas hasta llegar al resultado del comando que os comento.
Como ya se los parámetros, solo cambio el nombre del fichero pdf de origen y de destino. :wink:
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

Gracias por compartir :wink:
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

Como no he visto diferencia, me he quedado con la versión de los repositorios de Linux Mint.

Doy por solucionado este tema, ya que:
- Se han aportado al hilo cómo instalar diferentes versiones del software (repositorios, última versión mediante pip, y versión appimage)
- Web oficial de la aplicación
- Uso de la aplicación y parámetros que pueden usarse, para optimizar el OCR y generar el PDF destino
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

User avatar
tomeu
Level 6
Level 6
Posts: 1219
Joined: Wed Mar 29, 2017 12:03 pm
Location: España

Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by tomeu »

matrovska wrote:
Thu Feb 13, 2020 2:44 pm
Como no he visto diferencia, me he quedado con la versión de los repositorios de Linux Mint.
Yo también me hubiera quedado con la versión del repositorio, pero en mi caso las diferencias de la ver 9.5 frente a la 6.1 son más que notables:

1.- Calidad del resultado tras pasar el pdf a ocr: en ocasiones incluso se ve más nítido que el original.

2.- Mayor rapidez en la conversión.

3.- Mayor facilidad: por regla general no hay que ir añadiendo comandos adicionales.

Y sobre todo:

4.- Peso/tamaño del resultado: Ejemplo:

Un documento de unas 20 páginas con 2.9 Mb al usar la versión 6.1 del repositorio ha pasado a pesar 5.0 Mb y una calidad "regular"; con la versión 9.5 ha pasado a pesar 3.1 Mb con buena calidad.

Si ese documento es solo 1 de tropecientos a enviar, ya no hay color.

Sea como fuere poder contar con el programa 'ocrmypdf' en el repositorio es extraordinario.

"Master PDF editor" también permite pasar pdf a ocr/pdf-a pero hay fallos notables (versión 4.3.89)
Image
Linux Mint Tricia 19.3 64bits Cinnamon
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias

matrovska
Level 3
Level 3
Posts: 131
Joined: Tue Jan 21, 2020 3:58 pm

Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Post by matrovska »

El uso que le doy no es tan intenviso, y la versión de la paquetería de Mint me vale.
Hice pruebas comparándola con la versión appimage (con los mismos parámetros), y el resultado era similar, en calidad a simple vista, y el peso en MB era similar también.
Linux Mint 19.2 Cinnamon. Lenovo thinkpad T460

Post Reply

Return to “Español (Spanish)”