Page 1 of 1

[SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 05, 2020 12:06 pm
by matrovska
He probado varias utilidades, incluida la del último link de EvaEva, sobre GScan2pdf, y no hay manera.

La otra aplicación que configuré en su momento fue GImageReader (con las dependencias también de tesseract tras seguir un turorial). Lo bueno de este programa es que te detecta bloques de texto e incluso autodetecta la disposición, y rota páginas que no están completamente rectas.

Aun así, lo dejo de momento por imposible, ya que se dan varios factores que afectan a la limitación de los programas y detección, y OCR, como son Formularios de la administración escaneados complejos, con casillas varias y bloques

Con lo que el OCR para esos formularios, no es nada óptimo y tiene más errores que aciertos, una pena. :?

Re: Programa para pasar de texto OCR a texto editable. -

Posted: Thu Feb 06, 2020 3:31 am
by tomeu
sudo apt install ocrmypdf

En desde comandos en terminal, pero no solo es lo mejor que hay (en mi modestísima opinión), sino que es absolutamente eficiente.

Ya ampliaremos

Re: Programa para pasar de texto OCR a texto editable. -

Posted: Fri Feb 07, 2020 11:11 am
by matrovska
Me instalé ocrmypdf, y estoy haciendo pruebas y jugando con los parámetros con un texto escaneado mucho más sencillo, y a calidad máxima 600ppp.
Le estoy echando un ojo a la ayuda mediante

Code: Select all

man
y a su web.

Los parámetros que me resultan apropiados en esta investigación son:

Code: Select all

ocrmypdf --language spa "prueba escaneo 600ppp_color.pdf" zoutput_color_v4.pdf --sidecar zoutput_color_v4.txt --deskew

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Tue Feb 11, 2020 6:25 am
by tomeu
He separado este hilo del del anterior por considerar que éste no se refiere exactamente a lo mismo y es de 2016.

Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Tue Feb 11, 2020 7:43 am
by matrovska
tomeu wrote:
Tue Feb 11, 2020 6:25 am
...
Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.
Instalé la aplicación CLI desde los propios repositorios de Linux Mint, que va por la versión 6.1.2 (para Ubuntu 18.04 o superiores según la web).

Desde mi linux Mint de la firma, ¿como puedo instalar la versión 9.5 que comentas?.

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Tue Feb 11, 2020 8:06 am
by tomeu
He seguido las indicaciones de aquí: https://ocrmypdf.readthedocs.io/en/late ... om-sources

editado: ¡maldición! había puesto todos los pasos seguidos y me había desconectado, con lo que se perdió el mensaje.

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Tue Feb 11, 2020 11:12 am
by tomeu
Voy a intentar recuperar (pero más resumido):

Podemos tener como referencia también esta web 'como generar un pdf ocr...'

1) Tenemos instalado ocrmypdf con apt o synaptic. Si tenemos L.Mint 19.* (ubuntu 18.04) tendremos la versión 6.1.4

2) Instalamos los archivos de idiomas que vayamos a utilizar:
tesseract-ocr y tesseract-ocr-*** donde *** es/son los idiomas que queremos o vamos a usar en nuestros documentos (spa, cat, eng....)

3) De los paquetes opcionales, yo prescindo de 'jbig2enc' que no está en lkos repositorios, y sí instalo 'pngquant' y 'unpaper' porque están en las versiones requeridas y pueden hacer un uso.

4) Instalamos la nueva versión de pip:

Code: Select all

wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
5) INstalamos la última versión de ocrmypdf para el usuario:

Code: Select all

export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
Tras reiniciar y darle al comando ocrmypdf --version debería salir esto: 9.5.0.post1+g6f66232

Ventajas de la versión 9.5 frente a la del repositorio:

1.- Antes si un documento pdf tenía parte editable y parte no, había que añadir el comando --force-ocr ahora no me lo ha pedido ninguna vez .

2.- Ha mejorado la calidad del resultado.

3.- Antes había que poner una serie de variantes, dependiendo del documento, tipo:
ocrmypdf --language spa --rotate-pages -deskew --force-ocr --clean-final documento.pdf documento-ocr.pdf
Ahora basta:
ocrmypdf documento.pdf documento-ocr.pdf

4.- Antes un documento con resultado de calidad tal vez pasaba de 100 a 600 Mb, ahora uno de 100 Mb es solo un poco más pesado (120 Mb aprox)

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Tue Feb 11, 2020 5:10 pm
by matrovska
Unas dudas sobre estos puntos de la instalación.
tomeu wrote:
Tue Feb 11, 2020 11:12 am
4) Instalamos la nueva versión de pip:

Code: Select all

wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
5) INstalamos la última versión de ocrmypdf para el usuario:

Code: Select all

export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
Tras reiniciar y darle al comando ocrmypdf --version debería salir esto: 9.5.0.post1+g6f66232
Al ejecutar python3 get-pip.py salen los siguientes warnings, por lo que ahora entiendo lo de añadir ese directorio del warning al PATH:

Code: Select all

  WARNING: The scripts pip, pip3 and pip3.6 are installed in '/home/miusuario/.local/bin' which is not on PATH.
  Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
...
Duda sobre la 2ª línea del punto 5

Code: Select all

python3 -m pip install --user ocrmypdf

¿en qué ruta instalará ocrmypdf, en $HOME/.local/bin?
¿Tendríamos dos versiones del software, una en:

Code: Select all

$ type ocrmypdf 
ocrmypdf está asociado (/usr/bin/ocrmypdf)
Y otra en una ruta local del usuario, teniendo preferencia la local del usuario por estar como 1ª en el PATH?.



Edito:
También me ha quedado la duda de si es obligatorio el paso de instalar la nueva versión de pip (en mi caso la he ejecutado).

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 12, 2020 2:25 am
by tomeu
Copio y pego desde el terminal:

Code: Select all

tomeub@vant-H110M-S2H:~$ pip --version
pip 20.0.2 from /home/tomeub/.local/lib/python3.6/site-packages/pip (python 3.6)
tomeub@vant-H110M-S2H:~$ python3 --version
Python 3.6.9
tomeub@vant-H110M-S2H:~$ ocrmypdf --version
9.5.0.post1+g6f66232
El paquete 'pip' yo no leo en "synaptic", por tanto no debe estar en los repositorios oficiales.

Synaptic, también me dice que la versión de ocrmypdf que tengo instalada es la 6.1.2-1ubuntu, y la versión de python3 es la 3.6.7-1ubuntu

Efectivamente, y así parece, ocrmypdf 9.5 y su séquito/dependencias se ha instalado en directorio /home

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 12, 2020 4:27 am
by matrovska
Para ampliar información sobre la instalación en el directorio local dentro de la Home del usuario.

Se ve que en su momento instalé alguna utilidad/aplicación, y ya tenía una versión de pip instalada.

Code: Select all

$ pip --version
pip 9.0.1 from /usr/lib/python2.7/dist-packages (python 2.7)
Añado al PATH la ruta local para bin de la HOME

Code: Select all

$ export PATH=$HOME/.local/bin:$PATH
Ahora, la utilidad pip la localiza en el primer directorio configurado en el PATH ($HOME/.local/bin). Para comprobarlo, lanzo los siguientes comandos:

Code: Select all

$ pip --version
pip 20.0.2 from /home/miusuario/.local/lib/python3.6/site-packages/pip (python 3.6)

type pip
pip está asociado (/home/miusuario/.local/bin/pip)
Ahora ejecuto el siguiente comando tras el export del PATH

Code: Select all

$ python3 -m pip install --user ocrmypdf
Requirement already satisfied: ocrmypdf in /usr/lib/python3/dist-packages (6.1.2)

Reinicio, y luego:

Code: Select all

$ ocrmypdf --version
6.1.2
Creo que en mi máquina hay algun problema en el paso python3 -m pip install --user ocrmypdf, y no me ha instalado la versión 9.5 de ocrmypdf. Desconozco el motivo, tras seguir los pasos indicatos por tomeu.

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 12, 2020 7:20 am
by tomeu
Puede que me olvidara de esto; ahora no recuerdo si lo hice en su día o no:

Code: Select all

pip3 install git+https://github.com/jbarlow83/OCRmyPDF.git
:oops:

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 12, 2020 7:31 am
by matrovska
Independientemente de la incidencia a la hora de instalar la versión 9.5, sigo realizando pruebas con la versión de los repositorios.

Con documentos que en su estructura no son complejos, los parámetros que estoy poniendo son:

Code: Select all

ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background
Dependiendo de cómo sean los escaneos, utilizo en ocasiones --remove-background, que me deja el fondo del pdf más limpio.

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 12, 2020 8:48 am
by matrovska
Estoy probando ocrmypdf como AppImage (enlace como appimage)
- En la página darle al botón Download, y luego, si desplegamos assets disponemos de la versión 9.0.1 en formato Appimage para descargar.
- Le damos permisos de ejecución al Appimage descargado
- hacemos un enlace simbólico a una de las rutas del PATH (en mi caso enlazo a /usr/local/bin con nombre "ocrmypdf_appimage"
- Para ejecutarlo:

Code: Select all

ocrmypdf_appimage ocrmypdf --version
9.0.1

Code: Select all

ocrmypdf_appimage ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 12, 2020 2:06 pm
by tomeu
No sé si te estas complicando demasiado. Yo simplemente escribo:

Code: Select all

cd ruta_donde_esta_archivo
# ruta_donde_esta_archivo>> ocrmypdf documento.pdf documento_ocr.pdf
Y en 1 minuto o menos me lo convierte perfecto y mismo tamaño del original, o casi (en un par de ocasiones incluso de menor tamaño)

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Wed Feb 12, 2020 3:47 pm
by matrovska
Hola tomeu, me funciona mejor el OCR si le indico idioma, que corrija leve ángulo de escaneo, etc...

Empecé por el método sencillo sin parámetros, y fui haciendo pruebas hasta llegar al resultado del comando que os comento.
Como ya se los parámetros, solo cambio el nombre del fichero pdf de origen y de destino. :wink:

Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Thu Feb 13, 2020 1:21 pm
by tomeu
Gracias por compartir :wink:

Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Thu Feb 13, 2020 2:44 pm
by matrovska
Como no he visto diferencia, me he quedado con la versión de los repositorios de Linux Mint.

Doy por solucionado este tema, ya que:
- Se han aportado al hilo cómo instalar diferentes versiones del software (repositorios, última versión mediante pip, y versión appimage)
- Web oficial de la aplicación
- Uso de la aplicación y parámetros que pueden usarse, para optimizar el OCR y generar el PDF destino

Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Fri Feb 14, 2020 4:30 am
by tomeu
matrovska wrote:
Thu Feb 13, 2020 2:44 pm
Como no he visto diferencia, me he quedado con la versión de los repositorios de Linux Mint.
Yo también me hubiera quedado con la versión del repositorio, pero en mi caso las diferencias de la ver 9.5 frente a la 6.1 son más que notables:

1.- Calidad del resultado tras pasar el pdf a ocr: en ocasiones incluso se ve más nítido que el original.

2.- Mayor rapidez en la conversión.

3.- Mayor facilidad: por regla general no hay que ir añadiendo comandos adicionales.

Y sobre todo:

4.- Peso/tamaño del resultado: Ejemplo:

Un documento de unas 20 páginas con 2.9 Mb al usar la versión 6.1 del repositorio ha pasado a pesar 5.0 Mb y una calidad "regular"; con la versión 9.5 ha pasado a pesar 3.1 Mb con buena calidad.

Si ese documento es solo 1 de tropecientos a enviar, ya no hay color.

Sea como fuere poder contar con el programa 'ocrmypdf' en el repositorio es extraordinario.

"Master PDF editor" también permite pasar pdf a ocr/pdf-a pero hay fallos notables (versión 4.3.89)

Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable

Posted: Fri Feb 14, 2020 11:17 am
by matrovska
El uso que le doy no es tan intenviso, y la versión de la paquetería de Mint me vale.
Hice pruebas comparándola con la versión appimage (con los mismos parámetros), y el resultado era similar, en calidad a simple vista, y el peso en MB era similar también.