[SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
Moderator: Wibol
Forum rules
Topics in this forum are automatically closed 6 months after creation.
Topics in this forum are automatically closed 6 months after creation.
[SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
He probado varias utilidades, incluida la del último link de EvaEva, sobre GScan2pdf, y no hay manera.
La otra aplicación que configuré en su momento fue GImageReader (con las dependencias también de tesseract tras seguir un turorial). Lo bueno de este programa es que te detecta bloques de texto e incluso autodetecta la disposición, y rota páginas que no están completamente rectas.
Aun así, lo dejo de momento por imposible, ya que se dan varios factores que afectan a la limitación de los programas y detección, y OCR, como son Formularios de la administración escaneados complejos, con casillas varias y bloques
Con lo que el OCR para esos formularios, no es nada óptimo y tiene más errores que aciertos, una pena.
La otra aplicación que configuré en su momento fue GImageReader (con las dependencias también de tesseract tras seguir un turorial). Lo bueno de este programa es que te detecta bloques de texto e incluso autodetecta la disposición, y rota páginas que no están completamente rectas.
Aun así, lo dejo de momento por imposible, ya que se dan varios factores que afectan a la limitación de los programas y detección, y OCR, como son Formularios de la administración escaneados complejos, con casillas varias y bloques
Con lo que el OCR para esos formularios, no es nada óptimo y tiene más errores que aciertos, una pena.
Last edited by LockBot on Wed Dec 28, 2022 7:16 am, edited 2 times in total.
Reason: Topic automatically closed 6 months after creation. New replies are no longer allowed.
Reason: Topic automatically closed 6 months after creation. New replies are no longer allowed.
Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para pasar de texto OCR a texto editable. -
sudo apt install ocrmypdf
En desde comandos en terminal, pero no solo es lo mejor que hay (en mi modestísima opinión), sino que es absolutamente eficiente.
Ya ampliaremos
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: Programa para pasar de texto OCR a texto editable. -
Me instalé ocrmypdf, y estoy haciendo pruebas y jugando con los parámetros con un texto escaneado mucho más sencillo, y a calidad máxima 600ppp.
Le estoy echando un ojo a la ayuda mediante y a su web.
Los parámetros que me resultan apropiados en esta investigación son:
Le estoy echando un ojo a la ayuda mediante
Code: Select all
man
Los parámetros que me resultan apropiados en esta investigación son:
Code: Select all
ocrmypdf --language spa "prueba escaneo 600ppp_color.pdf" zoutput_color_v4.pdf --sidecar zoutput_color_v4.txt --deskew
Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
He separado este hilo del del anterior por considerar que éste no se refiere exactamente a lo mismo y es de 2016.
Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.
Seguiremos hablando de ocrmypdf, pero ya que citas su web, comentar solo ahora que he actualizado a la versión 9.5 y la calidad es mejor, y, sobre todo, no convierte los archivos en un peso desmesurado, sino que casi es el mismo.
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Instalé la aplicación CLI desde los propios repositorios de Linux Mint, que va por la versión 6.1.2 (para Ubuntu 18.04 o superiores según la web).
Desde mi linux Mint de la firma, ¿como puedo instalar la versión 9.5 que comentas?.
Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
He seguido las indicaciones de aquí: https://ocrmypdf.readthedocs.io/en/late ... om-sources
editado: ¡maldición! había puesto todos los pasos seguidos y me había desconectado, con lo que se perdió el mensaje.
editado: ¡maldición! había puesto todos los pasos seguidos y me había desconectado, con lo que se perdió el mensaje.
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Voy a intentar recuperar (pero más resumido):
Podemos tener como referencia también esta web 'como generar un pdf ocr...'
1) Tenemos instalado
2) Instalamos los archivos de idiomas que vayamos a utilizar:
3) De los paquetes opcionales, yo prescindo de 'jbig2enc' que no está en lkos repositorios, y sí instalo 'pngquant' y 'unpaper' porque están en las versiones requeridas y pueden hacer un uso.
4) Instalamos la nueva versión de pip:
5) INstalamos la última versión de ocrmypdf para el usuario:
Tras reiniciar y darle al comando
Ventajas de la versión 9.5 frente a la del repositorio:
1.- Antes si un documento pdf tenía parte editable y parte no, había que añadir el comando
2.- Ha mejorado la calidad del resultado.
3.- Antes había que poner una serie de variantes, dependiendo del documento, tipo:
Ahora basta:
4.- Antes un documento con resultado de calidad tal vez pasaba de 100 a 600 Mb, ahora uno de 100 Mb es solo un poco más pesado (120 Mb aprox)
Podemos tener como referencia también esta web 'como generar un pdf ocr...'
1) Tenemos instalado
ocrmypdf
con apt o synaptic. Si tenemos L.Mint 19.* (ubuntu 18.04) tendremos la versión 6.1.42) Instalamos los archivos de idiomas que vayamos a utilizar:
tesseract-ocr
y tesseract-ocr-***
donde *** es/son los idiomas que queremos o vamos a usar en nuestros documentos (spa, cat, eng....)3) De los paquetes opcionales, yo prescindo de 'jbig2enc' que no está en lkos repositorios, y sí instalo 'pngquant' y 'unpaper' porque están en las versiones requeridas y pueden hacer un uso.
4) Instalamos la nueva versión de pip:
Code: Select all
wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
Code: Select all
export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf
ocrmypdf --version
debería salir esto: 9.5.0.post1+g6f66232
Ventajas de la versión 9.5 frente a la del repositorio:
1.- Antes si un documento pdf tenía parte editable y parte no, había que añadir el comando
--force-ocr
ahora no me lo ha pedido ninguna vez .2.- Ha mejorado la calidad del resultado.
3.- Antes había que poner una serie de variantes, dependiendo del documento, tipo:
ocrmypdf --language spa --rotate-pages -deskew --force-ocr --clean-final documento.pdf documento-ocr.pdf
Ahora basta:
ocrmypdf documento.pdf documento-ocr.pdf
4.- Antes un documento con resultado de calidad tal vez pasaba de 100 a 600 Mb, ahora uno de 100 Mb es solo un poco más pesado (120 Mb aprox)
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Unas dudas sobre estos puntos de la instalación.
Duda sobre la 2ª línea del punto 5
¿en qué ruta instalará
¿Tendríamos dos versiones del software, una en:
Y otra en una ruta local del usuario, teniendo preferencia la local del usuario por estar como 1ª en el PATH?.
Edito:
También me ha quedado la duda de si es obligatorio el paso de instalar la nueva versión de pip (en mi caso la he ejecutado).
Al ejecutartomeu wrote: ⤴Tue Feb 11, 2020 11:12 am 4) Instalamos la nueva versión de pip:5) INstalamos la última versión de ocrmypdf para el usuario:Code: Select all
wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py
Tras reiniciar y darle al comandoCode: Select all
export PATH=$HOME/.local/bin:$PATH python3 -m pip install --user ocrmypdf
ocrmypdf --version
debería salir esto:9.5.0.post1+g6f66232
python3 get-pip.py
salen los siguientes warnings, por lo que ahora entiendo lo de añadir ese directorio del warning al PATH:
Code: Select all
WARNING: The scripts pip, pip3 and pip3.6 are installed in '/home/miusuario/.local/bin' which is not on PATH.
Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
...
Code: Select all
python3 -m pip install --user ocrmypdf
¿en qué ruta instalará
ocrmypdf
, en $HOME/.local/bin
?¿Tendríamos dos versiones del software, una en:
Code: Select all
$ type ocrmypdf
ocrmypdf está asociado (/usr/bin/ocrmypdf)
Edito:
También me ha quedado la duda de si es obligatorio el paso de instalar la nueva versión de pip (en mi caso la he ejecutado).
Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Copio y pego desde el terminal:
El paquete 'pip' yo no leo en "synaptic", por tanto no debe estar en los repositorios oficiales.
Synaptic, también me dice que la versión de ocrmypdf que tengo instalada es la 6.1.2-1ubuntu, y la versión de python3 es la 3.6.7-1ubuntu
Efectivamente, y así parece, ocrmypdf 9.5 y su séquito/dependencias se ha instalado en directorio /home
Code: Select all
tomeub@vant-H110M-S2H:~$ pip --version
pip 20.0.2 from /home/tomeub/.local/lib/python3.6/site-packages/pip (python 3.6)
tomeub@vant-H110M-S2H:~$ python3 --version
Python 3.6.9
tomeub@vant-H110M-S2H:~$ ocrmypdf --version
9.5.0.post1+g6f66232
Synaptic, también me dice que la versión de ocrmypdf que tengo instalada es la 6.1.2-1ubuntu, y la versión de python3 es la 3.6.7-1ubuntu
Efectivamente, y así parece, ocrmypdf 9.5 y su séquito/dependencias se ha instalado en directorio /home
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Para ampliar información sobre la instalación en el directorio local dentro de la Home del usuario.
Se ve que en su momento instalé alguna utilidad/aplicación, y ya tenía una versión de pip instalada.
Añado al PATH la ruta local para bin de la HOME
Ahora, la utilidad pip la localiza en el primer directorio configurado en el PATH ($HOME/.local/bin). Para comprobarlo, lanzo los siguientes comandos:
Ahora ejecuto el siguiente comando tras el export del PATH
Reinicio, y luego:
Creo que en mi máquina hay algun problema en el paso
Se ve que en su momento instalé alguna utilidad/aplicación, y ya tenía una versión de pip instalada.
Code: Select all
$ pip --version
pip 9.0.1 from /usr/lib/python2.7/dist-packages (python 2.7)
Code: Select all
$ export PATH=$HOME/.local/bin:$PATH
Code: Select all
$ pip --version
pip 20.0.2 from /home/miusuario/.local/lib/python3.6/site-packages/pip (python 3.6)
type pip
pip está asociado (/home/miusuario/.local/bin/pip)
Code: Select all
$ python3 -m pip install --user ocrmypdf
Requirement already satisfied: ocrmypdf in /usr/lib/python3/dist-packages (6.1.2)
Reinicio, y luego:
Code: Select all
$ ocrmypdf --version
6.1.2
python3 -m pip install --user ocrmypdf
, y no me ha instalado la versión 9.5 de ocrmypdf. Desconozco el motivo, tras seguir los pasos indicatos por tomeu.Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Puede que me olvidara de esto; ahora no recuerdo si lo hice en su día o no:
Code: Select all
pip3 install git+https://github.com/jbarlow83/OCRmyPDF.git
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Independientemente de la incidencia a la hora de instalar la versión 9.5, sigo realizando pruebas con la versión de los repositorios.
Con documentos que en su estructura no son complejos, los parámetros que estoy poniendo son:
Dependiendo de cómo sean los escaneos, utilizo en ocasiones
Con documentos que en su estructura no son complejos, los parámetros que estoy poniendo son:
Code: Select all
ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background
--remove-background
, que me deja el fondo del pdf más limpio.Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Estoy probando ocrmypdf como AppImage (enlace como appimage)
- En la página darle al botón Download, y luego, si desplegamos assets disponemos de la versión 9.0.1 en formato Appimage para descargar.
- Le damos permisos de ejecución al Appimage descargado
- hacemos un enlace simbólico a una de las rutas del PATH (en mi caso enlazo a /usr/local/bin con nombre "ocrmypdf_appimage"
- Para ejecutarlo:
- En la página darle al botón Download, y luego, si desplegamos assets disponemos de la versión 9.0.1 en formato Appimage para descargar.
- Le damos permisos de ejecución al Appimage descargado
- hacemos un enlace simbólico a una de las rutas del PATH (en mi caso enlazo a /usr/local/bin con nombre "ocrmypdf_appimage"
- Para ejecutarlo:
Code: Select all
ocrmypdf_appimage ocrmypdf --version
9.0.1
Code: Select all
ocrmypdf_appimage ocrmypdf "origen.pdf" destino.pdf --sidecar destino.txt --deskew --skip-text --language spa --clean --remove-background
Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
No sé si te estas complicando demasiado. Yo simplemente escribo:
Y en 1 minuto o menos me lo convierte perfecto y mismo tamaño del original, o casi (en un par de ocasiones incluso de menor tamaño)
Code: Select all
cd ruta_donde_esta_archivo
# ruta_donde_esta_archivo>> ocrmypdf documento.pdf documento_ocr.pdf
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Hola tomeu, me funciona mejor el OCR si le indico idioma, que corrija leve ángulo de escaneo, etc...
Empecé por el método sencillo sin parámetros, y fui haciendo pruebas hasta llegar al resultado del comando que os comento.
Como ya se los parámetros, solo cambio el nombre del fichero pdf de origen y de destino.
Empecé por el método sencillo sin parámetros, y fui haciendo pruebas hasta llegar al resultado del comando que os comento.
Como ya se los parámetros, solo cambio el nombre del fichero pdf de origen y de destino.
Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: Programa para editar pdf y pasarlo a OCR - PDF/A editable
Gracias por compartir
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
Como no he visto diferencia, me he quedado con la versión de los repositorios de Linux Mint.
Doy por solucionado este tema, ya que:
- Se han aportado al hilo cómo instalar diferentes versiones del software (repositorios, última versión mediante pip, y versión appimage)
- Web oficial de la aplicación
- Uso de la aplicación y parámetros que pueden usarse, para optimizar el OCR y generar el PDF destino
Doy por solucionado este tema, ya que:
- Se han aportado al hilo cómo instalar diferentes versiones del software (repositorios, última versión mediante pip, y versión appimage)
- Web oficial de la aplicación
- Uso de la aplicación y parámetros que pueden usarse, para optimizar el OCR y generar el PDF destino
Linux Mint 21 Vanessa. Lenovo thinkpad T460
Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
Yo también me hubiera quedado con la versión del repositorio, pero en mi caso las diferencias de la ver 9.5 frente a la 6.1 son más que notables:
1.- Calidad del resultado tras pasar el pdf a ocr: en ocasiones incluso se ve más nítido que el original.
2.- Mayor rapidez en la conversión.
3.- Mayor facilidad: por regla general no hay que ir añadiendo comandos adicionales.
Y sobre todo:
4.- Peso/tamaño del resultado: Ejemplo:
Un documento de unas 20 páginas con 2.9 Mb al usar la versión 6.1 del repositorio ha pasado a pesar 5.0 Mb y una calidad "regular"; con la versión 9.5 ha pasado a pesar 3.1 Mb con buena calidad.
Si ese documento es solo 1 de tropecientos a enviar, ya no hay color.
Sea como fuere poder contar con el programa 'ocrmypdf' en el repositorio es extraordinario.
"Master PDF editor" también permite pasar pdf a ocr/pdf-a pero hay fallos notables (versión 4.3.89)
Linux Mint Uma 20.2 Cinnamon 5.0
Por favor, recuerda añadir al título el 'palabro' "[SOLUCIONADO]" si el problema o cuestión ha quedado resuelto. Gracias
Re: [SOLUCIONADO] Programa para editar pdf y pasarlo a OCR - PDF/A editable
El uso que le doy no es tan intenviso, y la versión de la paquetería de Mint me vale.
Hice pruebas comparándola con la versión appimage (con los mismos parámetros), y el resultado era similar, en calidad a simple vista, y el peso en MB era similar también.
Hice pruebas comparándola con la versión appimage (con los mismos parámetros), y el resultado era similar, en calidad a simple vista, y el peso en MB era similar también.
Linux Mint 21 Vanessa. Lenovo thinkpad T460