Version imprimable du sujet
Forums MacBidouille _ UNIX _ tesseract
Écrit par : fgiron 10 Jan 2022, 11:07
Bonjour,
À la recherche, il y a quelques semaines, d'un logiciel OCR, et ne trouvant pas satisfaction dans ce que propose l'Apple Store, l'idée me vint alors qu'il pût en exister en ligne de commande. Quelle bien m'en a pris.
J'ai trouvé tesseract dans la liste des paquets MacPort, et j'ai pu en expérimenter l'incroyable puissance.
À partir de scan pas parfaitement nets pris avec Scannable sur un vieil iPhone 4S envoyés sur mon iMac, le résultat dépasse tout ce que j'ai pu connaître auparavant. Sur quatre pages de texte, une seule erreur.
Il faut installer le paquet tesseract, puis les langues, au minimum l'anglais — tesseract-eng — et le français — tesseract-fra (sans l'anglais, ça ne fonctionne pas, à ce que j'ai pu observer).
Code
port list tesseract
tesseract @4.1.3 textproc/tesseract
tesseract --list-langs
List of available languages (4):
deu
eng
fra
grc
Voici la commande, en précisant en options la résolution de l'image et la langue:
Code
tesseract Source Cible --dpi 72 -l fra
En espérant que ce petit OCR en ligne de commande sera utile à quelques uns.
Écrit par : Fars 10 Jan 2022, 19:05
Merci pour l'info
Écrit par : ades 10 Jan 2022, 19:24
le test va venir ;-)
Peut-être déplacer le fil dans 'autres logiciels', il aura plus de chances d'être lu…
Écrit par : Phil J. Fry 10 Jan 2022, 21:43
Un logiciel OCR en ligne de commande ... Je pense qu'il a sa place dans la sectionn Unix
Écrit par : Laszlo Lebrun 10 Jan 2022, 22:23
Citation (fgiron @ 10 Jan 2022, 11:07)
J'ai trouvé tesseract dans la liste des paquets MacPort, et j'ai pu en expérimenter l'incroyable puissance.
...
En espérant que ce petit OCR en ligne de commande sera utile à quelques uns.
Ca décode les PDF d'images?
Euh... comme c'est in logiciel de Google, il fonctionne off-line, ou ca téléphone l'image à Google qui fait l'OCR, se sert au passge et renvoie le résultat?
Écrit par : baron 11 Jan 2022, 01:42
Ça semble bien travailler offline.
On trouve la doc ici :
• https://tesseract-ocr.github.io/tessdoc/ (Remarquable ! https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html… )
Et le logiciel :
• https://github.com/tesseract-ocr/tesseract/
Écrit par : Laszlo Lebrun 11 Jan 2022, 04:15
Citation (baron @ 11 Jan 2022, 01:42)
Et le logiciel :
• https://github.com/tesseract-ocr/tesseract/
Merci,
Ca m'a permis de trouver cela:
https://github.com/dynobo/normcap
Un logiciel génial, basé sur Tesseract, qui fait un OCR sur une partie de l'écran et met le résultat dans le presse-papiers.
Absolument utile pour la sauvegarde des messages d'erreurs (ou chaque fois le developpeur oublie de prévoir de rendre le message copiable) ou pour des listes de fichiers finder.
Gratos, naturellement, vous connaissez mieux?
Écrit par : Phil J. Fry 11 Jan 2022, 05:14
Pour les amateurs de Python (dont je suis) il y a https://pypi.org/project/pytesseract/ , un "wrapper" Python3 de tesseract.
Écrit par : Neutral_ch 11 Jan 2022, 08:14
Mais que font les Avengers?
Écrit par : Neutral_ch 11 Jan 2022, 08:37
Citation (baron @ 11 Jan 2022, 08:32)
Hooo tu me deçois Baron
mais c'est le matin, je te pardonne.
https://marvelcinematicuniverse.fandom.com/wiki/Tesseract
Écrit par : Laszlo Lebrun 11 Jan 2022, 09:18
Citation (Phil J. Fry @ 11 Jan 2022, 05:14)
Pour les amateurs de Python (dont je suis) il y a https://pypi.org/project/pytesseract/ , un "wrapper" Python3 de tesseract.
Tu serais capable de faire en python avec ca une appli qui "pompe" chaque seconde une valeur d'une page web par un simple lasso rectangulaire et la sort en texte?
Écrit par : Phil J. Fry 11 Jan 2022, 16:40
Ça dépasse de loin mes compétences
Écrit par : frankie00 26 Dec 2023, 07:23
installé normcap, il se lance normalement via Terminal
Mais en sélectionnant une fenêtre de safari, normalement un liséré rouge doit apparaître tout autour de la fenêtre d'après la doc.
Or c'est pas le cas
Écrit par : Laszlo Lebrun 26 Dec 2023, 09:35
Citation (Laszlo Lebrun @ 11 Jan 2022, 09:18)
Citation (Phil J. Fry @ 11 Jan 2022, 05:14)
Pour les amateurs de Python (dont je suis) il y a https://pypi.org/project/pytesseract/ , un "wrapper" Python3 de tesseract.
Tu serais capable de faire en python avec ca une appli qui "pompe" chaque seconde une valeur d'une page web par un simple lasso rectangulaire et la sort en texte?
Update: je suis allé voir les gentils hackers du Chaos Computer Club, mon idée leur a plu. Ils s'y sont pris autrement, mais j'ai mon programme Python qui ronronne.
Citation (frankie00 @ 26 Dec 2023, 07:23)
installé normcap, il se lance normalement via Terminal
Mais en sélectionnant une fenêtre de safari, normalement un liséré rouge doit apparaître tout autour de la fenêtre d'après la doc.
Or c'est pas le cas
Ça marche pour les autres applis?
Est ce que tu a donné les autorisations a Normcap?
Écrit par : frankie00 26 Dec 2023, 12:36
Citation (Laszlo Lebrun @ 26 Dec 2023, 09:35)
...
Citation (frankie00 @ 26 Dec 2023, 07:23)
installé normcap, il se lance normalement via Terminal
Mais en sélectionnant une fenêtre de safari, normalement un liséré rouge doit apparaître tout autour de la fenêtre d'après la doc.
Or c'est pas le cas
Ça marche pour les autres applis?
Est ce que tu a donné les autorisations a Normcap?
Ça marche super bien: il suffisait d'autoriser les notifications pythons
Je sens que ça va me servir ce truc, merci
Propulsé par Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)