![]() |
Bienvenue invité ( Connexion | Inscription )
![]() ![]() |
![]() |
![]()
Message
#1
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Rédacteurs Messages : 5 053 Inscrit : 19 Feb 2002 Lieu : BZH Membre no 2 083 ![]() |
Un de nos lecteurs (et développeur) produit un "petit" logiciel très sympathique, qui peut vous aider au quotidien: PDFZone.
Si vous traitez de façon récurrente des données depuis des PDF, PDFZone vous permet d'extraire de façon automatique du contenu au sein de ce type de document (numéros de facture, montants, etc.) Le contenu exporté le sera au format CSV (Comma-Separated Values - Valeurs séparées par des virgules, en français). Pour rappel, le format CSV est très utile pour ensuite l'intégrer dans une base de données, par exemple. Vous commencez par créer une "liste de courses" d'objets à extraire (les définitions) puis les "fournisseurs" (les documents depuis lesquels vous souhaitez extraire) et PDFZone fait le boulot pour vous. Ce type d'application peut, a priori, paraitre assez anecdotique, mais si vos PDF présentent une structure régulière et que vous avez besoin d'en extraire des valeurs, cet outil est diablement efficace, par sa simplicité d’usage et sa rapidité. Il manque encore quelques fonctions qui pourraient le rendre encore plus attrayant : surveillance de HotFolder, pilotage à la ligne de commandes pour l'intégrer dans des scripts, etc. Le développeur est à l'écoute de vos demandes et ne manquera pas d'essayer de faire évoluer PDFZone dans ce sens. Bref, un outil assez cool et sympathique, que nous vous invitons à tester. PS : le produit n'est pas nouveau et fraichement né, mais une récente découverte et test nous ont paru utile d'en parler ;-) Lien vers le billet original -------------------- Quis custodiet ipsos custodes ? - Lorsqu'un sujet est résolu, merci d'indiquer [Résolu] dans le titre de votre post !
Luttons contre le style SMS !!! iPhone 12Pro Max 256 Go iOS 15• MacBook Pro 16 2019 Core i9 - macOS 12.5 - 32 GB RAM - 2 TB • @Orange Linux • OPNSense / pfSense • Une pointe de Windows aussi • Enfocus Switch Expert • callas pdfToolBox |
|
|
![]()
Message
#2
|
|
![]() Macbidouilleur d'argent ! ![]() ![]() ![]() Groupe : Membres Messages : 664 Inscrit : 19 Jan 2008 Lieu : Paris, France Membre no 105 640 ![]() |
A première vue, ça a l'air énorme.
Cela me fait penser à Idea de Caseware Analytics sur PC. Mais dont la licence est autrement plus onéreuse. J'aurai préféré une full version limitée dans le temps pour faire des tests poussés et vérifier les capacités du logiciel. -------------------- |
|
|
![]()
Message
#3
|
|
![]() Macbidouilleur d'Or ! ![]() ![]() ![]() ![]() ![]() Groupe : Membres Messages : 5 370 Inscrit : 9 Apr 2004 Membre no 17 402 ![]() |
C'est un extracteur de données PDF, une bien belle idée, bravo.
Si les PDF à "Parser" se ressemblent, ça rendra surement bien des services. -------------------- Exif Photoworker: Renommez et organisez vos photos et vidéos en quelques clics (téléchargement et période d'essai gratuits).
|
|
|
![]()
Message
#4
|
|
Macbidouilleur de vermeil ! ![]() ![]() ![]() ![]() Groupe : Membres Messages : 1 253 Inscrit : 28 Mar 2011 Membre no 165 999 ![]() |
C'a l'air pas mal ce petit utilitaire! Que de temps gagner!!!
-------------------- Je suis plus Charlie depuis que
je suis écouté Mac Plus, SE 30, mac si, mac ci,mac lc (1,2,3,4), ppc (presque toutes les machines sauf les G5), imac 2011, macbook pro 2012 i7 3.4ghz, 16 go ram, ssd 512 Mo, 1 To HDD, GTX 1080 + GTX 980 histoire de dire, bref un pulvérisateur de mac pro! Et mon nouveau beau joujou : 2080 Core + 260 NVIDIA TESLA K20X 4,1 To de RAM et quelques centaines de To stockage! et accessoirement ça chauffe bien! |
|
|
![]()
Message
#5
|
|
![]() Macbidouilleur de bronze ! ![]() ![]() Groupe : Membres Messages : 400 Inscrit : 15 Dec 2006 Membre no 75 742 ![]() |
Ça serait vraiment pratique d'avoir une version utilisable en ligne de commande qui tourne sous Linux afin de m'en servir pour des webapps pro.
|
|
|
![]()
Message
#6
|
|
![]() Champollion 2k5 ![]() ![]() ![]() ![]() ![]() Groupe : Modérateurs Messages : 7 008 Inscrit : 15 Jun 2003 Lieu : ...partout et nulle part... Membre no 8 070 ![]() |
Cela me rappelle certains automates que j'ai créé avec des outils CLI ou avec Hazel.
Là, c'est tout en un, via une interface, et c'est très facile à utiliser ![]() A noter que le logiciel est en promo à -50% en ce moment (14,99€) et qu'il existe une version Lite gratuite. Je vais me laisser tenter ![]() Au niveau des améliorations, ce serait effectivement super de régler tout le paramétrage sur l'interface graphique, puis ensuite de pouvoir générer un automate batch/CLI/hot folder pour automatiser les traitements. -------------------- ![]() ![]() MacBook Pro 16" M1 Max Monterey Don't believe anything you read on the net. Except this. Well, including this, I suppose (Douglas Adams) Perhaps the answer to the question lies in the question (Police Me - Tori Amos) |
|
|
![]() ![]()
Message
#7
|
|
![]() Adepte de Macbidouille ![]() Groupe : Membres Messages : 132 Inscrit : 2 Apr 2004 Lieu : Evian Membre no 17 086 ![]() |
Belle idée, et excellente réalisation.
Dans mon boulot, nous avons développé un traitement batch qui analyse des factures fournisseurs au format PDF pour récupérer des élements comme le numéro de facture, le nom du fournisseur, etc... Bref, exactement la même utilisation que dans la vidéo ! (je n'ai pas compris "comment" fonctionne la reconnaissance ici: position (x,y), texte avant / après ? est-ce qu'il y a une analyse OCR ?) Par contre, la différence avec nous, est que nous avoins besoin d'un processus entièrement automatisé, qui ne nécessite pas de "clic" dans une interface: - La facture est déposée dans un dossier automatiquement en provenance du scanner - Un script en crontab surveille le dossier, détecte un nouveau PDF à traiter, et lance l'analyse. - L'analyse à proprement parlé repose sur la lib "tesseract-ocr-for-php" dispo sur github ici: https://github.com/thiagoalessio/tesseract-ocr-for-php - Dans notre cas, les données capturées sont ensuite directement transférées dans une base Mysql L'interface est sexy et user-friendly, si en plus on peux utiliser le programme en ligne de commande (ou autre) pour automatiser le traitement sur des PDF qui se trouveraient à consommer en entrée dans un dossier source, cela peut être un plus. |
|
|
![]()
Message
#8
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 46 Inscrit : 6 May 2017 Membre no 202 086 ![]() |
Bonjour,
merci à tous pour vos retours très positifs, ça fait plaisir ! Il semble clair qu'une interface en ligne de commande (CLI) vous intéresserait. Je vous annonce que cette fonctionnalité sera proposée dans la prochaine version, qui sera un update gratuit, comme tous les updates de l'app d'ailleurs. Belle idée, et excellente réalisation. Dans mon boulot, nous avons développé un traitement batch qui analyse des factures fournisseurs au format PDF pour récupérer des élements comme le numéro de facture, le nom du fournisseur, etc... Bref, exactement la même utilisation que dans la vidéo ! (je n'ai pas compris "comment" fonctionne la reconnaissance ici: position (x,y), texte avant / après ? est-ce qu'il y a une analyse OCR ?) L'interface est sexy et user-friendly, si en plus on peux utiliser le programme en ligne de commande (ou autre) pour automatiser le traitement sur des PDF qui se trouveraient à consommer en entrée dans un dossier source, cela peut être un plus. Merci! Alors pour le fonctionnement, c'est un savant mélange de positions/analyse de texte afin que le logiciel fonctionne avec des PDFs scannés (et les variations de position qui en découlent). Il y a aussi la fonctionnalité "voisin de confiance" (très utile !) qui permet de gérer des PDFs dont la structure peut changer (ex: le total d'une facture qui peut se trouver à un autre endroit si il y a un plus grand nombre d'objets composant cette facture). Le logiciel ne fait pas d'OCR, ce n'est pas le but premier, il y a d'autres logiciels qui font ça très bien. PDFZone fonctionne avec des PDFs passés par de l'OCR, ou générés éléctroniquement. L'OCR pourrait être ajouté pour faciliter l'utilisation, mais ce n'est pas une priorité pour l'instant. L'interface en ligne de commande semble plus utile dans un premier temps. N'hésitez pas si vous avez d'autres recommandations, j'en tiendrai volontiers compte! ![]() -------------------- |
|
|
![]()
Message
#9
|
|
![]() BIDOUILLE Guru ![]() ![]() ![]() ![]() ![]() Groupe : Admin Messages : 55 226 Inscrit : 14 Jan 2001 Lieu : Paris Membre no 3 ![]() |
ça me fait plaisir de voir que des développeurs arrivent encore à simplifier au quotidien la vie de gens plutôt que de vouloir la changer, transformer, révolutionner pour pas grand chose.
-------------------- C'est parce que la vitesse de la lumière est plus grande que celle du son que tant de gens paraissent brillants avant d'avoir l'air con
|
|
|
![]()
Message
#10
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 46 Inscrit : 6 May 2017 Membre no 202 086 ![]() |
ça me fait plaisir de voir que des développeurs arrivent encore à simplifier au quotidien la vie de gens plutôt que de vouloir la changer, transformer, révolutionner pour pas grand chose. Merci ![]() -------------------- |
|
|
![]()
Message
#11
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 46 Inscrit : 6 May 2017 Membre no 202 086 ![]() |
Je me permets une petite mise à jour qui intéressera les francophones
![]() --> après l'app elle-même, le site web a été entièrement traduit en français. Le résultat est ici : PDFZone en français Je reste bien entendu toujours à l'écoute de vos commentaires ! ![]() Ce message a été modifié par vom - 1 Dec 2017, 11:36. -------------------- |
|
|
![]()
Message
#12
|
|
Adepte de Macbidouille ![]() Groupe : Membres Messages : 46 Inscrit : 6 May 2017 Membre no 202 086 ![]() |
![]() La version 1.2 est sortie avec au programme : Nouveautés - toutes les options d'exportation (+ copie) sont sauvegardées dans la config --> plus besoin de les changer à chaque exportation Corrections - Workaround pour le bug du à High Sierra --> la sélection des valeurs est de nouveau "mise en évidence" (= en couleur) - Bug très rare où l'ordre des colonnes lors de l'exportation n'était pas sauvegardé correctement - Traduction manquante dans la vue Fournisseurs - Autres corrections mineures La mise à jour est bien entendu offerte à tous ! Rendez-vous sur le Mac App Store. -------------------- Au programme pour les prochaines versions : - renommage des PDFs sur base des valeurs extraites --> très utile - interface en ligne de commande pour une meilleur intégration dans vos flux Ce message a été modifié par vom - 23 Dec 2017, 10:53. -------------------- |
|
|
![]() ![]() |
Nous sommes le : 21st September 2023 - 10:47 |