IPB

Bienvenue invité ( Connexion | Inscription )

 
Reply to this topicStart new topic
> PDFZone : de l'automatisme dans un PDF, Réactions à la publication du 24/10/2017
Options
trouspinette
posté 24 Oct 2017, 13:10
Message #1


Macbidouilleur d'Or !
*****

Groupe : Rédacteurs
Messages : 5 053
Inscrit : 19 Feb 2002
Lieu : BZH
Membre no 2 083



Un de nos lecteurs (et développeur) produit un "petit" logiciel très sympathique, qui peut vous aider au quotidien: PDFZone.

Si vous traitez de façon récurrente des données depuis des PDF, PDFZone vous permet d'extraire de façon automatique du contenu au sein de ce type de document (numéros de facture, montants, etc.) Le contenu exporté le sera au format CSV (Comma-Separated Values - Valeurs séparées par des virgules, en français). Pour rappel, le format CSV est très utile pour ensuite l'intégrer dans une base de données, par exemple.

Vous commencez par créer une "liste de courses" d'objets à extraire (les définitions) puis les "fournisseurs" (les documents depuis lesquels vous souhaitez extraire) et PDFZone fait le boulot pour vous.

Ce type d'application peut, a priori, paraitre assez anecdotique, mais si vos PDF présentent une structure régulière et que vous avez besoin d'en extraire des valeurs, cet outil est diablement efficace, par sa simplicité d’usage et sa rapidité.

Il manque encore quelques fonctions qui pourraient le rendre encore plus attrayant : surveillance de HotFolder, pilotage à la ligne de commandes pour l'intégrer dans des scripts, etc. Le développeur est à l'écoute de vos demandes et ne manquera pas d'essayer de faire évoluer PDFZone dans ce sens.

Bref, un outil assez cool et sympathique, que nous vous invitons à tester.

PS : le produit n'est pas nouveau et fraichement né, mais une récente découverte et test nous ont paru utile d'en parler ;-)

Lien vers le billet original



--------------------
Quis custodiet ipsos custodes ? - Lorsqu'un sujet est résolu, merci d'indiquer [Résolu] dans le titre de votre post !

Luttons contre le style SMS !!!

iPhone 12Pro Max 256 Go iOS 15• MacBook Pro 16 2019 Core i9 - macOS 12.5 - 32 GB RAM - 2 TB • @Orange
Linux • OPNSense / pfSense • Une pointe de Windows aussi • Enfocus Switch Expert • callas pdfToolBox
Go to the top of the page
 
+Quote Post
Ralph_
posté 24 Oct 2017, 17:15
Message #2


Macbidouilleur d'argent !
***

Groupe : Membres
Messages : 664
Inscrit : 19 Jan 2008
Lieu : Paris, France
Membre no 105 640



A première vue, ça a l'air énorme.

Cela me fait penser à Idea de Caseware Analytics sur PC. Mais dont la licence est autrement plus onéreuse.

J'aurai préféré une full version limitée dans le temps pour faire des tests poussés et vérifier les capacités du logiciel.


--------------------
Animateur sur Planète Sony Ericsson
Qui saute pas n'est pas Marseillais!
MB Alu 2,4Ghz 4Go DDR3 250Go
Go to the top of the page
 
+Quote Post
ekami
posté 24 Oct 2017, 20:15
Message #3


Macbidouilleur d'Or !
*****

Groupe : Membres
Messages : 5 370
Inscrit : 9 Apr 2004
Membre no 17 402



C'est un extracteur de données PDF, une bien belle idée, bravo.
Si les PDF à "Parser" se ressemblent, ça rendra surement bien des services.


--------------------
Exif Photoworker: Renommez et organisez vos photos et vidéos en quelques clics (téléchargement et période d'essai gratuits).
Go to the top of the page
 
+Quote Post
__otto__
posté 24 Oct 2017, 20:22
Message #4


Macbidouilleur de vermeil !
****

Groupe : Membres
Messages : 1 253
Inscrit : 28 Mar 2011
Membre no 165 999



C'a l'air pas mal ce petit utilitaire! Que de temps gagner!!!


--------------------
Je suis plus Charlie depuis que
je suis écouté

Mac Plus, SE 30, mac si, mac ci,mac lc (1,2,3,4), ppc (presque toutes les machines sauf les G5), imac 2011, macbook pro 2012
i7 3.4ghz, 16 go ram, ssd 512 Mo, 1 To HDD, GTX 1080 + GTX 980 histoire de dire, bref un pulvérisateur de mac pro!
Et mon nouveau beau joujou : 2080 Core + 260 NVIDIA TESLA K20X 4,1 To de RAM et quelques centaines de To stockage! et accessoirement ça chauffe bien!
Go to the top of the page
 
+Quote Post
ashorlivs
posté 25 Oct 2017, 02:46
Message #5


Macbidouilleur de bronze !
**

Groupe : Membres
Messages : 400
Inscrit : 15 Dec 2006
Membre no 75 742



Ça serait vraiment pratique d'avoir une version utilisable en ligne de commande qui tourne sous Linux afin de m'en servir pour des webapps pro.
Go to the top of the page
 
+Quote Post
Cri-cri
posté 25 Oct 2017, 08:43
Message #6


Champollion 2k5
*****

Groupe : Modérateurs
Messages : 7 008
Inscrit : 15 Jun 2003
Lieu : ...partout et nulle part...
Membre no 8 070



Cela me rappelle certains automates que j'ai créé avec des outils CLI ou avec Hazel.

Là, c'est tout en un, via une interface, et c'est très facile à utiliser smile.gif

A noter que le logiciel est en promo à -50% en ce moment (14,99€) et qu'il existe une version Lite gratuite.
Je vais me laisser tenter smile.gif

Au niveau des améliorations, ce serait effectivement super de régler tout le paramétrage sur l'interface graphique, puis ensuite de pouvoir générer un automate batch/CLI/hot folder pour automatiser les traitements.


--------------------


MacBook Pro 16" M1 Max Monterey
Don't believe anything you read on the net. Except this. Well, including this, I suppose (Douglas Adams)
Perhaps the answer to the question lies in the question (Police Me - Tori Amos)
Go to the top of the page
 
+Quote Post
Yoric
posté 25 Oct 2017, 11:24
Message #7


Adepte de Macbidouille
*

Groupe : Membres
Messages : 132
Inscrit : 2 Apr 2004
Lieu : Evian
Membre no 17 086



Belle idée, et excellente réalisation.

Dans mon boulot, nous avons développé un traitement batch qui analyse des factures fournisseurs au format PDF pour récupérer des élements comme le numéro de facture, le nom du fournisseur, etc...

Bref, exactement la même utilisation que dans la vidéo !
(je n'ai pas compris "comment" fonctionne la reconnaissance ici: position (x,y), texte avant / après ? est-ce qu'il y a une analyse OCR ?)

Par contre, la différence avec nous, est que nous avoins besoin d'un processus entièrement automatisé, qui ne nécessite pas de "clic" dans une interface:
- La facture est déposée dans un dossier automatiquement en provenance du scanner
- Un script en crontab surveille le dossier, détecte un nouveau PDF à traiter, et lance l'analyse.
- L'analyse à proprement parlé repose sur la lib "tesseract-ocr-for-php" dispo sur github ici: https://github.com/thiagoalessio/tesseract-ocr-for-php
- Dans notre cas, les données capturées sont ensuite directement transférées dans une base Mysql

L'interface est sexy et user-friendly,
si en plus on peux utiliser le programme en ligne de commande (ou autre) pour automatiser le traitement sur des PDF qui se trouveraient à consommer en entrée dans un dossier source, cela peut être un plus.
Go to the top of the page
 
+Quote Post
vom
posté 26 Oct 2017, 09:31
Message #8


Adepte de Macbidouille
*

Groupe : Membres
Messages : 46
Inscrit : 6 May 2017
Membre no 202 086



Bonjour,

merci à tous pour vos retours très positifs, ça fait plaisir !

Il semble clair qu'une interface en ligne de commande (CLI) vous intéresserait. Je vous annonce que cette fonctionnalité sera proposée dans la prochaine version, qui sera un update gratuit, comme tous les updates de l'app d'ailleurs.

Citation (Yoric @ 25 Oct 2017, 12:24) *
Belle idée, et excellente réalisation.

Dans mon boulot, nous avons développé un traitement batch qui analyse des factures fournisseurs au format PDF pour récupérer des élements comme le numéro de facture, le nom du fournisseur, etc...

Bref, exactement la même utilisation que dans la vidéo !
(je n'ai pas compris "comment" fonctionne la reconnaissance ici: position (x,y), texte avant / après ? est-ce qu'il y a une analyse OCR ?)

L'interface est sexy et user-friendly,
si en plus on peux utiliser le programme en ligne de commande (ou autre) pour automatiser le traitement sur des PDF qui se trouveraient à consommer en entrée dans un dossier source, cela peut être un plus.

Merci! Alors pour le fonctionnement, c'est un savant mélange de positions/analyse de texte afin que le logiciel fonctionne avec des PDFs scannés (et les variations de position qui en découlent). Il y a aussi la fonctionnalité "voisin de confiance" (très utile !) qui permet de gérer des PDFs dont la structure peut changer (ex: le total d'une facture qui peut se trouver à un autre endroit si il y a un plus grand nombre d'objets composant cette facture).

Le logiciel ne fait pas d'OCR, ce n'est pas le but premier, il y a d'autres logiciels qui font ça très bien. PDFZone fonctionne avec des PDFs passés par de l'OCR, ou générés éléctroniquement.
L'OCR pourrait être ajouté pour faciliter l'utilisation, mais ce n'est pas une priorité pour l'instant. L'interface en ligne de commande semble plus utile dans un premier temps.

N'hésitez pas si vous avez d'autres recommandations, j'en tiendrai volontiers compte! smile.gif


--------------------
Go to the top of the page
 
+Quote Post
Lionel
posté 26 Oct 2017, 10:16
Message #9


BIDOUILLE Guru
*****

Groupe : Admin
Messages : 55 226
Inscrit : 14 Jan 2001
Lieu : Paris
Membre no 3



ça me fait plaisir de voir que des développeurs arrivent encore à simplifier au quotidien la vie de gens plutôt que de vouloir la changer, transformer, révolutionner pour pas grand chose.


--------------------
C'est parce que la vitesse de la lumière est plus grande que celle du son que tant de gens paraissent brillants avant d'avoir l'air con
Go to the top of the page
 
+Quote Post
vom
posté 31 Oct 2017, 13:21
Message #10


Adepte de Macbidouille
*

Groupe : Membres
Messages : 46
Inscrit : 6 May 2017
Membre no 202 086



Citation (Lionel @ 26 Oct 2017, 11:16) *
ça me fait plaisir de voir que des développeurs arrivent encore à simplifier au quotidien la vie de gens plutôt que de vouloir la changer, transformer, révolutionner pour pas grand chose.

Merci smile.gif


--------------------
Go to the top of the page
 
+Quote Post
vom
posté 1 Dec 2017, 11:35
Message #11


Adepte de Macbidouille
*

Groupe : Membres
Messages : 46
Inscrit : 6 May 2017
Membre no 202 086



Je me permets une petite mise à jour qui intéressera les francophones laugh.gif :

--> après l'app elle-même, le site web a été entièrement traduit en français.

Le résultat est ici : PDFZone en français

Je reste bien entendu toujours à l'écoute de vos commentaires ! smile.gif

Ce message a été modifié par vom - 1 Dec 2017, 11:36.


--------------------
Go to the top of the page
 
+Quote Post
vom
posté 23 Dec 2017, 10:53
Message #12


Adepte de Macbidouille
*

Groupe : Membres
Messages : 46
Inscrit : 6 May 2017
Membre no 202 086



smile.gif
La version 1.2 est sortie avec au programme :

Nouveautés
- toutes les options d'exportation (+ copie) sont sauvegardées dans la config --> plus besoin de les changer à chaque exportation

Corrections
- Workaround pour le bug du à High Sierra --> la sélection des valeurs est de nouveau "mise en évidence" (= en couleur)
- Bug très rare où l'ordre des colonnes lors de l'exportation n'était pas sauvegardé correctement
- Traduction manquante dans la vue Fournisseurs
- Autres corrections mineures

La mise à jour est bien entendu offerte à tous ! Rendez-vous sur le Mac App Store.

--------------------

Au programme pour les prochaines versions :

- renommage des PDFs sur base des valeurs extraites --> très utile
- interface en ligne de commande pour une meilleur intégration dans vos flux

Ce message a été modifié par vom - 23 Dec 2017, 10:53.


--------------------
Go to the top of the page
 
+Quote Post

Reply to this topicStart new topic
1 utilisateur(s) sur ce sujet (1 invité(s) et 0 utilisateur(s) anonyme(s))
0 membre(s) :

 



Nous sommes le : 21st September 2023 - 10:47