Free OCR : un service reconnaissance de caractères en ligne

Christophe Laporte |
Free OCR est un service de reconnaissance en ligne simple d'emploi et gratuit, qui devrait suffire à tous ceux qui ont des besoins occasionnels de ce genre d'outils.



Il suffit d'envoyer le fichier en question, de spécifier la langue et le tour est joué. Free OCR accepte les documents PDF ainsi que les images au format JPG, GIF, TIFF et BMP. Les fichiers ne doivent pas excéder 2 Mo.

Sur le même sujet :
- Pour convertir des PDF en format .DOC
Tags
avatar Liyad | 

Un petit test aurait été le bien venu, voir si le programme fonctionne bien...

avatar julmomo | 

et bien vas-y Liyad, comme on dit, "fais toi plaiz", teste tous les formats et dis nous si tout fonctionne bien ;).

avatar Arsenal Gear | 

Pour traduire l'écriture abominable du cousin Patrick ? ^^

avatar alargeau (non vérifié) | 

Je viens de faire un test avec un PDF, en français donc, et là, résultat catastrophique !! Je n'ai que des symboles, et il y a en tout et pour tout 3 mots qui ont été reconnus alors qu'il y en avait bien plus. Oh oui, bien plus !
J'ai fait un autre test, en anglais cette fois-ci. Première surprise, on a bien des mots et non plus des symboles, mais il semble que lorsque le texte est en colonnes, ça pose problème au système...

avatar PowerGif88 | 

chez moi ça marche nickel avec jpg et gif en N&B tres contrasté

avatar tabaluga72 | 

Sinon, vous connaissez des soft OCR?

J'ai trouvé omnipage, est ce qu'il est efficace?

Vous utilisez quel soft? :-)

Merci

avatar Le docteur | 

Omnipage X est daté (2003), et il était déjà en retard par rapport à son cousin PC (Omnipage 14, si je ne m'abuse).
ReadIris 11 est plus récent et performant.
Il y a aussi une version de Abbyy FineReader mais il faut savoir que c'est une version "Express" qui est quasiment dépourvu de réglage.

Pour donner une exemple, s'il s'agit de récupérer rapidement du texte avec une mise en page correcte et assez facile à réutiliser, en format Word (beurk!) FineReader fait le job plutôt bien. ReadIris donne des mises en page un peu plus casse-b... à réutiliser dans ce cas de figure. Les résultats finaux sont bons sans avoir à faire attention et on peut corriger les dernières erreurs à même le fichier Word (pour ma part, transformé en Pages via une transformation en DOC.X par Word).

ReadIris lui marche mieux dans le cadre d'articles .PDF propre pour avoir du PDF indexable et bien lisible. Il permet, lui de corriger pendant la reconnaissance. FineReader dégrade trop les PDF pour que ce soit viable (qualité divisée par 2, je crois, par rapport à mes .PDF de base). Et comme il n'y a pas de réglage disponible c'est inutilisable.

Résumé : si on veut faire des .PDF de qualité il vaut mieux utiliser ReadIris, si on ne veut que du texte éditable dans un traitement de texte ou si on ne s'inquiète pas de la qualité de ses .PDF FineReader est bien. Il est même plus expéditif est restitue bien la mise en page...

avatar Le docteur | 

Ah! Le détail du prix.
- Si tu as "trouvé" Omnipage -> tu l'as déjà. Eh bien utilise-le.
Part contre l'acheter, au prix dément pratiqués par exemple par Amazon, il vaut mieux oublier.
- ReadIris doit valoir dans certains cas de figure 129 euro mais descend bien en-dessous dans de nombreux cas de figure (j'ai l'impression d'en avoir vu un à 49 euros à la Fnac, et il reste les circuits type eBay).
- FineReader tape à 89 euros.

avatar Le docteur | 

Crédiou la faute énorme que j'ai faite plus haut...

avatar Sanbirdette | 

Il y aura bientôt de l'OCR en 10 langues (dont le français) dans Prizmo de Creaceed. Sortie prévue en septembre, et il ne coûte que $40 (soit une trentaine d'euros).
http://www.creaceed.com/fr/prizmo/

avatar Le docteur | 

Si je confirme, ça ne marche pas cette reconnaissance en ligne-là.. (Free OCR)

avatar Le docteur | 

Oui, mais qui fournit le moteur Sanbirdette.
Au hasard : Abbyy ???

avatar tabaluga72 | 

Merci bien :-)

C'est vrai que Omnipage est assez vieux...

Je vais essayer ReadIris et Prizmo... Ce dernier m'intéresse assez car je n'ai pas de scanner. :-)

En fait c'est juste pour récupérer des recettes et rentrer le résultat dans le Yummy.

avatar Sanbirdette | 

@ Le docteur
Ce n'est ni Abbyy ni de l'open source (car résultats médiocres). Mais bien une autre entreprise américaine spécialisée depuis de nombreuses années dans l'OCR.

avatar _remi | 

utiliser directement l'OCR d'Acrobat, il fonctionne bien... (150 dpi mini en N&B)

avatar Misterjn | 

C'est une très bonne initiative je trouve ! J'ai testé sur différents documents :
Sur un png de bonne qualité c'est pas mal du tout. Par contre dès que ça commence à être trèès légèrement flou ça déraille complètement ! Et c'est bien dommage.

Enfin moi ce dont je rêve la plus c'est la même chose mais pour des partitions de musique :D
Ah je sais j'en demande un peu trop...

avatar Le docteur | 

_remi ... on parle bien du logiciel à plus de 600 euros, là ???

avatar biniou | 

Quelle confidentialité pour un tel service ?

avatar YARK | 

Sinon, pommeA - pommeC dans le pdf et pommeV dans Textedit : on récupère tout le texte à condition qu'il n'ait pas subi d'effet de transparence ou de vectorisation.
Bon d'accord, le texte arrive en vrac, mais ça peut dépanner.

Sinon il y aurait la solution PDF2ID qui analyse le pdf et retranscrit tout ce qu'il peut retranscrire dans un document InDesign. Donc forcément avec des limites.
Pas trouvé le temps d'essayer. Si quelqu'un a des infos...

avatar Moonwalker | 

L'OCR d'Acrobat c'est ReadIris ; il y a un accord entre les deux sociétés.

Tous les scanners ont un OCR plus ou moins développé. Généralement, c'est un module ReadIris chez HP, une version light de Omnipage sur les anciens Canon (le MP Navigator se charge de ça aujourd'hui sur les modèles récents). C'est suffisant pour récupérer du texte.

avatar Pousse | 

[quote=Biniou].
Quelle confidentialité pour un tel service ?
[/quote]
Elle est totale.
Une fois les infos captées par les américains dans le système Echelon, plus rien de ressort des USA. :-P

avatar Le docteur | 

Yark - Oui mais ce n'est plus de la reconnaissance de texte, c'est la récupération d'un texte déjà numérisé dans un .PDF.
Dans un scan, ça ne marche plus...

avatar The F0x | 

[quote]c'est un module ReadIris chez HP, une version light de Omnipage sur les anciens Canon[/quote]

et comme canon vient d'acheter une grosse partie d'IRIS, l'éditeur de ReadIRIS, je parie que dans pas longtemps les scanner canon seront livrées avec ReadIRIS, et pour les HP a mon avis c'est moins sur.

CONNEXION UTILISATEUR