PrimTux, la distribution éducative
OCR Tesseract pour PrimTux-Dys - Version imprimable

+- PrimTux, la distribution éducative (https://forum.primtux.fr)
+-- Forum : PrimTux: LA DISTRIBUTION: présentation, aide et développement (https://forum.primtux.fr/forumdisplay.php?fid=5)
+--- Forum : Foire aux questions (https://forum.primtux.fr/forumdisplay.php?fid=15)
+--- Sujet : OCR Tesseract pour PrimTux-Dys (/showthread.php?tid=707)



OCR Tesseract pour PrimTux-Dys - ideefixe - 30-06-2017

Bonjour,

j'ai demandé de l'aide pour obtenir une solution de reconnaissance de caractères pour PrimTux-Dys,
sur le forum de AccessDV Linux.

ideefixe a écrit :Bonjour Smile

Dans la présentation générale d'AccessDV Linux, je lis que le logiciel OCR intégré est Tesseract.
https://fr.wikipedia.org/wiki/Tesseract_(logiciel)

Suffit-il d'installer ce logiciel dans une Debian Jessie,
de scanner un document avec un appareil compatible,
pour que le texte s'affiche dans LibreOffice,
comme dans cette vidéo ?
https://www.youtube.com/watch?v=p08BT3piiNQ

Voulez-vous publier un tutoriel pour montrer comment installer les logiciels nécessaires à la machine à lire,
surtout pour sa fonction OCR ?

C'est pour aider des enfants dyslexiques, gratuitement.
http://wiki.primtux.fr/doku.php/primtux2-dys

Citation :Avec AcessDV Linux, les secrétaires risquent de gagner du temps, car il retranscrit sur - presque - n'importe quel logiciel de traitement de texte un document en moins de trois minutes.
http://www.ouest-france.fr/pays-de-la-loire/chateaubriant-44110/handydv-linux-un-logiciel-revolutionnaire-4444594

Merci pour votre aide.

Cordialement



OCR Tesseract pour PrimTux-Dys - Steph - 01-07-2017

Le problème c'est que la reconnaissance passe par la ligne de commande...


OCR Tesseract pour PrimTux-Dys - ideefixe - 02-07-2017

Ector utilise Tesseract dans des scripts, ce qui permet d'augmenter la qualité de l'OCR, et de créer des outils simples à utiliser.

Si la qualité de l'image est bonne, le résultat est très bon, voici un exemple : https://www.youtube.com/watch?v=nrMteqXhT_Q

https://debian-facile.org/atelier:chantier:tesseract-ocr


OCR Tesseract pour PrimTux-Dys - ideefixe - 03-07-2017

Une interface graphique pour Tesseract http://www.nplug.be/ocr

Le reconnaissance optique de caractères est possible sous Linux avec différents outils comme Tesseract et gImageReader.

Ce dernier étant une interface graphique "conviviale" pour Tesseract qui fonctionne habituellement uniquement en ligne de commande.

[Image: ocr:gimagereader-screenshot.png]

Pour installer ces logiciels il faut lancer dans un terminal les commandes suivantes:
sudo add-apt-repository ppaConfusedandromani/gimagereader
sudo apt-get update
sudo apt-get install gimagereader-gtk tesseract-ocr tesseract-ocr-fra tesseract-ocr-eng

Cette procédure fonctionne pour Ubuntu 14.04-16.06 et bien sûr Linux Mint 17-18.

Un raccourci gImageReader est créé dans la section graphisme. Les deux derniers paramètres indiquent l'installation des langues françaises et anglaises.