doc.ubuntu-fr.org Open in urlscan Pro
84.96.242.54  Public Scan

URL: https://doc.ubuntu-fr.org/tesseract-ocr
Submission: On January 06 via api from FI — Scanned from FR

Form analysis 16 forms found in the DOM

GET //forum.ubuntu-fr.org/search_ubuntufr.php

<form action="//forum.ubuntu-fr.org/search_ubuntufr.php" accept-charset="utf-8" class="navbar-form navbar-left search" id="dw__search" method="get" role="search">
  <div class="no"><input id="qsearch" autocomplete="off" type="search" placeholder="Rechercher" accesskey="f" name="q" class="form-control" title="[F]"><button type="submit" title="Rechercher"><i class="fa fa-fw fa-search"></i></button><input
      type="hidden" name="do" value="search"><input type="hidden" name="tsearch" value="wiki"></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Tesseract OCR] "><input type="hidden" name="target" value="section"><input type="hidden"
      name="hid" value="tesseract_ocr"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="46-1335"><button type="submit" title="Tesseract OCR"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Installation] "><input type="hidden" name="target" value="section"><input type="hidden"
      name="hid" value="installation"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="1336-1978"><button type="submit" title="Installation"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Utilisation] "><input type="hidden" name="target" value="section"><input type="hidden"
      name="hid" value="utilisation"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="1979-2500"><button type="submit" title="Utilisation" class="btn btn-default btn btn-xs btn-default">Modifier</button>
  </div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Erreur à l'utilisation] "><input type="hidden" name="target" value="section"><input
      type="hidden" name="hid" value="erreur_a_l_utilisation"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="2501-3225"><button type="submit" title="Erreur à l'utilisation"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En ligne de commande] "><input type="hidden" name="target" value="section"><input
      type="hidden" name="hid" value="en_ligne_de_commande"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="3226-3803"><button type="submit" title="En ligne de commande"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Les options de langues] "><input type="hidden" name="target" value="section"><input
      type="hidden" name="hid" value="les_options_de_langues"><input type="hidden" name="codeblockOffset" value="3"><input type="hidden" name="range" value="3804-4581"><button type="submit" title="Les options de langues"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec « gscan2pdf »] "><input type="hidden" name="target"
      value="section"><input type="hidden" name="hid" value="en_mode_graphique_avec_gscan2pdf"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="4582-4700"><button type="submit"
      title="En mode graphique avec « gscan2pdf »" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec XSane] "><input type="hidden" name="target" value="section"><input
      type="hidden" name="hid" value="en_mode_graphique_avec_xsane"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="4701-5184"><button type="submit" title="En mode graphique avec XSane"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec YAGF] "><input type="hidden" name="target" value="section"><input
      type="hidden" name="hid" value="en_mode_graphique_avec_yagf"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="5185-5282"><button type="submit" title="En mode graphique avec YAGF"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec gimagereader] "><input type="hidden" name="target"
      value="section"><input type="hidden" name="hid" value="en_mode_graphique_avec_gimagereader"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="5283-5404"><button type="submit"
      title="En mode graphique avec gimagereader" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary"
      value="[Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG] "><input type="hidden" name="target" value="section"><input type="hidden" name="hid"
      value="pour_une_reconnaissance_optique_directe_dans_libreoffice_writer_de_fichiers_png_ou_jpg"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="5405-8808"><button type="submit"
      title="Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary"
      value="[Autre méthode : pour une reconnaissance optique directe d'un ou plusieurs fichiers PNG ou JPG dans Nautilus] "><input type="hidden" name="target" value="section"><input type="hidden" name="hid"
      value="autre_methodepour_une_reconnaissance_optique_directe_d_un_ou_plusieurs_fichiers_png_ou_jpg_dans_nautilus"><input type="hidden" name="codeblockOffset" value="5"><input type="hidden" name="range" value="8809-9661"><button type="submit"
      title="Autre méthode : pour une reconnaissance optique directe d'un ou plusieurs fichiers PNG ou JPG dans Nautilus" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Utilisation avancée : Amélioration de la reconnaissance] "><input type="hidden" name="target"
      value="section"><input type="hidden" name="hid" value="utilisation_avanceeamelioration_de_la_reconnaissance"><input type="hidden" name="codeblockOffset" value="6"><input type="hidden" name="range" value="9662-9951"><button type="submit"
      title="Utilisation avancée : Amélioration de la reconnaissance" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Désinstallation] "><input type="hidden" name="target" value="section"><input type="hidden"
      name="hid" value="desinstallation"><input type="hidden" name="codeblockOffset" value="6"><input type="hidden" name="range" value="9952-10362"><button type="submit" title="Désinstallation"
      class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

POST /tesseract-ocr

<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
  <div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Liens] "><input type="hidden" name="target" value="section"><input type="hidden" name="hid"
      value="liens"><input type="hidden" name="codeblockOffset" value="6"><input type="hidden" name="range" value="10363-"><button type="submit" title="Liens" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>

Text Content

Wiki ubuntu-frLa Documentation francophone
 * Accueil
 * Forum
 * Planet

 * Outils
   * Outils du site
   * Derniers changements
   * Gestionnaire Multimédia
   * Plan du site
   * 
   * Outils de la page
   * Modifier cette page
   * Anciennes révisions
   * Liens de retour
   * Haut de page

 * S'identifier

Xenial Trusty ocr bureautique tesseract-ocr


 * Modifier cette page
 * 
 * Liens de retour

TABLE DES MATIÈRES

 * Installation
 * Utilisation
   * En ligne de commande
   * Les options de langues
   * En mode graphique avec « gscan2pdf »
   * En mode graphique avec XSane
   * En mode graphique avec YAGF
   * En mode graphique avec gimagereader
   * Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers
     PNG ou JPG
   * Autre méthode : pour une reconnaissance optique directe d'un ou plusieurs
     fichiers PNG ou JPG dans Nautilus
 * Utilisation avancée : Amélioration de la reconnaissance
 * Désinstallation
 * Liens

--------------------------------------------------------------------------------


TESSERACT OCR

Tesseract OCR est un moteur de reconnaissance optique de caractères (acronymie :
ROC ou OCR en Anglais) qui a été conçu par les ingénieurs de Hewlett Packard® de
1984 à 1995, avant d'être abandonné.
Après 10 ans de purgatoire, son code est ouvert en 2005, distribué sous Licence
Apache, et le développement est repris sous la houlette de Google.
Les premiers résultats sont prometteurs.
Enfin un bon logiciel libre d'OCR sous GNU/Linux? L'avenir nous le dira… Il
permet déjà d'obtenir une reconnaissance optique de qualité sur un certain
nombre de documents (sans mise en page complexe).

La page de la documentation sur Github.

Tesseract a pour vocation d'être utilisé :

 * soit directement, en ligne de commandes soit par l'intermédiaire d'une
   interface graphique comme gscan2pdf ou xsane (cf. aussi xsane2tess), pour
   reconnaître du texte avec mise en page basique ; cet usage est déjà
   fonctionnel.
 * soit avec des surcouches gérant les mises en page complexes, etc., comme
   ocropus (encore en Version Bêta ou β-test).

Modifier


INSTALLATION

Installez les paquets tesseract-ocr et pour reconnaître la langue française,
tesseract-ocr-fra.
Il existe d'autres fichiers de langues, comme par exemple :

 * tesseract-ocr-deu (allemand),
 * tesseract-ocr-eng (anglais),
 * tesseract-ocr-spa (espagnol),
 * tesseract-ocr-nld (hollandais),
 * tesseract-ocr-ita (italien),
 * tesseract-ocr-por (portugais-brésilien),
 * tesseract-ocr-vie (vietmamien),
 * tesseract-ocr-deu-f (vieil-allemand).

Modifier


UTILISATION

les scanners numérisent souvent avec une résolution suffisante pour la lecture à
l'écran mais insuffisante pour une reconnaissance efficace.

Il faut donc numériser au moins à 300 voire 600 ppp (Point Par Pouce ou DPI)

Quant au type de fichier, le format tiff est mieux reconnu, ainsi un document
tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en
300ppp, seules les lettres majuscules sont reconnues

Modifier


ERREUR À L'UTILISATION

Si vous obtenez ce message :

Error opening data file /home/<repertoire personnel>/snap/tesseract/common/Error
opening data file /home/<repertoire
personnel>/snap/tesseract/common/eng.traineddata.traineddata Please make sure
the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'Error opening data file /home/<repertoire
personnel>/snap/tesseract/common/eng.traineddata' Tesseract couldn't load any
languages! Could not initialize tesseract.

Copier le répertoire « tesseract-ocr ». Depuis usr/share/ → vers
usr/local/share/

Les fichiers de langues se trouve à cette emplacement :
usr/local/share/tesseract-ocr/4.00/tessdata

Modifier


EN LIGNE DE COMMANDE

Dans un terminal, Entrez la commande suivante :

tesseract ~/<nom_de_l_image.tif> <nom_du_fichier_de_sortie_sans_l_extension> -l fra

le fichier de sortie sera au format texte .txt … on perd donc la mise en page!

Pour traiter plusieurs fichiers, vous pouvez faire :

for i in *.jpg ; do tesseract -l fra $i $i.txt;  done;

Pour traiter un pdf image de plusieurs pages :

pdftoppm -r 300 -tiff texte.pdf texte
for f in *.tif;do tesseract $f $f -l fra;done
cat *.txt > document.txt

Modifier


LES OPTIONS DE LANGUES

Si vous avez installé les fichiers pour la reconnaissance de texte en d'autres
langues, vous ajoutez à la fin, au lieu de -l fra:

-l eng (pour l'anglais)
-l deu (pour l'allemand)
-l epo (pour l'espéranto)
-l spa (pour l'espagnol)
-l ita (pour l'italien)
-l nld (pour le néerlandais)
-l por (pour le portugais)
-l vie (pour le vietnamien)
-l deu-f (pour le vieil-allemand)

La liste des langues est disponible sur la documentation du logiciel sur github

Vous pouvez aussi indiquer que les pages contiennent plusieurs langues
différentes en indiquant -l fra+epo par exemple pour des images qui contiennent
du texte en français et du texte en espéranto.

Modifier


EN MODE GRAPHIQUE AVEC « GSCAN2PDF »

Les explications sont données sur la page gscan2pdf.

Modifier


EN MODE GRAPHIQUE AVEC XSANE

Il est possible d'utiliser directement tesseract avec l'application de
numérisation XSane grâce à l'adaptateur xsane2tess.

Pour réaliser de la Reconnaissance optique de caractères :
 * sur un document déjà numérisé, on utilise gscan2pdf.
 * sur un document à numériser, on utilise plutôt XSane, dont la fonction de
   prévisualisation permet de sélectionner des zones de texte.

Modifier


EN MODE GRAPHIQUE AVEC YAGF

Les explications sont données sur la page YAGF.

Modifier


EN MODE GRAPHIQUE AVEC GIMAGEREADER

Les explications sont données sur la page gimagereader.

Modifier


POUR UNE RECONNAISSANCE OPTIQUE DIRECTE DANS LIBREOFFICE WRITER DE FICHIERS PNG
OU JPG



POUR LANCER L'OCR SUR UN DOCUMENT PNG (OU JPG) PRÉSENT SUR LE BUREAU



POUR LES DOCUMENTS PNG

 1. Créez un fichier texte que vous nommez par exemple
    "Tesseract-png2lofficewriter" : Tesseract-png2lofficewriter
    
    #!/bin/bash
    cd ~/Bureau
    convert *.png sortie.tif ;
    # il est plus prudent de corriger le bpp maximum pour le fichier tiff de sortie (max 8 pour tesseract -> depth = 4)
    # soit convert -depth 4 *.png sortie.tif ;
    tesseract sortie.tif sortie -l fra ;
    rm sortie.tif
    lowriter sortie.txt

 2. Rendez exécutable ce fichier. Vous avez créé un script exécutable…
 3. Placez-le dans le dossier des scripts-Nautilus (ou dans tout autre dossier
    personnel de scripts, à votre convenance),
 4. Créez un lanceur ou une entrée dans le menu comme indiqué ci-dessous.

POUR LES DOCUMENTS JPG

Pour faire de même avec les fichiers images JPG (comportant du texte à
reconnaître bien sûr), vous pouvez remplacer "png" par "jpg" dans le script,
pour créer un autre script nommé "Tesseract-jpg2lofficewriter".

CRÉER UN LANCEUR POUR VOTRE SCRIPT

Pour créer un raccourci de votre script, reportez-vous à la page de création de
lanceurs ou à celle-ci pour Unity, puis complétez comme suit:

 1. Donnez-lui un nom par exemple : "Tesseract-png2lofficewriter", ou plus court
    "Tesseract-PNG2LOW"
 2. Pointez vers le script en question, c'est à dire le fichier texte
    "Tesseract-png2lofficewriter" rendu exécutable (commande : allez chercher
    votre script par le bouton "parcourir"),
 3. Vous pouvez utiliser cette icône pour le script "Tesseract-PNG2LOW" et
    celle-ci pour le script "Tesseract-JPG2LOW".
 4. Vous pouvez ajouter un commentaire, mais ce n'est pas indispensable.

UTILISATION

 1. Enlevez du bureau les fichiers PNG sur lesquels vous ne voulez pas faire de
    ROC.
 2. Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un
    PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec
    d'autres PNG déjà numérisés),
 3. Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous
    voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4
    fichiers si vous voulez une opération relativement rapide.
    Les contenus des différents fichiers seront placés les uns à la suite des
    autres dans un même document Libreoffice.
 4. Cliquez sur le raccourci précédemment créé ou directement sur le script…
    patientez un peu… Libreoffice s'ouvrira avec le contenu du texte tel qu'il a
    été reconnu
 5. Il vous reste a effectuer les corrections orthographiques et la mise en
    page.

Même méthode pour les fichiers au format JPG, en utilisant l'outil
"Tesseract-jpg2lofficewriter" créé précédemment.

N.B. : au passage, un document sortie.tif et un document sortie.txt sont placés
sur le bureau; ce sont des documents transitoires créés par le script. On peut
les effacer en ayant au préalable enregistré le document texte dans un autre
dossier.

Modifier


AUTRE MÉTHODE : POUR UNE RECONNAISSANCE OPTIQUE DIRECTE D'UN OU PLUSIEURS
FICHIERS PNG OU JPG DANS NAUTILUS

- Créez un fichier texte que vous nommez par exemple "OCR" dans le dossier des
scripts-Nautilus (normalement : ~/.local/share/nautilus/scripts) :

~/.local/share/nautilus/scripts/OCR

#!/bin/sh
 
mypath="`pwd`"
for filename in "$@"
do
if [ -n "$*,?" ];then
    tesseract "$mypath/$filename" "${filename%%.*}" -l fra
fi
done {}
exit 0

- Rendez exécutable ce fichier.

Dans Nautilus vous pouvez désormais sélectionner un ou plusieurs fichiers PNG
et/ou JPG, faites un clic droit et exécutez le script "OCR". Chaque fichier txt
extrait de tesseract aura le nom du fichier d'origine avec l'extension .txt

Modifier


UTILISATION AVANCÉE : AMÉLIORATION DE LA RECONNAISSANCE

Si vous souhaitez améliorer la reconnaissance optique de caractères vous
trouverez des explications sur le site (en) Wiki de "tesseract-OCR" .

Modifier


DÉSINSTALLATION

Pour supprimer cette application, il suffit de supprimer son paquet et les
paquets de langues installées. Selon la méthode choisie, la configuration
globale des applications sont conservées ou supprimées. Les journaux du système,
et les fichiers de préférence des utilisateurs dans leurs dossiers personnels
sont toujours conservés.

Modifier


LIENS

 * Site officiel
 * Documentation pour contribuer au code (en anglais)
 * le fil de discussion du forum Open Office, Reconnaissance de caractères,
   Xsane, Kooka et Cie…
 * La page où on parle de l'apprentissage avec tesseract (anglais)
 * La page de la documentation francophone Ubuntu sur la reconnaissance optique
   de caractères
 * script « scan2pdf+ocr.sh » sur le GITHUB
 * OCRmyPDF : programme qui rend un fichier PDF indexable – à savoir, dont le
   contenu peut faire l’objet d’un recherche textuelle. Il est écrit en Python,
   s’appuie sur le moteur ROC Tesseract et sur GhostScript, est disponible au
   format Snap ou en paquet APT, et est utilisable en ligne de commande par
   défaut.

--------------------------------------------------------------------------------

Contributeurs : Pierre S., Hector et Sorbus, eagle08 : liens.

Modifier
 * tesseract-ocr.txt
 * Dernière modification: Le 04/08/2023, 19:43
 * par lyondif02

DOCUMENTATION UBUNTU-FR

Les pages de cette documentation sont rédigées par les utilisateurs pour les
utilisateurs. Apportez-nous votre aide pour améliorer le contenu de cette
documentation.

LIENS UTILES

 * Débuter sur Ubuntu
 * Participer à la documentation
 * Documentation hors ligne
 * Télécharger Ubuntu

OBTENIR DE L'AIDE

 * Chercher de l'aide
 * Consulter la documentation
 * Consulter le Forum
 * Lisez le guide

 

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la
licence suivante :
CC Paternité-Partage des Conditions Initiales à l'Identique 3.0 Unported

 * 
 * 
 * 
 * 
 *