doc.ubuntu-fr.org
Open in
urlscan Pro
84.96.242.54
Public Scan
URL:
https://doc.ubuntu-fr.org/tesseract-ocr
Submission: On January 06 via api from FI — Scanned from FR
Submission: On January 06 via api from FI — Scanned from FR
Form analysis
16 forms found in the DOMGET //forum.ubuntu-fr.org/search_ubuntufr.php
<form action="//forum.ubuntu-fr.org/search_ubuntufr.php" accept-charset="utf-8" class="navbar-form navbar-left search" id="dw__search" method="get" role="search">
<div class="no"><input id="qsearch" autocomplete="off" type="search" placeholder="Rechercher" accesskey="f" name="q" class="form-control" title="[F]"><button type="submit" title="Rechercher"><i class="fa fa-fw fa-search"></i></button><input
type="hidden" name="do" value="search"><input type="hidden" name="tsearch" value="wiki"></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Tesseract OCR] "><input type="hidden" name="target" value="section"><input type="hidden"
name="hid" value="tesseract_ocr"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="46-1335"><button type="submit" title="Tesseract OCR"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Installation] "><input type="hidden" name="target" value="section"><input type="hidden"
name="hid" value="installation"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="1336-1978"><button type="submit" title="Installation"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Utilisation] "><input type="hidden" name="target" value="section"><input type="hidden"
name="hid" value="utilisation"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="1979-2500"><button type="submit" title="Utilisation" class="btn btn-default btn btn-xs btn-default">Modifier</button>
</div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Erreur à l'utilisation] "><input type="hidden" name="target" value="section"><input
type="hidden" name="hid" value="erreur_a_l_utilisation"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="2501-3225"><button type="submit" title="Erreur à l'utilisation"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En ligne de commande] "><input type="hidden" name="target" value="section"><input
type="hidden" name="hid" value="en_ligne_de_commande"><input type="hidden" name="codeblockOffset" value="0"><input type="hidden" name="range" value="3226-3803"><button type="submit" title="En ligne de commande"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Les options de langues] "><input type="hidden" name="target" value="section"><input
type="hidden" name="hid" value="les_options_de_langues"><input type="hidden" name="codeblockOffset" value="3"><input type="hidden" name="range" value="3804-4581"><button type="submit" title="Les options de langues"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec « gscan2pdf »] "><input type="hidden" name="target"
value="section"><input type="hidden" name="hid" value="en_mode_graphique_avec_gscan2pdf"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="4582-4700"><button type="submit"
title="En mode graphique avec « gscan2pdf »" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec XSane] "><input type="hidden" name="target" value="section"><input
type="hidden" name="hid" value="en_mode_graphique_avec_xsane"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="4701-5184"><button type="submit" title="En mode graphique avec XSane"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec YAGF] "><input type="hidden" name="target" value="section"><input
type="hidden" name="hid" value="en_mode_graphique_avec_yagf"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="5185-5282"><button type="submit" title="En mode graphique avec YAGF"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[En mode graphique avec gimagereader] "><input type="hidden" name="target"
value="section"><input type="hidden" name="hid" value="en_mode_graphique_avec_gimagereader"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="5283-5404"><button type="submit"
title="En mode graphique avec gimagereader" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary"
value="[Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG] "><input type="hidden" name="target" value="section"><input type="hidden" name="hid"
value="pour_une_reconnaissance_optique_directe_dans_libreoffice_writer_de_fichiers_png_ou_jpg"><input type="hidden" name="codeblockOffset" value="4"><input type="hidden" name="range" value="5405-8808"><button type="submit"
title="Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary"
value="[Autre méthode : pour une reconnaissance optique directe d'un ou plusieurs fichiers PNG ou JPG dans Nautilus] "><input type="hidden" name="target" value="section"><input type="hidden" name="hid"
value="autre_methodepour_une_reconnaissance_optique_directe_d_un_ou_plusieurs_fichiers_png_ou_jpg_dans_nautilus"><input type="hidden" name="codeblockOffset" value="5"><input type="hidden" name="range" value="8809-9661"><button type="submit"
title="Autre méthode : pour une reconnaissance optique directe d'un ou plusieurs fichiers PNG ou JPG dans Nautilus" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Utilisation avancée : Amélioration de la reconnaissance] "><input type="hidden" name="target"
value="section"><input type="hidden" name="hid" value="utilisation_avanceeamelioration_de_la_reconnaissance"><input type="hidden" name="codeblockOffset" value="6"><input type="hidden" name="range" value="9662-9951"><button type="submit"
title="Utilisation avancée : Amélioration de la reconnaissance" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Désinstallation] "><input type="hidden" name="target" value="section"><input type="hidden"
name="hid" value="desinstallation"><input type="hidden" name="codeblockOffset" value="6"><input type="hidden" name="range" value="9952-10362"><button type="submit" title="Désinstallation"
class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
POST /tesseract-ocr
<form class="button btn_secedit form-inline" method="post" action="/tesseract-ocr">
<div class="no"><input type="hidden" name="do" value="edit"><input type="hidden" name="rev" value="1691170995"><input type="hidden" name="summary" value="[Liens] "><input type="hidden" name="target" value="section"><input type="hidden" name="hid"
value="liens"><input type="hidden" name="codeblockOffset" value="6"><input type="hidden" name="range" value="10363-"><button type="submit" title="Liens" class="btn btn-default btn btn-xs btn-default">Modifier</button></div>
</form>
Text Content
Wiki ubuntu-frLa Documentation francophone * Accueil * Forum * Planet * Outils * Outils du site * Derniers changements * Gestionnaire Multimédia * Plan du site * * Outils de la page * Modifier cette page * Anciennes révisions * Liens de retour * Haut de page * S'identifier Xenial Trusty ocr bureautique tesseract-ocr * Modifier cette page * * Liens de retour TABLE DES MATIÈRES * Installation * Utilisation * En ligne de commande * Les options de langues * En mode graphique avec « gscan2pdf » * En mode graphique avec XSane * En mode graphique avec YAGF * En mode graphique avec gimagereader * Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG * Autre méthode : pour une reconnaissance optique directe d'un ou plusieurs fichiers PNG ou JPG dans Nautilus * Utilisation avancée : Amélioration de la reconnaissance * Désinstallation * Liens -------------------------------------------------------------------------------- TESSERACT OCR Tesseract OCR est un moteur de reconnaissance optique de caractères (acronymie : ROC ou OCR en Anglais) qui a été conçu par les ingénieurs de Hewlett Packard® de 1984 à 1995, avant d'être abandonné. Après 10 ans de purgatoire, son code est ouvert en 2005, distribué sous Licence Apache, et le développement est repris sous la houlette de Google. Les premiers résultats sont prometteurs. Enfin un bon logiciel libre d'OCR sous GNU/Linux? L'avenir nous le dira… Il permet déjà d'obtenir une reconnaissance optique de qualité sur un certain nombre de documents (sans mise en page complexe). La page de la documentation sur Github. Tesseract a pour vocation d'être utilisé : * soit directement, en ligne de commandes soit par l'intermédiaire d'une interface graphique comme gscan2pdf ou xsane (cf. aussi xsane2tess), pour reconnaître du texte avec mise en page basique ; cet usage est déjà fonctionnel. * soit avec des surcouches gérant les mises en page complexes, etc., comme ocropus (encore en Version Bêta ou β-test). Modifier INSTALLATION Installez les paquets tesseract-ocr et pour reconnaître la langue française, tesseract-ocr-fra. Il existe d'autres fichiers de langues, comme par exemple : * tesseract-ocr-deu (allemand), * tesseract-ocr-eng (anglais), * tesseract-ocr-spa (espagnol), * tesseract-ocr-nld (hollandais), * tesseract-ocr-ita (italien), * tesseract-ocr-por (portugais-brésilien), * tesseract-ocr-vie (vietmamien), * tesseract-ocr-deu-f (vieil-allemand). Modifier UTILISATION les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace. Il faut donc numériser au moins à 300 voire 600 ppp (Point Par Pouce ou DPI) Quant au type de fichier, le format tiff est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues Modifier ERREUR À L'UTILISATION Si vous obtenez ce message : Error opening data file /home/<repertoire personnel>/snap/tesseract/common/Error opening data file /home/<repertoire personnel>/snap/tesseract/common/eng.traineddata.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'Error opening data file /home/<repertoire personnel>/snap/tesseract/common/eng.traineddata' Tesseract couldn't load any languages! Could not initialize tesseract. Copier le répertoire « tesseract-ocr ». Depuis usr/share/ → vers usr/local/share/ Les fichiers de langues se trouve à cette emplacement : usr/local/share/tesseract-ocr/4.00/tessdata Modifier EN LIGNE DE COMMANDE Dans un terminal, Entrez la commande suivante : tesseract ~/<nom_de_l_image.tif> <nom_du_fichier_de_sortie_sans_l_extension> -l fra le fichier de sortie sera au format texte .txt … on perd donc la mise en page! Pour traiter plusieurs fichiers, vous pouvez faire : for i in *.jpg ; do tesseract -l fra $i $i.txt; done; Pour traiter un pdf image de plusieurs pages : pdftoppm -r 300 -tiff texte.pdf texte for f in *.tif;do tesseract $f $f -l fra;done cat *.txt > document.txt Modifier LES OPTIONS DE LANGUES Si vous avez installé les fichiers pour la reconnaissance de texte en d'autres langues, vous ajoutez à la fin, au lieu de -l fra: -l eng (pour l'anglais) -l deu (pour l'allemand) -l epo (pour l'espéranto) -l spa (pour l'espagnol) -l ita (pour l'italien) -l nld (pour le néerlandais) -l por (pour le portugais) -l vie (pour le vietnamien) -l deu-f (pour le vieil-allemand) La liste des langues est disponible sur la documentation du logiciel sur github Vous pouvez aussi indiquer que les pages contiennent plusieurs langues différentes en indiquant -l fra+epo par exemple pour des images qui contiennent du texte en français et du texte en espéranto. Modifier EN MODE GRAPHIQUE AVEC « GSCAN2PDF » Les explications sont données sur la page gscan2pdf. Modifier EN MODE GRAPHIQUE AVEC XSANE Il est possible d'utiliser directement tesseract avec l'application de numérisation XSane grâce à l'adaptateur xsane2tess. Pour réaliser de la Reconnaissance optique de caractères : * sur un document déjà numérisé, on utilise gscan2pdf. * sur un document à numériser, on utilise plutôt XSane, dont la fonction de prévisualisation permet de sélectionner des zones de texte. Modifier EN MODE GRAPHIQUE AVEC YAGF Les explications sont données sur la page YAGF. Modifier EN MODE GRAPHIQUE AVEC GIMAGEREADER Les explications sont données sur la page gimagereader. Modifier POUR UNE RECONNAISSANCE OPTIQUE DIRECTE DANS LIBREOFFICE WRITER DE FICHIERS PNG OU JPG POUR LANCER L'OCR SUR UN DOCUMENT PNG (OU JPG) PRÉSENT SUR LE BUREAU POUR LES DOCUMENTS PNG 1. Créez un fichier texte que vous nommez par exemple "Tesseract-png2lofficewriter" : Tesseract-png2lofficewriter #!/bin/bash cd ~/Bureau convert *.png sortie.tif ; # il est plus prudent de corriger le bpp maximum pour le fichier tiff de sortie (max 8 pour tesseract -> depth = 4) # soit convert -depth 4 *.png sortie.tif ; tesseract sortie.tif sortie -l fra ; rm sortie.tif lowriter sortie.txt 2. Rendez exécutable ce fichier. Vous avez créé un script exécutable… 3. Placez-le dans le dossier des scripts-Nautilus (ou dans tout autre dossier personnel de scripts, à votre convenance), 4. Créez un lanceur ou une entrée dans le menu comme indiqué ci-dessous. POUR LES DOCUMENTS JPG Pour faire de même avec les fichiers images JPG (comportant du texte à reconnaître bien sûr), vous pouvez remplacer "png" par "jpg" dans le script, pour créer un autre script nommé "Tesseract-jpg2lofficewriter". CRÉER UN LANCEUR POUR VOTRE SCRIPT Pour créer un raccourci de votre script, reportez-vous à la page de création de lanceurs ou à celle-ci pour Unity, puis complétez comme suit: 1. Donnez-lui un nom par exemple : "Tesseract-png2lofficewriter", ou plus court "Tesseract-PNG2LOW" 2. Pointez vers le script en question, c'est à dire le fichier texte "Tesseract-png2lofficewriter" rendu exécutable (commande : allez chercher votre script par le bouton "parcourir"), 3. Vous pouvez utiliser cette icône pour le script "Tesseract-PNG2LOW" et celle-ci pour le script "Tesseract-JPG2LOW". 4. Vous pouvez ajouter un commentaire, mais ce n'est pas indispensable. UTILISATION 1. Enlevez du bureau les fichiers PNG sur lesquels vous ne voulez pas faire de ROC. 2. Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec d'autres PNG déjà numérisés), 3. Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4 fichiers si vous voulez une opération relativement rapide. Les contenus des différents fichiers seront placés les uns à la suite des autres dans un même document Libreoffice. 4. Cliquez sur le raccourci précédemment créé ou directement sur le script… patientez un peu… Libreoffice s'ouvrira avec le contenu du texte tel qu'il a été reconnu 5. Il vous reste a effectuer les corrections orthographiques et la mise en page. Même méthode pour les fichiers au format JPG, en utilisant l'outil "Tesseract-jpg2lofficewriter" créé précédemment. N.B. : au passage, un document sortie.tif et un document sortie.txt sont placés sur le bureau; ce sont des documents transitoires créés par le script. On peut les effacer en ayant au préalable enregistré le document texte dans un autre dossier. Modifier AUTRE MÉTHODE : POUR UNE RECONNAISSANCE OPTIQUE DIRECTE D'UN OU PLUSIEURS FICHIERS PNG OU JPG DANS NAUTILUS - Créez un fichier texte que vous nommez par exemple "OCR" dans le dossier des scripts-Nautilus (normalement : ~/.local/share/nautilus/scripts) : ~/.local/share/nautilus/scripts/OCR #!/bin/sh mypath="`pwd`" for filename in "$@" do if [ -n "$*,?" ];then tesseract "$mypath/$filename" "${filename%%.*}" -l fra fi done {} exit 0 - Rendez exécutable ce fichier. Dans Nautilus vous pouvez désormais sélectionner un ou plusieurs fichiers PNG et/ou JPG, faites un clic droit et exécutez le script "OCR". Chaque fichier txt extrait de tesseract aura le nom du fichier d'origine avec l'extension .txt Modifier UTILISATION AVANCÉE : AMÉLIORATION DE LA RECONNAISSANCE Si vous souhaitez améliorer la reconnaissance optique de caractères vous trouverez des explications sur le site (en) Wiki de "tesseract-OCR" . Modifier DÉSINSTALLATION Pour supprimer cette application, il suffit de supprimer son paquet et les paquets de langues installées. Selon la méthode choisie, la configuration globale des applications sont conservées ou supprimées. Les journaux du système, et les fichiers de préférence des utilisateurs dans leurs dossiers personnels sont toujours conservés. Modifier LIENS * Site officiel * Documentation pour contribuer au code (en anglais) * le fil de discussion du forum Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie… * La page où on parle de l'apprentissage avec tesseract (anglais) * La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères * script « scan2pdf+ocr.sh » sur le GITHUB * OCRmyPDF : programme qui rend un fichier PDF indexable – à savoir, dont le contenu peut faire l’objet d’un recherche textuelle. Il est écrit en Python, s’appuie sur le moteur ROC Tesseract et sur GhostScript, est disponible au format Snap ou en paquet APT, et est utilisable en ligne de commande par défaut. -------------------------------------------------------------------------------- Contributeurs : Pierre S., Hector et Sorbus, eagle08 : liens. Modifier * tesseract-ocr.txt * Dernière modification: Le 04/08/2023, 19:43 * par lyondif02 DOCUMENTATION UBUNTU-FR Les pages de cette documentation sont rédigées par les utilisateurs pour les utilisateurs. Apportez-nous votre aide pour améliorer le contenu de cette documentation. LIENS UTILES * Débuter sur Ubuntu * Participer à la documentation * Documentation hors ligne * Télécharger Ubuntu OBTENIR DE L'AIDE * Chercher de l'aide * Consulter la documentation * Consulter le Forum * Lisez le guide Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Paternité-Partage des Conditions Initiales à l'Identique 3.0 Unported * * * * *