Définir une source de valeur OCR

Vous pouvez extraire du texte ou des codes-barres à partir d’un document numérisé à l’aide de la reconnaissance optique de caractères (OCR) et vous en servir en tant que valeurs de propriétés automatiques pour les fichiers importés à partir d’une source externe, un scanner dans le cas présent. La source de valeur OCR est une zone définie sur une page numérisée. Pour de plus amples renseignements sur la façon de définir les différentes propriétés pour les objets importés à partir de sources de fichiers externes, consultez Définition des métadonnées pour une source de fichier externe.

Vous pouvez utiliser la reconnaissance optique de caractères avec les formats de fichier suivants :

TIF
TIFF
JPG
JPEG
BMP
PNG
PDF

Les fichiers TIFF utilisant un canal alpha ou une compression JPEG ne sont pas pris en charge.

L'utilisation de la source de valeur OCR est uniquement possible dans le cas de l'utilisation d'une source externe.

Remarque : Vous pouvez utiliser la source de valeur OCR sans cocher l’option Utiliser l'OCR pour la recherche plein texte dans les documents numérisés dans l'onglet PDF indexé.

Effectuez les étapes suivantes pour définir une source de valeur OCR :

Ouvrez M-Files Admin.
Dans l'arborescence de gauche, déployez une connexion au serveur M-Files.
Déployez Coffres.
Déployez un coffre.
Déployez Connexions aux Sources Externes.
Cliquez sur Fichiers.
Dans la liste Fichiers, double-cliquez sur le fichier que vous souhaitez modifier.
Résultat :La boîte de dialogue Propriétés de Connexion s’ouvre.
Cliquez sur l’onglet Métadonnées.
Résultat :L’onglet Métadonnées s’ouvre.
Cliquez sur Ajouter... pour définir une nouvelle propriété et valeur à ajouter automatiquement aux objets créés à partir de fichiers externes ou sélectionnez l’une des propriétés existantes et cliquez sur Editer... pour modifier la propriété existante.
Résultat :La boîte de dialogue Définition de la Propriété s’ouvre.
Sélectionnez l’option Utiliser une source de valeur OCR et cliquez sur le bouton Définir....
Résultat :La boîte de dialogue Définition d'une source de valeur OCR s’ouvre.
Dans la rubrique Type de zone sélectionnez :
- Texte : Sélectionnez cette option si la zone OCR comporte du texte.
  ou
- Code-barres : Sélectionnez cette option si la zone OCR comporte un code-barres.
  Remarque : Pour les types de codes-barres compatibles, consultez Types de codes-barres compatibles.
Dans la rubrique Position de la zone, définissez une zone à partir de laquelle extraire une valeur pour la propriété sélectionnée. Les caractères peuvent inclure de nombreuses lettres, chiffres ou caractères de ponctuation. Par exemple, un numéro de facture affiché sur une page peut être ajouté comme la valeur de la propriété Numéro de facture du document numérisé.
Exemple :Un exemple de définition de zone :

Si vous capturez un code-barres et qu'il y a seulement un code-barres à reconnaître dans la page, vous pouvez spécifier toute la page en tant que zone. Si plusieurs codes-barres sont présents, limitez la zone de telle sorte qu'elle contienne seulement le code-barres souhaité. S'il s'agit de codes de type QR, vous devez spécifier une zone plus grande que le code-barres. Si la zone spécifiée contient plusieurs codes-barres, tous sont considérés comme une valeur de propriété.
1. Dans le champ Page, saisissez le numéro de page du document numérisé que vous souhaitez utiliser en tant que source de valeur OCR.
2. À l’aide de l’option Unité, sélectionnez l’unité appropriée pour définir la position de la zone.
3. Dans le champ Gauche, saisissez la position du coin gauche de la zone OCR. Le coin gauche du document numérisé est considéré comme "0".
4. Dans le champ Droit, saisissez la position du coin droit de la zone OCR.
5. Dans le champ Supérieur, saisissez la position du coin supérieur de la zone OCR. Le coin supérieur du document numérisé est considéré comme "0".
6. Dans le champ Inférieur, saisissez la position du coin inférieur de la zone OCR.
À l’aide des menus déroulants Langue principale et Langue secondaire, sélectionnez les langues principale et secondaire des documents numérisés afin d’améliorer la qualité des résultats de reconnaissance. La liste des langues secondaires ne contient que les langues qui peuvent être utilisées avec la langue principale sélectionnée.
Bien que le moteur OCR reconnaisse automatiquement toutes les langues occidentales et les caractères cyrilliques, le choix d'une langue améliore souvent la qualité des résultats de la reconnaissance de texte. Dans les cas ambigus, un problème de reconnaissance peut être résolu par un facteur spécifique de la langue, comme la reconnaissance de la lettre 'Ä' en finnois. La liste des langues secondaires ne contient que les langues qui peuvent être utilisées avec la langue principale sélectionnée.
Cliquez sur OK pour fermer la boîte de dialogue Définition d'une source de valeur OCR.
De retour dans la boîte de dialogue Définition de la Propriété, sélectionnez :
- Utiliser la valeur lue comme identifiant de l'élément : Sélectionnez cette option si vous souhaitez utiliser la valeur capturée en tant qu’identifiant de l’élément de liste avec un nom défini à part.
  ou
- Utiliser la valeur lue comme nom de l'élément : Sélectionnez cette option si vous souhaitez vous servir de la valeur capturée pour nom de l’élément de la liste de valeurs. Vous pouvez cocher la case Créer un nouvel élément si aucune correspondance n'est trouvée si vous souhaitez ajouter un nouvel élément de liste lorsqu’une nouvelle valeur est capturée.
Cliquez sur OK afin de fermer la boîte de dialogue Définition de la Propriété.

La zone que vous venez de définir est utilisée pour extraire automatiquement une valeur pour la propriété sélectionnée à l’aide d’OCR dès qu’un nouvel objet est créé par le biais de la source de fichier externe sélectionnée.

Pour s'assurer que la zone spécifiée est correctement positionnée, dans la plupart des cas, le document à numériser doit être placé à la main sur la vitre du scanner.

Dans certains cas, l’OCR peut proposer un résultat de reconnaissance du texte incorrect. Par exemple, en fonction du type et de la taille de la police, le chiffre 1 peut être interprété comme la lettre I. Pour s'assurer que les caractères sont correctement ajoutés aux métadonnées, vous pouvez vérifier les valeurs de propriété à l'aide de gestionnaires d'événements et de VBScript. Vous pouvez ensuite utiliser VBScript pour vérifier, par exemple, que tous les caractères ajoutés sont des nombres. Pour davantage d'informations, veuillez vous reporter à Gestionnaires d'événements.

Types de codes-barres compatibles

Le module OCR M-Files est compatible avec les types de codes-barres suivants :

Code QR
Data Matrix
Aztec Code
EAN-13
EAN-8
EAN-5
EAN-2
MSI Plessley
MSI Pharma
UPC-A
UPC-E
Codabar
Interleaved 2 of 5
Discrete 2 of 5
Code 39
Code 39 Extended
Code 39 HIBC
Code 93
Code 128
PDF 417
Postnet
Postnet 32
Postnet 52
Postnet 62
Patchcode
UCC-128
UPCE Extended
IATA 2 of 5
Datalogic 2 of 5
Reverse 2 of 5
Code 39 (out-of-spec)
Code 128 (out-of-spec)
Codabar (out-of-spec)