OCR-Datenquelle definieren

Sie können Text oder Barcodes aus einem gescannten Dokument extrahieren, indem Sie die optische Zeichenerkennung (OCR) anwenden und als automatische Eigenschaftswerte für aus einer externen Quelle (Scanner) importierte Dateien verwenden. Die OCR-Datenquelle ist ein auf der gescannten Seite festgelegter Bereich. Für weitere Information über das Festlegen von unterschiedlichen Eigenschaften für importierte Objekte von externen Datenquellen, siehe Definition der Metadaten für eine externe Dateiquelle.

Bei diesen Dateiformaten können Sie die optische Zeichenerkennung verwenden:
  • TIF
  • TIFF
  • JPG
  • JPEG
  • BMP
  • PNG
  • PDF
TIFF-Dateien mit Alphakanal oder JPEG-Komprimierung werden nicht unterstützt.

Die OCR-Datenquelle kann nur bei externen Quellen verwendet werden. Die OCR-Datenquelle kann nicht in M-Files Desktop definiert werden.

Hinweis: Sie können die OCR-Datenquelle verwenden, ohne auf der Registerkarte Durchsuchbare PDF-Datei die Funktion OCR für Volltextsuche von gescannten Dokumenten verwenden auszuwählen.

Die folgenden Schritte befolgen, um eine OCR-Datenquelle zu definieren:

  1. M-Files Admin öffnen.
  2. In der hierarchischen Ansicht auf der linken Seite, eine Verbindung zum M-Files Server erweitern.
  3. Dokumentenverwaltungen erweitern.
  4. Eine Dokumentenverwaltung erweitern.
  5. Verbindungen mit externen Quellen erweitern.
  6. Dateiquellen erweitern.
  7. In der Dateiquellen Liste auf die Dateiquelle doppelklicken, die Sie bearbeiten wollen.
    Ergebnis:Das Verbindungseigenschaften Dialogfeld wird geöffnet.
  8. Auf die Metadaten Registerkarte klicken.
    Ergebnis:Die Metadaten Registerkarte wird geöffnet.
  9. Auf Hinzufügen... klicken, um die neuen Eigenschaften und Werte zu definieren, die automatisch jedem Objekt hinzugefügt werden, die von externen Dateien erstellt wurden oder eine der bestehenden Eigenschaften auswählen und auf Bearbeiten... klicken, um die bestehende Eigenschaft zu bearbeiten.
    Ergebnis:Das Eigenschaftsdefinition Dialogfeld wird geöffnet.
  10. Die Option OCR-Datenquelle verwenden auswählen und anschließend auf die Definieren... Schaltfläche klicken.
    Ergebnis:Das Definition der OCR-Datenquelle Dialogfeld wird geöffnet.
  11. Im Zonentyp Bereich alternativ Folgendes auswählen:
    • Text: Diese Option auswählen, falls der OCR-Bereich Text aufweist.
      oder
    • Barcode: Diese Option auswählen, falls der OCR-Bereich einen Barcode aufweist.
      Hinweis: Für weitere Information über unterstützte Barcodetypen, siehe Unterstützte Barcodetypen.
  12. Im Zonenposition Abschnitt eine Zone definieren, von der die Werte für die ausgewählte Eigenschaft extrahiert werden. Bei diesen Zeichen kann es sich um Buchstaben, Ziffern oder Satzzeichen handeln. So kann z. B. eine auf einer Seite abgebildete Rechnungsnummer dem eingescannten Dokument als Eigenschaftswert Rechnungsnummer hinzugefügt werden.
    Beispiel:Beispiel einer Bereichsdefinition:
    Falls Sie einen Barcode lesen und nur ein einziger Barcode auf der Seite zur Erkennung vorhanden ist, können Sie die gesamte Seite als Bereich definieren. Bei mehreren Barcodes müssen Sie die Zone so begrenzen, dass sie nur den gewünschten Barcode enthält. Mit den QR-Codes können Sie einen größeren Bereich als den aktuellen Barcode festlegen. Befinden sich im festgelegten Bereich mehrere Barcodes, werden alle als Eigenschaftswert betrachtet.
    1. Im Seite Feld die Seitenanzahl der gescannten Dokumente eingeben, die Sie als OCR-Datenquelle festlegen wollen.
    2. Mithilfe der Optionen Einheit, die geeignete Einheit zur Definition des Bereichs festlegen.
    3. Im Links Feld die linke Eckposition des OCR-Bereichs eingeben. Die linke Ecke des gescannten Dokuments wird als „0“ betrachtet.
    4. Im Rechts Feld die rechte Eckposition des OCR-Bereichs festlegen.
    5. Im Oben Feld die obere Eckposition des OCR-Bereichs festlegen. Die obere Ecke des gescannten Dokuments wird als „0“ betrachtet.
    6. Im Unten Feld die untere Ecke des OCR-Bereichs festlegen.
  13. Die Primärsprache und Sekundärsprache Dropdown-Menüs verwenden, um die Primär- und Sekundärsprache der gescannten Dokumente auszuwählen, um die Qualität der Dokumentenerkennung zu verbessern. Die Liste der sekundären Sprachen enthält nur Sprachen, die zusammen mit der gewählten Primärsprache verwendet werden dürfen.
    Obwohl OCR alle Zeichensätze für westliche Sprachen und Kyrillisch erkennt, verbessert die Angabe einer Sprachauswahl oft die Qualität der Texterkennungsergebnisse. In nicht eindeutigen Fällen kann ein problematisches Erkennungsergebnis durch einen sprachspezifischen Faktor gelöst werden, so z. B. das Erkennen des finnischen Buchstabens „Ä“. Die Liste der sekundären Sprachen enthält nur Sprachen, die zusammen mit der gewählten Primärsprache verwendet werden dürfen.
  14. Auf OK klicken, um das Definition der OCR-Datenquelle Dialogfeld zu schließen.
  15. Zurück im Eigenschaftsdefinition Dialogfeld, eine der folgenden Optionen auswählen:
    • Gelesenen Wert als ID des Elements verwenden: Diese Option auswählen, wenn Sie den erfassten Wert als ID der Werteliste mit einem getrennt definierten Namen verwenden wollen.
      oder
    • Gelesenen Wert als Name des Elements verwenden: Diese Option auswählen, wenn Sie den erfassten Wert als Name des Elements der Werteliste verwenden wollen. Das Neues Element hinzufügen, wenn kein Element gefunden wurde Kontrollkästchen markieren, falls Sie immer dann ein neues Element zur Werteliste hinzufügen wollen, sobald ein neuer Wert erfasst wird.
  16. Auf OK klicken, um das Eigenschaftsdefinitionen Dialogfeld zu schließen.
Die Zone, die Sie soeben definiert haben, wird automatisch dazu verwendet, unter Verwendung des OCR einen Wert für die ausgewählte Eigenschaft zu extrahieren, sobald ein neues Objekt über die externe Datenquelle erstellt wird.

Um sicherzustellen, dass der angegebene Bereich auch korrekt positioniert wird, muss das zu scannende Dokument wenn möglich manuell auf der Glasplatte des Scanners platziert werden.

In bestimmten Fällen kann OCR falsche Resultate bei der Texterkennung liefern. Abhängig von der Schriftart und -größe kann 1 dann möglicherweise fälschlicherweise als Buchstabe I erkannt werden. Um sicher zu stellen, dass die Zeichen den Metadaten korrekt hinzugefügt werden, können Sie die Eigenschaftenwerte mit Ereignishandlern und VBScript überprüfen. Mit VBScript können Sie z. B. prüfen, ob alle hinzugefügten Zeichen Zahlen sind. Weitere Informationen finden Sie im Abschnitt Ereignishandler.

Unterstützte Barcodetypen

Das M-Files OCR-Modul unterstützt folgende Barcodetypen:

  • QR-Code
  • Data Matrix
  • Aztec Code
  • EAN-13
  • EAN-8
  • EAN-5
  • EAN-2
  • MSI Plessley
  • MSI Pharma
  • UPC-A
  • UPC-E
  • Codabar
  • Interleaved 2 of 5
  • Discrete 2 of 5
  • Code 39
  • Code 39 Extended
  • Code 39 HIBC
  • Code 93
  • Code 128
  • PDF 417
  • Postnet
  • Postnet 32
  • Postnet 52
  • Postnet 62
  • Patchcode
  • UCC-128
  • UPCE Extended
  • IATA 2 of 5
  • Datalogic 2 of 5
  • Reverse 2 of 5
  • Code 39 (out-of-spec)
  • Code 128 (out-of-spec)
  • Codabar (out-of-spec)