OCR-Datenquelle definieren

Hinweis: Dieser Inhalt wird nicht mehr aktualisiert. Den neuesten Inhalt finden Sie im Benutzerhandbuch für M-Files Online. Informationen zu den unterstützten Produktversionen finden Sie in unserer Lebenszyklus-Richtlinie.

Sie können Text oder Barcodes aus einem gescannten Dokument extrahieren, indem Sie die optische Zeichenerkennung (OCR) anwenden und als automatische Eigenschaftswerte für aus einer externen Quelle (Scanner) importierte Dateien verwenden. Die OCR-Datenquelle ist ein auf der gescannten Seite festgelegter Bereich. Für weitere Information über das Festlegen von unterschiedlichen Eigenschaften für importierte Objekte von externen Datenquellen, siehe Definition der Metadaten für eine externe Dateiquelle.

Die optische Zeichenerkennung kann für folgende Dateiformate durchgeführt werden:

TIF
TIFF
JPG
JPEG
BMP
PNG
PDF

TIFF-Dateien, die einen Alpha-Kanal benutzen oder eine JPEG-Komprimierung werden nicht unterstützt.

Die OCR-Datenquelle kann nur bei externen Quellen verwendet werden. Die OCR-Datenquelle kann nicht in M-Files Desktop definiert werden.

Hinweis: Das M-Files OCR-Modul ist ein M-Files kostenpflichtiges Add-On-Produkt. Die Aktivierung erfolgt über einen Lizenzcode. Für weitere Information siehe Enabling the M-Files OCR Module und Verwaltung der Serverlizenzen. M-Files benutzt ein OCR-Engine von IRIS. Bei Fragen zum Erwerb des M-Files OCR-Moduls wenden Sie sich bitte an unser Verkaufsteam unter [email protected].

Hinweis: Sie können die OCR-Datenquelle verwenden, ohne auf der Registerkarte Durchsuchbare PDF-Datei die Funktion OCR für Volltextsuche von gescannten Dokumenten verwenden auszuwählen.

Die folgenden Schritte befolgen, um eine OCR-Datenquelle zu definieren:

M-Files Admin öffnen.
In der hierarchischen Ansicht auf der linken Seite, eine Verbindung zum M-Files Server erweitern.
Dokumentenverwaltungen erweitern.
Eine Dokumentenverwaltung erweitern.
Verbindungen mit externen Quellen erweitern.
Dateiquellen erweitern.
In der Dateiquellen Liste auf die Dateiquelle doppelklicken, die Sie bearbeiten wollen.
Ergebnis:Das Verbindungseigenschaften Dialogfeld wird geöffnet.
Auf die Metadaten Registerkarte klicken.
Ergebnis:Die Metadaten Registerkarte wird geöffnet.
Auf Hinzufügen... klicken, um die neuen Eigenschaften und Werte zu definieren, die automatisch jedem Objekt hinzugefügt werden, die von externen Dateien erstellt wurden oder eine der bestehenden Eigenschaften auswählen und auf Bearbeiten... klicken, um die bestehende Eigenschaft zu bearbeiten.
Ergebnis:Das Eigenschaftsdefinition Dialogfeld wird geöffnet.
Die Option OCR-Datenquelle verwenden auswählen und anschließend auf die Definieren... Schaltfläche klicken.
Ergebnis:Das Definition der OCR-Datenquelle Dialogfeld wird geöffnet.
Im Zonentyp Bereich alternativ Folgendes auswählen:
- Text: Diese Option auswählen, falls der OCR-Bereich Text aufweist.
  oder
- Barcode: Diese Option auswählen, falls der OCR-Bereich einen Barcode aufweist.
  Hinweis: Für weitere Information über unterstützte Barcodetypen, siehe Unterstützte Barcodetypen.
Im Zonenposition Abschnitt eine Zone definieren, von der die Werte für die ausgewählte Eigenschaft extrahiert werden. Bei diesen Zeichen kann es sich um Buchstaben, Ziffern oder Satzzeichen handeln. So kann z. B. eine auf einer Seite abgebildete Rechnungsnummer dem eingescannten Dokument als Eigenschaftswert Rechnungsnummer hinzugefügt werden.
Beispiel:Beispiel einer Bereichsdefinition:

Falls Sie einen Barcode lesen und nur ein einziger Barcode auf der Seite zur Erkennung vorhanden ist, können Sie die gesamte Seite als Bereich definieren. Bei mehreren Barcodes müssen Sie die Zone so begrenzen, dass sie nur den gewünschten Barcode enthält. Mit den QR-Codes können Sie einen größeren Bereich als den aktuellen Barcode festlegen. Befinden sich im festgelegten Bereich mehrere Barcodes, werden alle als Eigenschaftswert betrachtet.
1. Im Seite Feld die Seitenanzahl der gescannten Dokumente eingeben, die Sie als OCR-Datenquelle festlegen wollen.
2. Mithilfe der Optionen Einheit, die geeignete Einheit zur Definition des Bereichs festlegen.
3. Im Links Feld die linke Eckposition des OCR-Bereichs eingeben. Die linke Ecke des gescannten Dokuments wird als „0“ betrachtet.
4. Im Rechts Feld die rechte Eckposition des OCR-Bereichs festlegen.
5. Im Oben Feld die obere Eckposition des OCR-Bereichs festlegen. Die obere Ecke des gescannten Dokuments wird als „0“ betrachtet.
6. Im Unten Feld die untere Ecke des OCR-Bereichs festlegen.
Die Primärsprache und Sekundärsprache Dropdown-Menüs verwenden, um die Primär- und Sekundärsprache der gescannten Dokumente über die externe Verbindung auszuwählen, um die Qualität der Dokumentenerkennung zu verbessern. Die Liste der sekundären Sprachen enthält nur Sprachen, die zusammen mit der gewählten Primärsprache verwendet werden dürfen.
Obwohl OCR alle Zeichensätze für westliche Sprachen und Kyrillisch erkennt, verbessert die Angabe einer Sprachauswahl oft die Qualität der Texterkennungsergebnisse. In nicht eindeutigen Fällen kann ein problematisches Erkennungsergebnis durch einen sprachspezifischen Faktor gelöst werden, so z. B. das Erkennen des finnischen Buchstabens „Ä“. Die Liste der sekundären Sprachen enthält nur Sprachen, die zusammen mit der gewählten Primärsprache verwendet werden dürfen.
Auf OK klicken, um das Definition der OCR-Datenquelle Dialogfeld zu schließen.
Zurück im Eigenschaftsdefinition Dialogfeld, eine der folgenden Optionen auswählen:
- Gelesenen Wert als ID des Elements verwenden: Diese Option auswählen, wenn Sie den erfassten Wert als ID der Werteliste mit einem getrennt definierten Namen verwenden wollen.
  oder
- Gelesenen Wert als Name des Elements verwenden: Diese Option auswählen, wenn Sie den erfassten Wert als Name des Elements der Werteliste verwenden wollen. Das Neues Element hinzufügen, wenn kein Element gefunden wurde Kontrollkästchen markieren, falls Sie immer dann ein neues Element zur Werteliste hinzufügen wollen, sobald ein neuer Wert erfasst wird.
Auf OK klicken, um das Eigenschaftsdefinitionen Dialogfeld zu schließen.

Die Zone, die Sie soeben definiert haben, wird automatisch dazu verwendet, unter Verwendung des OCR einen Wert für die ausgewählte Eigenschaft zu extrahieren, sobald ein neues Objekt über die externe Datenquelle erstellt wird.

Um zu garantieren, dass der festgelegte Bereich auch korrekt positioniert wird, sollte das zu scannende Dokument wenn möglich manuell anstatt per Blatteinzug auf der Glasplatte des Scanners platziert werden.

In bestimmten Fällen kann OCR falsche Resultate bei der Texterkennung liefern, was mit der Schriftart und -größe zusammenhängen kann. 1 wird dann möglicherweise falsch als Buchstabe I erkannt. Um sicher zu stellen, dass die Zeichen den Metadaten von Dokumenten korrekt hinzugefügt werden, können Sie die Eigenschaftenwerte mit Ereignishandlern und VBScript überprüfen. Mit VBScript können Sie z. B. prüfen, ob alle hinzugefügten Zeichen Zahlen sind. Weitere Informationen finden Sie im Abschnitt Ereignishandler.

Unterstützte Barcodetypen

Das M-Files OCR-Modul unterstützt folgende Barcodetypen:

QR-Code
EAN-13
EAN-8
EAN-5
EAN-2
MSI Plessley
MSI Pharma
UPC-A
UPC-E
Codabar
Interleaved 2 of 5
Discrete 2 of 5
Code 39
Code 39 Extended
Code 39 HIBC
Code 93
Code 128
PDF 417
Postnet
Postnet 32
Postnet 52
Postnet 62
Patchcode
UCC-128
UPCE Extended
IATA 2 of 5
Datalogic 2 of 5
Reverse 2 of 5
Code 39 (out-of-spec)
Code 128 (out-of-spec)
Codabar (out-of-spec)