OCR-Datenquelle definieren
Sie können Text oder Barcodes aus einem gescannten Dokument extrahieren, indem Sie die optische Zeichenerkennung (OCR) anwenden und als automatische Eigenschaftswerte für aus einer externen Quelle (Scanner) importierte Dateien verwenden. Die OCR-Datenquelle ist ein auf der gescannten Seite festgelegter Bereich. Für weitere Information über das Festlegen von unterschiedlichen Eigenschaften für importierte Objekte von externen Datenquellen, siehe Definition der Metadaten für eine externe Dateiquelle.
- TIF
- TIFF
- JPG
- JPEG
- BMP
- PNG
Die OCR-Datenquelle kann nur bei externen Quellen verwendet werden. Die OCR-Datenquelle kann nicht in M-Files Desktop definiert werden.
Die folgenden Schritte befolgen, um eine OCR-Datenquelle zu definieren:
Um zu garantieren, dass der festgelegte Bereich auch korrekt positioniert wird, sollte das zu scannende Dokument wenn möglich manuell anstatt per Blatteinzug auf der Glasplatte des Scanners platziert werden.
In bestimmten Fällen kann OCR falsche Resultate bei der Texterkennung liefern, was mit der Schriftart und -größe zusammenhängen kann. 1 wird dann möglicherweise falsch als Buchstabe I erkannt. Um sicher zu stellen, dass die Zeichen den Metadaten von Dokumenten korrekt hinzugefügt werden, können Sie die Eigenschaftenwerte mit Ereignishandlern und VBScript überprüfen. Mit VBScript können Sie z. B. prüfen, ob alle hinzugefügten Zeichen Zahlen sind. Weitere Informationen finden Sie im Abschnitt Ereignishandler.
Unterstützte Barcodetypen
Das M-Files OCR-Modul unterstützt folgende Barcodetypen:
- QR-Code
- EAN-13
- EAN-8
- EAN-5
- EAN-2
- MSI Plessley
- MSI Pharma
- UPC-A
- UPC-E
- Codabar
- Interleaved 2 of 5
- Discrete 2 of 5
- Code 39
- Code 39 Extended
- Code 39 HIBC
- Code 93
- Code 128
- PDF 417
- Postnet
- Postnet 32
- Postnet 52
- Postnet 62
- Patchcode
- UCC-128
- UPCE Extended
- IATA 2 of 5
- Datalogic 2 of 5
- Reverse 2 of 5
- Code 39 (out-of-spec)
- Code 128 (out-of-spec)
- Codabar (out-of-spec)