Haben Sie Fragen? Wir sind für Sie da!

Dr. Uwe Wächter ist Experte im Bereich Convert & Publish Solutions. Gerne beantwortet er Ihre Fragen.

Dr. Uwe Wächter

Business Development

+49 6154 637 372

Optical Character Recognition (OCR)

Texte in eingescannten Dokumenten erkennen

Optical Character Recognition (OCR)

OCR – Was ist das?

Mit der optischen Zeichenerkennung können Texte in eingescannten Dokumenten erkannt werden. Das OCR-Verfahren von SEAL Systems funktioniert für Raster- und Vektordaten und kann in automatisierte Verfahren integriert werden. OCR-Techniken können solche Texte maschinen­­lesbar machen. Sie sind dann automatisch durchsuchbar. Große Dateimengen werden zusätzlich durch Suchmaschinen voruntersucht, sodass das Finden über den Gesamtdateibestand sehr schnell durchgeführt werden kann.

 

OCR

 

Typische Fragen

Wir empfehlen, OCR an folgenden Stellen in Ihre Prozesse einzubauen:

 

  • Bei der Freigabe von Dokumenten
  • Während einer Dateikonvertierung
  • Vor dem Einchecken in das DMS
  • Bei der Altbestandskonvertierung nach PDF/

 

Nicht jede Datei wird dann aber zusätzlich per OCR verarbeitet. Das System erkennt selbst, ob OCR sinnvoll ist. Oder der OCR Prozess wird gezielt nur für Rasterdateien aufgerufen.

PDF_doppeltDas kann mehrere Ursachen haben. PDF-Dateien, die durch Scannen erstellt worden sind, werden zunächst nur durch Bildpunkte aufgebaut. Der Mensch kann die Texte lesen, der Computer findet sie erst einmal nicht. Scanner haben oft bereits ein integriertes OCR. Diese sind aber unter Umständen schlecht. CAD-Systeme bilden die Bildschirmdarstellung von Texten in der Ausgabe oft nur durch Linienzüge ab. Das kommt dann vor, wenn das CAD-System nicht mit Standardfonts arbeitet. Seine Spezialfonts für den Bildschirm gibt es dann beim Ausgeben nicht. Bildanteile im PDF können selbst wieder Texte enthalten, die Sie dann auch finden möchten.

Informationen können in Dateien schneller gefunden werden, wenn die Suche nicht nur über Verschlagwortung im DMS erfolgt, sondern auch direkt in den Dateien nach relevanten Begriffen gesucht werden kann. Dazu muss der sichtbare Text aber recherchierbar sein. Der Datenaustausch in Lieferantenketten bedingt, dass Dokumente nicht immer nur über ein DMS verwaltet werden können. Die Nutzbarkeit von Dateien wird deutlich erhöht, wenn man relevante Schlagworte zum Einordnen der Dateien direkt der Datei einnehmen kann.

lupe

Auch hier macht OCR Sinn! PDF/A löst zunehmend das Rasterformat TIFF als Archivformat ab. Bestandsdateien in TIFF und gescannte Vorlagen lassen sich besonders einfach in das PDF-Format umwandeln. Ohne zusätzliche OCR-Behandlung bringt aber diese Konvertierung keinen Mehrwert. Das Ergebnis-PDF besitzt außer einem Rasterbild keine weiteren Nutzdaten. Erst die Anreicherung mit Textelementen bringt einen zusätzlichen Nutzen.

Haben Sie Fragen? – Fordern Sie jetzt unverbindlich Informationen an!