Texte in eingescannten Dokumenten erkennen

Optische
Zeichen­erken‍nung (OCR)

Was ist OCR?

OCR steht für Optical Character Recognition und bedeutet „optische Zeichenerkennung“ oder „Texterkennung“. Mit der optischen Zeichenerkennung können Texte in rasterisierten Dokumenten (zum Beispiel eingescannt) erkannt werden.

Das OCR-Verfahren von SEAL Systems funktioniert für Raster- und Vektordaten und kann in automatisierte Verfahren integriert werden. OCR-Techniken können Texte, die nur noch als Pixelmuster vorliegen, maschinen­­lesbar machen. Sie sind dann automatisch durchsuchbar. Große Dateimengen werden zusätzlich durch Suchmaschinen voruntersucht, sodass das Finden über den Gesamtdateibestand sehr schnell funktioniert.

Wer braucht OCR?

Die Anwendungsfälle von OCR Texterkennungsverfahren sind vielfältig. So kann es hilfreich sein, dass OCR bei der digitalen Archivierung von alten Dokumenten zum Einsatz kommt.

Für die Archivierung haben Sie viele Jahre auf den „Platzhirsch“ TIFF als Archivformat gesetzt? Obwohl Sie alle Informationen digital kodiert und maschinenlesbar in Ihren Dokumenten verfügbar hatten, so sind sie doch durch die Konvertierung in das reine Rasterformat TIFF verloren gegangen? Dann haben wir eine gute Nachricht: zumindest die Texte können wir Ihnen zurückgewinnen!

Liefern Ihnen Ihre Zulieferer Scans als produktionsrelevante Unterlagen? Auch das sind Rasterbilder, aus denen wir die Texte ermitteln und als suchbare Texte im PDF hinterlegen können.

FAQ zu OCR

Wir möchten OCR in unsere Dokumentenverarbeitung einbauen. An welchen Stellen bietet sich das an?
Wir empfehlen, OCR an folgenden Stellen in Ihre Prozesse einzubauen:

  • Bei der Freigabe von Dokumenten
  • Während einer Dateikonvertierung
  • Vor dem Einchecken in das DMS
  • Bei der Altbestandskonvertierung nach PDF, PDF/A

Nicht jede Datei wird dann aber zusätzlich per OCR verarbeitet. Das System erkennt selbst, ob OCR sinnvoll ist. Oder der OCR Prozess wird gezielt nur für Rasterdateien aufgerufen.

Wir haben PDF-Dateien mit sichtbarem Text, aber der Text kann nicht durchsucht werden. Was kann man da tun?

Das kann mehrere Ursachen haben. PDF-Dateien, die durch Scannen erstellt worden sind, werden zunächst nur durch Bildpunkte aufgebaut. Der Mensch kann die Texte lesen, der Computer findet sie erst einmal nicht. Scanner haben oft bereits ein integriertes OCR. Diese sind aber unter Umständen schlecht. CAD-Systeme bilden die Bildschirm­darstellung von Texten in der Ausgabe oft nur durch Linienzüge ab. Das kommt dann vor, wenn das CAD-System nicht mit Standardfonts arbeitet. Seine Spezialfonts für den Bildschirm gibt es dann beim Ausgeben nicht. Bildanteile im PDF können selbst wieder Texte enthalten, die Sie dann auch finden möchten.

Welche Vorteile schaffen Dateien mit durchsuchbarem Text?

Informationen können in Dateien schneller gefunden werden, wenn die Suche nicht nur über Verschlagwortung im DMS erfolgt, sondern auch direkt in den Dateien nach relevanten Begriffen gesucht werden kann. Dazu muss der sichtbare Text aber recherchierbar sein. Der Datenaustausch in Lieferantenketten bedingt, dass Dokumente nicht immer nur über ein DMS verwaltet werden können. Die Nutzbarkeit von Dateien wird deutlich erhöht, wenn man relevante Schlagworte zum Einordnen der Dateien direkt der Datei einnehmen kann.

Wir möchten unseren Altdatenbestand von TIFF nach PDF/A kon‍vertieren. Geht das?
Auch hier macht OCR Sinn! PDF/A löst zunehmend das Rasterformat TIFF als Archiv­format ab. Bestandsdateien in TIFF und gescannte Vorlagen lassen sich besonders einfach in das PDF-Format umwandeln. Ohne zusätzliche OCR-Behandlung bringt aber diese Konvertierung keinen Mehrwert. Das Ergebnis-PDF besitzt außer einem Rasterbild keine weiteren Nutzdaten. Erst die Anreicherung mit Textelementen bringt einen zusätzlichen Nutzen.

Interesse geweckt?

Fordern Sie unverbindlich weitere Informationen an!

 

Konvertierung von Altbeständen nach PDF/A

Insbesondere bei der Archivierung von Dokumenten und Dateien machen OCR-Verfahren Sinn. Doch nicht nur beim lesbar Machen archivierter Rasterformate unterstützen wir unsere Kunden – auch die Konvertierung ins richtige Dateiformat übernehmen wir gerne. Besonders geeignet für eine sichere Langzeitarchivierung ist hierfür PDF/A. Erfahren Sie mehr über die Vorteile von PDF/A: