Texte in eingescannten Dokumenten erkennen
Optische
Zeichenerkennung (OCR)
Was ist OCR?
Das OCR-Verfahren von SEAL Systems funktioniert für Raster- und Vektordaten und kann in automatisierte Verfahren integriert werden. OCR-Techniken können Texte, die nur noch als Pixelmuster vorliegen, maschinenlesbar machen. Sie sind dann automatisch durchsuchbar. Große Dateimengen werden zusätzlich durch Suchmaschinen voruntersucht, sodass das Finden über den Gesamtdateibestand sehr schnell funktioniert.
Wer braucht OCR?
Für die Archivierung haben Sie viele Jahre auf den „Platzhirsch“ TIFF als Archivformat gesetzt? Obwohl Sie alle Informationen digital kodiert und maschinenlesbar in Ihren Dokumenten verfügbar hatten, so sind sie doch durch die Konvertierung in das reine Rasterformat TIFF verloren gegangen? Dann haben wir eine gute Nachricht: zumindest die Texte können wir Ihnen zurückgewinnen!
Liefern Ihnen Ihre Zulieferer Scans als produktionsrelevante Unterlagen? Auch das sind Rasterbilder, aus denen wir die Texte ermitteln und als suchbare Texte im PDF hinterlegen können.
FAQ zu OCR
Wir möchten OCR in unsere Dokumentenverarbeitung einbauen. An welchen Stellen bietet sich das an?
- Bei der Freigabe von Dokumenten
- Während einer Dateikonvertierung
- Vor dem Einchecken in das DMS
- Bei der Altbestandskonvertierung nach PDF, PDF/A
Nicht jede Datei wird dann aber zusätzlich per OCR verarbeitet. Das System erkennt selbst, ob OCR sinnvoll ist. Oder der OCR Prozess wird gezielt nur für Rasterdateien aufgerufen.
Wir haben PDF-Dateien mit sichtbarem Text, aber der Text kann nicht durchsucht werden. Was kann man da tun?
Das kann mehrere Ursachen haben. PDF-Dateien, die durch Scannen erstellt worden sind, werden zunächst nur durch Bildpunkte aufgebaut. Der Mensch kann die Texte lesen, der Computer findet sie erst einmal nicht. Scanner haben oft bereits ein integriertes OCR. Diese sind aber unter Umständen schlecht. CAD-Systeme bilden die Bildschirmdarstellung von Texten in der Ausgabe oft nur durch Linienzüge ab. Das kommt dann vor, wenn das CAD-System nicht mit Standardfonts arbeitet. Seine Spezialfonts für den Bildschirm gibt es dann beim Ausgeben nicht. Bildanteile im PDF können selbst wieder Texte enthalten, die Sie dann auch finden möchten.
Welche Vorteile schaffen Dateien mit durchsuchbarem Text?
Informationen können in Dateien schneller gefunden werden, wenn die Suche nicht nur über Verschlagwortung im DMS erfolgt, sondern auch direkt in den Dateien nach relevanten Begriffen gesucht werden kann. Dazu muss der sichtbare Text aber recherchierbar sein. Der Datenaustausch in Lieferantenketten bedingt, dass Dokumente nicht immer nur über ein DMS verwaltet werden können. Die Nutzbarkeit von Dateien wird deutlich erhöht, wenn man relevante Schlagworte zum Einordnen der Dateien direkt der Datei einnehmen kann.
Wir möchten unseren Altdatenbestand von TIFF nach PDF/A konvertieren. Geht das?
Interesse geweckt?
Fordern Sie unverbindlich weitere Informationen an!
Konvertierung von Altbeständen nach PDF/A
Insbesondere bei der Archivierung von Dokumenten und Dateien machen OCR-Verfahren Sinn. Doch nicht nur beim lesbar Machen archivierter Rasterformate unterstützen wir unsere Kunden – auch die Konvertierung ins richtige Dateiformat übernehmen wir gerne. Besonders geeignet für eine sichere Langzeitarchivierung ist hierfür PDF/A. Erfahren Sie mehr über die Vorteile von PDF/A: