13.02.2023
Lesedauer: 6 Minuten

PDF/A-4 – ein Überblick

In diesem Artikel
    PDF/A-4 (ISO 19.005-4:2020) wurde im November 2020 frei gegeben. Basis ist der Teil 2 der PDF-Norm (ISO 32.000-2:2020). 3D Inhalte des PDF wurden in die Norm mit einbezogen. Der Dschungel der Norm-Level – a, u, b (wegen Tagging und Unicode) wurde stark vereinfacht.
    PDF Würfel im Stroh

    Doch schauen wir uns einmal die Details an.

    Die Teile 1 bis 3 der PDF/A Norm haben wir bereits in im Blogbeitrag „PDF/A – Ein Vergleich der Teilnormen“ beschrieben.

    Basis PDF 2.0

    Der erste Teil der PDF-Norm stellt lediglich die ISO-Normierung der PDF-Referenz 1.7 von Adobe dar. Der zweite Teil enthält zahlreiche neue Funktionen, die durch engagierte Herstellerfirmen zusammen mit Adobe in die Norm hinein­getragen wurden. Wichtig ist nun, dass eine PDF-Datei nur dann PDF/A-4 sein kann, wenn sie auch PDF 2 konform ist.

    Unterschiedliche Level der Norm

    Im aktuellen Teil 4 gibt es nunmehr nur einen einheitlichen Level F (flat) für reine 2D PDF-Dateien. Wer den 3D Anteil von PDF nutzen will, muss sich den Anforderungen des Levels E (Engineering) stellen.

    Für 3D PDF ist aber zwingend der Level e vorgeschrieben (PDF/A-4e). Im Level f ist 3D PDF nicht erlaubt.

    3D PDF

    Für die spezielle Normung der 3D Inhalte von PDF gab es schon länger die PDF/E-Norm. Darin stand aber der Archivierungs­aspekt nicht im Vordergrund. Hier wird 3D PDF für die Archivierung genormt. Die PDF/E-Norm wird nicht mehr fortgesetzt, weil normungswerte Aspekte, die über die Archivierung hinausgehen, inzwischen hinreichend in der PDF-Norm selbst behandelt werden.
    Dem entsprechend sind aber in PDF/A-4 nur die 3D Formate U3D und PRC zulässig. JT und STEP als Stream im PDF wird also noch etwas auf sich warten lassen.
    Um diesen 3D Anteil unter Kontrolle zu halten, sind einige Neuerungen dazu gekommen, die dem normalen Nutzer wenig auffallen werden:

    • 3D nutzt Annotationen. Insofern müssen jetzt 3D- und RichMedia-Annotationen zugelassen sein.
    • Javascript und Aktionen in Zusammenhang mit 3D sind erlaubt.
    • Javascript soll nur interaktiv ausgeführt werden. Automatisierung ist nicht erlaubt. Das lässt sich aber nicht unabhängig prüfen und ist nur eine Anforderung an einen PDF-Processor
    • Alle Action-Events müssen zentralisiert in einem Actions Dictionary angelegt sein.

    Das sind natürlich alles nur Anforderung im Level e.

    Tagging

    PDF/A-4 ermahnt nur noch dazu, PDF zu taggen, stellt aber keine dedizierten Forderungen. Eine Normung im Detail findet aber in der PDF/UA Norm statt, die Menschen mit eingeschränkten Sehfähigkeiten auch einen Zugang zu PDF ermöglichen soll. Tagging ist aber auch die Basis für maschinelle Auswertungen von PDF (siehe Anmerkungen).

    Unicode

    In früheren Normteilen gab es den Level B, der es ermöglichte, auch ohne Unicode auszukommen, wenn man es nicht brauchte. Der Normteil 4 schreibt zwingend eine Unicode Markierung vor. Das heißt, entweder ist der verwendete Font ein Unicode Font oder er muss für jedes verwendete Zeichen zusätzlich den Namen des entsprechenden Unicodezeichens besitzen. Das wird vermutlich viele einfache PDF-Dateien daran hindern, PDF/A-4 sein zu können.

    Signaturen

    Digitale Signaturen waren auch in den früheren Normteilen erlaubt. Im Teil 4 wird aber einiges klarer gezogen. Im Normteil 3 fanden sich noch viele Regeln im Annex B. Jetzt sind diese Regeln fester Bestandteil der eigentlichen Norm.

    LTV-Signaturen für die Langzeitarchivierung wurden klarer gestellt. Eine solche Signatur besteht aus einem wiederum signierten Set aus Zeitstempel und Validierungsinfos. Eine solche LTV-Signatur sollte nach einem digitalen Unterschrifts­prozess aufgebracht werden, damit die Richtigkeit auch nach Ablauf des Unterschriftszertifikats prüfbar ist. Ein Zertifikat läuft in der Regel nach drei Jahren aus.

    Zusammenfassung

    PDF/A-4 ist keine einfache Fortsetzung der PDF/A-Normenreihe. Die Regel, Dateien die dem Normteil PDF/A-n entsprechen, sind auch PDF/A-n+1 konform, gilt offenbar nicht mehr.

    PDF/A-4 erweitert das Funktionsspektrum deutlich durch die Funktionen der darunter liegenden PDF 2 Norm und die Nutzbarkeit von 3D PDF.

    Der Zwang zur Unicode-Konformität der verwendeten Fonts kann in der Praxis ebenfalls mehr Probleme als Nutzen stiften.

    Anmerkungen

    Level

    Im ersten Normteil unterschied man zwischen der 100%-igen Norm = Level A (All oder Accessible). Wer nur die eindeutige visuelle Reproduzierbarkeit im Fokus hatte, konnte sich mit dem Level B (Basic) begnügen. Der Unterschied zwischen A und B wird durch 2 Merkmale gebildet. Zum einen müssen Objekte im PDF intern so markiert werden (tagging), sodass die Bedeutung der einzelnen Objekte definiert. Ziel war die Maschinenlesbarkeit von PDF. Dieses kam wiederum Menschen mit Einschränkungen zugute, die sich solch PDF-Dateien vorlesen lassen können. Zum anderen müssen alle verwendeten Zeichen in Ihrer Definition eine Unicode-Benennung haben. Dieses auch, wenn der entsprechende Font gar kein Unicode Font ist.

    Die Überfrachtung des Levels A wurde aufgelöst durch Einführung des Levels U im Normteil 2. Anwender, denen die Nutzung von durchgängiger Unicode-Kompatibilität wichtig war, konnten diesen (Zwischen-) Normlevel nutzen, auch ohne sich um Tagging kümmern zu müssen.

    Tagging

    Unter Tagging versteht man die Markierung von Artefakten, Wordtrennungen, Strukturen, Sprache, alternative Infos, Non-text Annotationen, Ersatztexte, Liste an Abkürzungen und Acronyme usw.

    Im ersten Normteil war eigentlich nur vorgeschrieben, dass eine Datei global als getaggt markiert sein muss, um den Level A zu erfüllen. Man hatte vorausgesehen, dass sich tagging-Informationen an den einzelnen Objekten auf Vollständigkeit und Richtigkeit sehr schwer verifizieren lassen. Insofern wäre es ein Leichtes, in einem Anpassprozess einfach das entsprechende Flag zu setzen, um den Level A zu erreichen, ohne wirkliche Tagging-Informationen in der Datei zu haben. Das hätte aber keinen Mehrwert gebracht. Wir haben unsere Kunden daher dahin gehend beraten, eine Anpassung von beliebigen PDF-Dateien an einen Level A nicht als Ziel zu setzen, weil dieses im Allgemeinen nicht möglich ist. Nach Verfügbarkeit eines leistungsfähigen PDF-Exports aus MS Office wurde es möglich, wenigstens aus MS Office ein Level A zu erzeugen.

    PDF-Prozessor

    Es gab schon in früheren Normteilen einzelne Anforderungen an PDF-Reader, wenn diese PDF/A konform sein wollten. Weil offenbar auch immer mehr automatische PDF-Verarbeitungen eine Rolle spielen, wurde stattdessen der Begriff PDF-Prozessor aufgenommen. Diese muss sich jetzt an bestimmte Regeln halten.

    Kontaktieren Sie uns!

    Füllen Sie folgendes Formular aus, um weitere Informationen zu unseren Lösungen zur Verarbeitung und Konvertierung von PDF zu erhalten oder teilen Sie uns mit, wie wir Ihnen weiterhelfen können.