Digitale Archivalien

Von Christian Keitel

Beispiel für Mikrodaten des Statistischen Landesamts Baden-Württemberg, Geburten 1968 (Quelle: Landesarchiv BW, StAL EL 414/1DO 1, verfremdet)
Beispiel für Mikrodaten des Statistischen Landesamts Baden-Württemberg, Geburten 1968 (Quelle: Landesarchiv BW, StAL EL 414/1DO 1, verfremdet)

Bei Digitalen Archivalien wird der Inhalt in Form von Nullen und Einsen auf einem digitalen Datenträger gespeichert. Bis etwa 2010 war zumeist von elektronischen Unterlagen die Rede. Auch sie können nur durch Maschinen in eine für Menschen verstehbare Form gebracht werden, sind aber nicht an die binäre Kodierung in Nullen und Einsen gebunden. Mittlerweile ist die Zahl der nicht-digitalen elektronischen Unterlagen so gering geworden, dass die Fachliteratur zumeist anstelle von elektronischen häufiger von digitalen Unterlagen spricht. Noch umfassender ist der Begriff der maschinenlesbaren Unterlagen, den die ersten Archivgesetze in den 1980er Jahren aufgegriffen haben. Er umfasst auch die damals teilweise noch vorhandenen Lochkarten.

Digitale Archivalien sind Menschen – ebenso wie alle anderen digital gespeicherten Informationen – nicht unmittelbar zugänglich. Die Kolleginnen und Kollegen des australischen Nationalarchivs haben deshalb 2002 zur Veranschaulichung das Performance Model veröffentlicht. Danach gibt es zunächst die Daten in digitaler Form als Einsen und Nullen. Sie werden durch einen Computer (eine Kombination von Hard- und Software) aufbereitet und als Performance ausgegeben.

Das Performance Model des australischen Nationalarchivs, 2002 (Quelle: National Archives of Australia)
Das Performance Model des australischen Nationalarchivs, 2002 (Quelle: Christian Keitel)

Eine Ausgabe auf dem Monitor oder über den Lautsprecher sind solche Performances. Erst in dieser Performance können Menschen sinnvolle Informationen wahrnehmen. Digitale Archivierung soll diese Performances und die in ihnen angelegten Informationsmöglichkeiten möglichst unverändert erhalten.

Nach den Erfahrungen der letzten Jahrzehnte müssen wir davon ausgehen, dass sich Computer auch in Zukunft regelmäßig ändern werden, ebenso die Programme und die verwendeten Datenträger. Es wird auch nicht möglich sein, die zu den verschiedenen Zeiten eingesetzten Computer alle zu erhalten. Diese Annahmen haben zwei Konsequenzen:

1.) Der zur Performance führende Prozess wird sich zwingend immer wieder ändern und an die neuen Gegebenheiten anpassen müssen.
2.) Bei genauer Betrachtung kann die Performance selbst nicht erhalten werden, da hierzu die originalen Bestandteile des Prozesses (Hard- und Software) erhalten werden müssten, was langfristig nicht möglich ist. So gesehen muss es das Ziel des Archivs sein, eine im Vergleich zur ersten Performance weitgehend gleiche Performance wieder herstellen zu können.

Die Erhaltung digitaler Archivalien folgt daher einem anderen Paradigma als die bisherige Archivierung. Erhalten werden sollen nun Informationen. Für die Erhaltung sind zwar Datenträger, Hard- und Software erforderlich, es ist aber wichtig festzuhalten, dass sie nur Mittel zum Zweck sind. Bei Bedarf können sie ausgetauscht werden. Dagegen setzt die konventionelle Archivierung auf den Datenträgererhalt.

Für digital gespeicherte Information werden zwei Erhaltungsstrategien diskutiert. Bei der Migrationsstrategie werden nur die Daten, aber keine Software erhalten. Die Archive überführen die Daten nach der Übernahme möglicherweise in neue Dateien, sofern sie noch nicht in einem archivierungsfähigen Dateiformat vorliegen. Sobald die Dateiformate der archivierten Dateien auszusterben drohen, weil immer weniger Softwareprogramme in der Lage sind, sie zu verarbeiten bzw. anzuzeigen, müssen die Dateien erneut migriert, d.h. in einem dann üblichen und archivierungsfähigen Dateiformat abgespeichert werden. Aufgerufen werden die Dateien also jeweils mit den zum Zeitpunkt der Nutzung aktuellen Softwareprogrammen. Dagegen werden bei der Emulationsstrategie neben den Dateien in ihren ursprünglichen Dateiformaten auch die zugehörigen Softwareprogramme erhalten. Sobald diese Programme nicht mehr auf künftigen Betriebssystemen bzw. der künftigen Hardware laufen, müssen kleine Zusatzprogramme geschrieben oder besorgt werden, die das Funktionieren der alten Programme in der neuen Umgebung ermöglichen. Wenn nach einiger Zeit dieser Zustand erneut droht, muss ein neuer Emulator geschrieben werden. Zumeist vermittelt dieser dann zwischen dem ersten Emulator und der neuen Systemumgebung.

Bei beiden Strategien ist der Weg zur Performance in Zukunft ein anderer als heute. Beide Verfahren können daher nicht garantieren, dass die künftige Performance identisch mit der heutigen ist. Es kann daher nur darum gehen, eine möglichst ähnliche und in Kernbereichen identische Performance aufrufen zu können. Um diese Kernbereiche näher zu bestimmen, sprechen die Archive von signifikanten Eigenschaften, die eine Teilmenge aller Eigenschaften der Archivalien sind. Wenn beispielsweise eine Tabelle 97 Datensätze besitzt, sollten alle archivierten Formen ebenfalls 97 Datensätze besitzen. Ebenso sollten alle Formen, die von einem übernommenen Foto des Wiener Stephansdoms abgeleitet wurden, ebenfalls diese Kirche abbilden. Sie sollen zumindest erhalten werden, auch geben sie Anhaltspunkte darüber, ob sich die verschiedenen Performances im Wesentlichen gleichen.

Die Emulationsstrategie eignet sich vor allem zur Erhaltung komplexer Objekte wie z.B. digitale Kunst oder auch manche Forschungsdaten. Ihr Vorteil ist es, dass die Informationen in der ursprünglichen Softwareumgebung betrachtet werden können. Nachteilhaft ist, dass diese Informationen nicht mehr exportiert oder mit Daten aus anderen Quellen zusammengebracht und gemeinsam genutzt werden können. Genau darin liegen die Stärken der Migrationsstrategie. Zum gegenwärtigen Zeitpunkt wenden die in Baden-Württemberg sitzenden digitalen Archive ausschließlich die Migrationsstrategie an.

Gerade bei der Migrationsstrategie kommt die von OAIS[1] geprägte Unterscheidung zwischen Archivierungs- und Nutzungspaketen (zwischen AIPs und DIPs) zum Tragen. OAIS geht davon aus, dass sowohl für die Archivierung als auch für die Nutzung Informationspakete zusammengestellt werden, die sowohl Metadaten als auch die eigentlich interessierenden Dokumente und Informationen enthalten (= Primärdaten). Für die Archivierung werden Dateiformate gesucht, die möglichst lange Zeiträume überleben dürften. Für die Nutzung solche, die für die konkreten Nutzer am bekanntesten sind. Ein Nutzungspaket kann sich aber auch in anderer Hinsicht vom Archivierungspaket unterscheiden. Zunächst können Metadaten in sehr geringem Umfang oder auch in vollständiger Menge ausgegeben werden. Zweitens können nur Teile der archivierten Dokumente oder Informationen ausgegeben werden. So ist es gerade bei tabellarisch organisierten Archivaliengattungen möglich, die Spalten mit Personenbezug aus dem Nutzungspaket zu löschen. Hierdurch würden die personenbezogenen Sperrfristen entfallen, was in manchen Fällen erst eine Nutzung ermöglichen kann.

Der Terminus der digitalen Archivalien kann in einem engeren und weiteren Sinne verstanden werden. Im engeren Sinne bezieht er sich auf genuin digitale Unterlagen, die in digitaler Form entstanden sind, angeboten wurden und archiviert werden. Im weiteren Sinn können noch weitere Unterlagen dazu gezählt werden. Da sind zunächst Unterlagen, die auf Papier oder anderen analogen Trägern entstanden sind, dann aber bereits von der abgebenden Stelle digitalisiert wurden und daher nur in digitaler Form dem Archiv angeboten werden. Es gibt aus archivarischer Sicht keinen Grund, diese Unterlagen von den genuin digitalen Unterlagen zu unterscheiden. Digitale Unterlagen sind demnach alle Unterlagen, die in digitaler Form dem Archiv angeboten werden. Diese Unterlagen müssen besonders gesichert werden, sie können beim Verlust der digitalen Datenträger nicht mehr rekonstruiert werden. Außerdem können sich etwaige Untersuchungen auf Authentizität nicht auf die Datenträger beziehen.

Als eine dritte Gruppe sind die bereits von den Archiven übernommenen AV-Unterlagen zu nennen. Oft genug handelt es sich dabei nicht um digitale Unterlagen. Nach einhelliger Meinung der Forschung müssen diese Unterlagen in den nächsten Jahren digitalisiert werden, da die Datenträger schnell degradieren und die zum Abspielen dieser Datenträger notwendigen Laufwerke nicht mehr lange verfügbar sind. Die so entstehenden Digitalisate sind den anderen digitalen Unterlagen gleichzustellen. Etwas anders sieht es mit den Digitalisaten aus, welche die Archive von ihren konventionellen Papier- und Pergamentarchivalien herstellen. Hier können Untersuchungen zur Authentizität noch auf die konventionellen Originale zurückgreifen, die im Falle des Datenverlustes auch einen erneuten Scan erlauben würden. Es liegt letztlich am einzelnen Archiv, ob es diese sogenannten Retrodigitalisate auch zu den digitalen Archivalien rechnen und zusammen mit diesen erhalten möchte oder nicht.

Die Nutzungsmöglichkeiten werden einmal von der vom Archiv gewählten Erhaltungsstrategie (Migration oder Emulation) definiert. Zum anderen ergeben sich gerade durch die dabei verwendeten Programme neue Möglichkeit der automatisierten Analyse und Recherche, die bei den konventionellen Unterlagen kaum geleistet werden können. Es macht einen Unterschied, ob ein Nutzer die ursprünglich vom Statistischen Landesamt übernommenen 1620 Regelmeter mit Erhebungsbögen eigenhändig durchsieht oder ob er diese Daten digital befragt. Mit diesen neuen Auswertungsmöglichkeiten eröffnen sich auch neue Fragehorizonte.

Historische Entwicklung und Überlieferung

Lochkarten wurden auf dem Gebiet des heutigen Baden-Württemberg erstmals 1910 in den Statistischen Ämtern in Karlsruhe und Stuttgart eingesetzt. Sie bestimmten das Bild, bis in den 1960er Jahren zunehmend die Computer aufkamen. Frühe Formen können schon in den 1950er Jahren nachgewiesen werden. In den ersten Jahrzehnten handelte es sich dabei um Großrechenanlagen, die zumeist Datenbanken verwalteten. Mit dem seit 1980 einsetzenden Siegeszug des PC drangen die Computer auch in die Amtsstuben der Verwaltung vor. Seitdem können wir mit persönlichen Ablagen (Dateiverzeichnisse, Datenträgersammlungen oder auch E-Mail-Konten) rechnen, die allerdings erst in den letzten Jahren ins Blickfeld der Archive kamen. Die PCs ermöglichten komplexere Client-Server-basierte Anwendungen und den in Deutschland auf 1995 datierten Durchbruch des Internets. Mit diesen neuen technischen Möglichkeiten gingen jeweils neue Archivaliengattungen einher.

Digitale Daten im weitesten Sinne haben bereits seit längerem ihren Weg in die Archive gefunden. Ablieferungslisten oder Dateien zur Information der Kolleginnen und Kollegen sind aber etwas anderes als bewusst mit dem Ziel der Archivierung übernommene digital gespeicherte Informationen. Erst im zweiten Fall müssen die Archive Mechanismen umsetzen, die die Erhaltung dieser Informationen und deren Authentizität gewährleisten. Die Landesarchivverwaltung begann 2002 mit der Übernahme der plausibilisierten Rohdaten der Volkszählung 1970 mit der digitalen Archivierung. Als erstes kommunales Archiv in Baden-Württemberg (und vermutlich auch in Deutschland) startete das Stadtarchiv Stuttgart 2006 mit der Übernahme von Orthofotos aus dem Stadtmessungsamt.

Anmerkungen

[1] Open Archival Information System/OAIS (= ISO 14721) ist der für die digitale Archivierung maßgebliche Standard.

Literatur

  • Heslop, Helen/Davis, Simon/Wilson, Andrew, An approach to the preservation of digital records, Canberra 2002, www.imaginar.org/taller/dppd/DPPD/40%20pp%20Approach.pdf.
  • ISO 14721:2012: Space data and information transfer systems – Open archival information system (OAIS) – Reference model - ISO, 2012.
  • Keitel, Christian, Das Digitale Landesarchiv Baden–Württemberg. Eine Standortbestimmung, in: Archivar 68 (2015), S. 335–341.
  • Keitel, Christian, Prozessgeborene Unterlagen. Anmerkungen zur Bildung, Wahrnehmung, Bewertung und Nutzung digitaler Überlieferung, in: Archivar 67 (2014), S. 278–285.
  • Naumann, Kai, Zwölf Jahre Lernen aus der Praxis – Überlieferungsbildung aus genuin digitalen Unterlagen beim Landesarchiv Baden-Württemberg, in: Scrinium 69 (2015), S. 115–136.

Zitierhinweis: Christian Keitel, Digitale Archivalien, in: Südwestdeutsche Archivalienkunde, URL: [...], Stand: 20.11.2017.