Web-Archivierung

Aus besserwiki.de

Unter Web-Archivierung versteht man das Sammeln von Teilen des World Wide Web, um sicherzustellen, dass die Informationen in einem Archiv für zukünftige Forscher, Historiker und die Öffentlichkeit erhalten bleiben. Aufgrund der enormen Größe und Menge an Informationen im Web setzen Web-Archivare in der Regel Web-Crawler zur automatischen Erfassung ein. Die größte Web-Archivierungsorganisation, die auf einem Massen-Crawling-Ansatz basiert, ist die Wayback Machine, die ein Archiv des gesamten Webs anstrebt.

Der wachsende Anteil der menschlichen Kultur, der im Web geschaffen und aufgezeichnet wird, macht es unvermeidlich, dass sich immer mehr Bibliotheken und Archive den Herausforderungen der Web-Archivierung stellen müssen. Nationalbibliotheken, Nationalarchive und verschiedene Konsortien von Organisationen sind ebenfalls an der Archivierung kulturell wichtiger Webinhalte beteiligt.

Kommerzielle Web-Archivierungssoftware und -dienste stehen auch Organisationen zur Verfügung, die ihre eigenen Web-Inhalte aus Gründen des Unternehmenserbes, zu regulatorischen oder rechtlichen Zwecken archivieren müssen.

Die deutschen Archivgesetze definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags läuft aber erst an. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibliothek) verabschiedet, das den Auftrag der Deutschen Nationalbibliothek auf die Archivierung von Websites ausdehnt. Auch die Bundesländer planen, ihre Pflichtexemplar-Gesetze in diesem Sinne zu ändern, oder haben die Änderung bereits vollzogen.

Geschichte und Entwicklung

Obwohl die Kuratierung und Organisation des Internets seit Mitte bis Ende der 1990er Jahre weit verbreitet ist, war eines der ersten groß angelegten Web-Archivierungsprojekte das Internet Archive, eine gemeinnützige Organisation, die 1996 von Brewster Kahle gegründet wurde. Das Internet Archive veröffentlichte 2001 seine eigene Suchmaschine zur Anzeige archivierter Webinhalte, die Wayback Machine. Im Jahr 2018 beherbergte das Internet Archive 40 Petabyte an Daten. Das Internet Archive entwickelte auch viele seiner eigenen Tools zum Sammeln und Speichern seiner Daten, darunter PetaBox zum effizienten und sicheren Speichern der großen Datenmengen und Heritrix, ein Webcrawler, der in Zusammenarbeit mit den nordischen Nationalbibliotheken entwickelt wurde. Weitere Projekte, die etwa zur gleichen Zeit gestartet wurden, waren die australischen Webarchive Pandora und Tasmanian sowie das schwedische Kulturarw3.

Von 2001 bis 2010 bot der International Web Archiving Workshop (IWAW) eine Plattform, um Erfahrungen und Ideen auszutauschen. Das 2003 gegründete International Internet Preservation Consortium (IIPC) hat die internationale Zusammenarbeit bei der Entwicklung von Standards und Open-Source-Tools für die Erstellung von Webarchiven erleichtert.

Die inzwischen aufgelöste Internet Memory Foundation wurde 2004 gegründet und von der Europäischen Kommission ins Leben gerufen, um das Web in Europa zu archivieren. Im Rahmen dieses Projekts wurden zahlreiche Open-Source-Tools entwickelt und veröffentlicht, z. B. "Rich-Media-Erfassung, zeitliche Kohärenzanalyse, Spam-Bewertung und Erkennung von Terminologieentwicklungen". Die Daten der Stiftung werden heute vom Internet Archive verwaltet, sind aber derzeit nicht öffentlich zugänglich.

Trotz der Tatsache, dass es keine zentrale Verantwortung für die Bewahrung der Daten gibt, werden Webinhalte immer mehr zu offiziellen Aufzeichnungen. So bestätigte das Justizministerium der Vereinigten Staaten im Jahr 2017, dass die Regierung die Tweets des Präsidenten als offizielle Erklärungen behandelt.

Archivierungsziele

Web-Archivierung verfolgt das Ziel, einen definierten Ausschnitt der im Internet vorhandenen Web-Präsenzen in systematischer Form abzubilden. Hierfür sind eine übergreifende Sammlungspolitik, ein Auswahlverfahren und die Häufigkeit der Archivierung vorab zu klären.

Eine archivierte Website sollte mit allen multimedialen Funktionen (HTML-Code, Stylesheets, JavaScript, Bilder und Video) auf Dauer erhalten werden. Der späteren Beschreibung, Nutzung und Erhaltung dienen Metadaten wie Provenienz, Übernahmezeitpunkt, MIME-Type und Umfang der Daten. Die Metadaten sichern Authentizität und Integrität der digitalen Archivalien.

Nach der Übernahme sind technische und juristische Vorkehrungen zu treffen, um eine ständige öffentliche Zugänglichkeit zu garantieren und eine nachträgliche Veränderung der Archivalien zu verhindern.

Methoden der Sammlung

Remote-Erfassung

Die gebräuchlichste Technik der Web-Archivierung verwendet Web-Crawler, um den Prozess der Sammlung von Webseiten zu automatisieren. Web-Crawler greifen in der Regel auf Webseiten auf die gleiche Weise zu, wie Benutzer mit einem Browser das Web sehen, und bieten daher eine vergleichsweise einfache Methode für die Fernsammlung von Webinhalten. Beispiele für Web-Crawler, die für die Web-Archivierung verwendet werden, sind:

  • Heritrix
  • HTTrack
  • Wget

Es gibt verschiedene kostenlose Dienste, die zur "On-Demand"-Archivierung von Webressourcen unter Verwendung von Web-Crawling-Techniken genutzt werden können. Zu diesen Diensten gehören die Wayback Machine und WebCite.

Datenbank-Archivierung

Die Datenbankarchivierung bezieht sich auf Methoden zur Archivierung des zugrunde liegenden Inhalts von datenbankgestützten Websites. Sie erfordert in der Regel die Extraktion des Datenbankinhalts in ein Standardschema, häufig unter Verwendung von XML. Nach der Speicherung in diesem Standardformat kann der archivierte Inhalt mehrerer Datenbanken dann über ein einziges Zugangssystem zugänglich gemacht werden. Ein Beispiel für diesen Ansatz sind die Tools DeepArc und Xinq, die von der Bibliothèque Nationale de France bzw. der National Library of Australia entwickelt wurden. Mit DeepArc kann die Struktur einer relationalen Datenbank auf ein XML-Schema abgebildet und der Inhalt in ein XML-Dokument exportiert werden. Mit Xinq können diese Inhalte dann online zur Verfügung gestellt werden. Obwohl das ursprüngliche Layout und Verhalten der Website nicht exakt beibehalten werden kann, ermöglicht Xinq die Nachbildung der grundlegenden Abfrage- und Abruffunktionen.

Transaktionale Archivierung

Die transaktionale Archivierung ist ein ereignisgesteuerter Ansatz, der die tatsächlichen Transaktionen zwischen einem Webserver und einem Webbrowser erfasst. Sie dient in erster Linie dazu, Nachweise über den Inhalt zu erhalten, der zu einem bestimmten Zeitpunkt auf einer bestimmten Website tatsächlich angesehen wurde. Dies kann besonders für Organisationen wichtig sein, die gesetzliche oder behördliche Auflagen zur Offenlegung und Aufbewahrung von Informationen erfüllen müssen.

Ein transaktionales Archivierungssystem funktioniert in der Regel so, dass es jede HTTP-Anfrage an den Webserver und jede Antwort von ihm abfängt, jede Antwort filtert, um doppelte Inhalte zu entfernen, und die Antworten dauerhaft als Bitstrom speichert.

Schwierigkeiten und Einschränkungen

Crawler

Web-Archive, die sich auf Web-Crawling als primäres Mittel zum Sammeln des Webs verlassen, sind von den Schwierigkeiten des Web-Crawling betroffen:

  • Das Robots-Exclusion-Protokoll kann verlangen, dass Crawler nicht auf Teile einer Website zugreifen. Manche Web-Archivare ignorieren diese Aufforderung und crawlen diese Teile trotzdem.
  • Große Teile einer Website können im Deep Web versteckt sein. Zum Beispiel kann die Ergebnisseite hinter einem Webformular im Deep Web liegen, wenn Crawler einem Link zur Ergebnisseite nicht folgen können.
  • Crawler-Fallen (z. B. Kalender) können dazu führen, dass ein Crawler eine unendliche Anzahl von Seiten herunterlädt. Daher sind Crawler in der Regel so konfiguriert, dass sie die Anzahl der dynamischen Seiten, die sie crawlen, begrenzen.
  • Die meisten Archivierungstools erfassen die Seite nicht so, wie sie ist. Es ist zu beobachten, dass Werbebanner und Bilder bei der Archivierung oft übersehen werden.

Es ist jedoch zu beachten, dass ein Webarchiv im nativen Format, d. h. ein vollständig durchsuchbares Webarchiv mit funktionierenden Links, Medien usw., nur mit Hilfe der Crawler-Technologie wirklich möglich ist.

Das Web ist so groß, dass das Crawlen eines bedeutenden Teils davon eine große Anzahl technischer Ressourcen erfordert. Das Web ändert sich so schnell, dass sich Teile einer Website ändern können, bevor ein Crawler sie überhaupt gecrawlt hat.

Allgemeine Beschränkungen

Einige Webserver sind so konfiguriert, dass sie auf Anfragen von Webarchiven andere Seiten zurückgeben als auf normale Browseranfragen. Dies geschieht in der Regel, um Suchmaschinen zu täuschen, damit sie mehr Besucher auf eine Website leiten, und oft auch, um eine Rechenschaftspflicht zu vermeiden, oder um erweiterte Inhalte nur den Browsern zur Verfügung zu stellen, die sie anzeigen können.

Web-Archivare müssen sich nicht nur mit den technischen Herausforderungen der Web-Archivierung auseinandersetzen, sondern auch mit den Gesetzen zum geistigen Eigentum. Peter Lyman stellt fest, dass das Web zwar gemeinhin als öffentlich zugängliche Ressource betrachtet wird, aber urheberrechtlich geschützt ist; Archivare haben also kein Recht, das Web zu kopieren. Allerdings haben Nationalbibliotheken in einigen Ländern das Recht, Teile des Webs im Rahmen einer gesetzlichen Hinterlegung zu kopieren.

Einige private Non-Profit-Webarchive, die öffentlich zugänglich gemacht werden, wie WebCite, das Internet Archive oder die Internet Memory Foundation, erlauben es den Eigentümern der Inhalte, archivierte Inhalte zu verbergen oder zu entfernen, wenn sie nicht wollen, dass die Öffentlichkeit Zugang dazu hat. Andere Webarchive sind nur von bestimmten Orten aus zugänglich oder haben eine geregelte Nutzung. WebCite verweist auf eine kürzlich eingereichte Klage gegen das Caching von Google, die Google gewonnen hat.

Gesetze

Im Jahr 2017 veröffentlichte die Financial Industry Regulatory Authority, Inc. (FINRA), eine US-amerikanische Finanzaufsichtsbehörde, eine Bekanntmachung, die besagt, dass alle Unternehmen, die digitale Kommunikation betreiben, verpflichtet sind, Aufzeichnungen zu führen. Dazu gehören Website-Daten, Social-Media-Posts und Nachrichten. Einige Urheberrechtsgesetze können die Web-Archivierung behindern. So fällt beispielsweise die akademische Archivierung von Sci-Hub nicht unter das geltende Urheberrecht. Die Website bietet dauerhaften Zugang zu akademischen Arbeiten, auch zu solchen, die nicht unter einer Open-Access-Lizenz stehen, und trägt damit zur Archivierung wissenschaftlicher Forschung bei, die sonst verloren gehen könnte.

Begrifflichkeiten

Original Resource
Eine originale Quelle, die aktuell im Internet vorhanden ist oder vorhanden sein sollte und für die ein Zugriff auf einen früheren Zustand benötigt wird.
Memento
Ein Memento einer originalen Quelle ist eine Ressource, die den originalen Zustand einer Quelle zu einem definierten Zeitpunkt kapselt.
TimeGate
Ein TimeGate ist eine Ressource, die auf Basis eines vorgegebenen Datums und einer Zeitangabe jenes Memento findet, welches dieser zeitlichen Vorgabe am besten entspricht.
TimeMap
Eine TimeMap ist eine Ressource, welche eine Liste aller Mementos ausgibt, die für die originale Quelle je angelegt wurden.

Auswahlverfahren

Unspezifisch
Bei diesem Auswahlverfahren wird eine ganze Domain nach und nach in ein Archiv geschrieben. Das Verfahren funktioniert wegen des großen Speicherbedarfs nur bei kleineren Domains (netarkivet.dk).
Auswahlliste
Eine Liste von Institutionen wird vorab festgelegt. Die Stabilität der mit den Institutionen verbundenen URLs ist regelmäßig zu prüfen.
Nutzung von Zugriffsstatistiken
In Zukunft ist ein „intelligentes“ Harvesting (dt. Ernten) denkbar, das aufgrund von Zugriffszählungen diejenigen Teile des Web (oder einer Auswahl) archiviert, die besonders hohe Zugriffsraten aufweisen.

Übernahmemethoden

Remote harvesting

Die üblichste Archivierungsmethode ist die Nutzung eines Webcrawlers. Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt. Genauer betrachtet bedeutet das ein rekursives Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich, der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenmäßiger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschränkungen (Abbruchbedingungen) hinsichtlich Tiefe, Domain und der zu archivierenden Dateiarten möglich.

Bei größeren Projekten kommt hierbei der Bewertung von Webseiten zur URL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges können sich unter Umständen sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach dem FIFO-Verfahren oder als Prioritätswarteschlange abgearbeitet werden. Für letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenen Heap und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap, der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer überlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Priorität durch neue Einträge ersetzt werden.

Die Ausgangsstruktur auf dem Server lässt sich allerdings im Archiv nur selten exakt nachbauen. Um bereits im Vorfeld einer Spiegelung eventuell auftretende technische Probleme ausschließen zu können, bietet es sich an, vorab eine Analyse der Webseite durchzuführen. Dies verdoppelt zwar in den meisten Fällen den Datenverkehr, verkürzt aber die aufzuwendende Arbeitszeit im Fehlerfall erheblich.

Beispiele für Webcrawler sind:

  • Heritrix
  • HTTrack
  • Offline Explorer

Transactional archiving

Dieses Verfahren dient der Archivierung der Ergebnisse eines Nutzungsprozesses von Websites. Es ist für Einrichtungen von Bedeutung, die aus rechtlichen Gründen einen Nachweis über ihre Nutzung zu führen haben. Voraussetzung ist die Installation eines Zusatzprogramms auf dem Webserver.

Webarchivierung in Deutschland

Auf Bundesebene hat die Deutsche Nationalbibliothek (DNB) seit 2006 den gesetzlichen Auftrag zur Webarchivierung. Seit 2012 werden Webseiten thematisch und bei bestimmten Ereignissen archiviert, also selektiv und nicht vollumfänglich. Die DNB arbeitet dabei mit einem externen Dienstleister zusammen. Außerdem wurden 2014 bisher einmalig alle DE-Domains gecrawled. Der Zugriff auf das Webarchiv erfolgt hauptsächlich in den Lesesälen.

Neben der Webarchivierung der DNB gibt es in verschiedenen Bundesländern Initiativen:

  • Baden-Württemberg: Das Baden-Württembergische Online-Archiv (BOA) sammelt seit 2002 digitale Publikationen und ausgewählte Webseiten.
  • Bayern: Die Bayerische Staatsbibliothek sammelt seit 2010 ausgewählte Webseiten.
  • Rheinland-Pfalz: Die Rheinische Landesbibliothek sammelt seit 2003 im Projekt edoweb ausgewählte Webseiten.

Außerdem gibt es in Deutschland weitere Webarchivierungsinitiativen beispielsweise von parteinahen Stiftungen, vom SWR, von der Deutschen Post oder vom Biotechnologie-/Pharmaunternehmen Abbvie.