Enzyklopädie

Siehe unter: https://github.com/UB-LMU/Webseitenarchivierung_BestPracticeGuide/blob/main/Webseitenarchivierung_BestPracticeGuide.md

Autoren: Andreas Frech (LMU) und Yves Vincent Grossmann (MPDL)

Version 1.0 – 18.01.2024

Einleitendes

Problembeschreibung

Entgegen des häufig kolportierten Satzes „Das Internet vergisst nichts!“ und des ebenso häufig angemahnten „Rechts auf Vergessen“ verschwinden Informationen oft leise und unbemerkt, aber stetig aus dem Netz. Diese Phänomene werden als „content drift“ (Änderung von Webinhalten unter der gleichen Adresse), „link rot“ (Verfall von Webseitenlinks) oder „reference rot“ (Verfall von Zitierungen eines Webinhalts) bezeichnet. Sie betreffen das gesamte Spektrum des Internets, von einzelnen Webseiten, über Publikationen bis hin zu Social-Media-Anbietern. Zwar ist es richtig, dass besonders Social-Media-Posts über einen mittelfristig relevanten Zeitraum erhalten bleiben, jedoch ist eine langfristige Verfügbarkeit selbst bei großen Marktteilnehmern alles andere als gewährleistet. Im März 2019 wurde bekannt, dass die Social-Media-Plattform „MySpace“ durch einen missglückten Serverumzug ca. 50 Millionen Fotos, Videos und Audiodateien verlor, die in den Jahren 2003 bis 2016 hochgeladen wurden. 490.000 mp3s konnten im April 2019 durch das Internet Archive wiederhergestellt werden; die Mehrheit der Daten blieb jedoch verloren. In den 2000er Jahren war MySpace die zentrale Anlaufstelle für Musiker und Musikliebhaber gleichermaßen im Internet und das Verschwinden von sowohl Daten als auch der Plattform selbst war lange so undenkbar wie bei anderen großen zeitgenössischen, inzwischen heftig ins Wanken geratenen Plattformen. Jede einzelne Webseite im Internet benötigt Hardware-Komponenten wie Webserver, Speichermedien und Netzwerkinfrastruktur und dazu passende Betriebssysteme, Datenbank- und Webserver-Software. Zur Darstellung der Inhalte werden zusätzlich Programmiersprachen, Skripte und Stylesheets verwendet. Jeder einzelne dieser Komponenten unterliegt einem technologischen Alterungsprozess und bedarf aufwendiger Pflege und Wartung. Viele dieser Softwarekomponenten werden nutzerfreundlich in Content-Management-Systemen wie z.B. WordPress zusammengefasst, die selbst wiederum diesen Alterungsprozessen unterliegen und gewartet werden müssen. Es entsteht das Paradox von einer (scheinbaren) Überfülle auf der einen und Knappheit, d.h. dem schnellen Quellenverlust, auf der anderen Seite (Roy Rosenzweig¹). Bei der Erstellung einer neuen Webseite ist es also wichtig, von Anfang an die Bedeutung der Datenarchivierung im Blick zu haben. Dies ermöglicht die langfristige Bewahrung der auf der Seite veröffentlichten Informationen.

Ziel des Dokuments

Webdesigner bauen eine Webseite gewöhnlich unter den Gesichtspunkten Nutzerfreundlichkeit, Performance und Suchmaschinenoptimierung. Zunehmend wichtiger wird es jedoch auch, für langfristige Zugänglichkeit und möglichst vollständige Langzeitarchivierung zu gestalten, was sich auf Struktur, Inhalt, Funktionalität und Front-End-Präsentation auswirkt. Wie also sollte eine Webseite aufgebaut sein, die möglichst langfristig – also mit einem Zeithorizont jenseits von 10 Jahren, wie es die Standards zur Sicherung guter wissenschaftlicher Praxis der DFG empfehlen – relevante Informationen bereitstellen soll, sei es online oder in einem Webarchiv? Und was sollte vor der Web-Publikation dabei berücksichtigt werden?

Zielgruppen

Projektverantwortliche Die Handreichung soll vor allem bei der Konzeption von Projekten unterstützen, damit die Projektinhalte möglichst langfristig online verfügbar gehalten werden können.

Wichtige Kapitel „Erste Schritte“, „Informationsmodelle“, „Dateiformate und Datenbanken“, „Graphische Darstellungen“, „Maschinen-Lesbarkeit“, „Webseiten-Archivierung in den Leitlinien zur guten wissenschaftlichen Praxis“, „Rechtliche Fragestellungen“, „Datenschutz“, „Checkliste für die Webseitenarchivierung“

Technische Mitarbeiter, Webdesigner Die Handreichung soll Entwickler und Webdesigner Hinweise geben, welche technischen Parameter und Designentscheidungen Einfluss auf die Langzeitverfügbarkeit und Archivierbarkeit einer Webseite haben.

Wichtige Kapitel „Technisches“, „Dateiformate und Datenbanken“ „Graphische Darstellungen“, „Maschinen-Lesbarkeit“

Institutionen Die Handreichung kann zur Erarbeitung interner Standards und Vorgaben dienen, um eigene Webseiten langfristig verfügbar zu halten. Auch kann sie bei der Kommunikation mit Archivierungsinfrastruktureinrichungen hilfreich sein. Dies gilt gleichermaßen bei der Vergabe von Aufträgen, wo sie zur Ableitung von Anforderungen herangezogen werden kann.

The Historical Context Ontology (HiCO) is an OWL 2 DL ontology developed for representing the context of a claim. In particular, it addresses features characterising hermeneutical activities performed by scholars while generating new information (i.e. an interpretation act). It allows to represent and reason on reliability of argumentations around attributions, by evaluating features such as motivations, types of cited sources or criteria, dates, relations with other claims (e.g. agreement/disagreement). Specifically, historical context regards events and situations that are part of the life-cycle of cultural heritage objects. For instance, being created by somebody, or being created at a certain time, are events related to an artefact that are claimed by an agent at a certain time, motivated with usage of primary sources, and recorded in a secondary source (e.g. a cataloguing record). HiCO extends the PROV Ontology with terms for describing aspects of the hermeneutical activity, and reuses existing ontologies, such as CiTO Ontology for linking attributions to related sources.

IRI:: http://purl.org/emmedi/hico
Version IRI:: http://purl.org/emmedi/hico/2020-03-31

Date:: 31/03/2020
Current version:: 2.0

Authors:: Marilena Daquino
Contributors:: Francesca Tomasi; Silvio Peroni

Other visualisation:: Ontology source

https://marilenadaquino.github.io/hico/

digitale-akademie.adw-goe.de

ADW Göttingen
Theaterstr. 7

digiberichte.de

curated by
Digitale Akademie

digitale-akademie.adw-goe.de

ADW Göttingen
Geiststrasse 10

www.inschriften.net

ADW Göttingen / ADW Mainz

digitale-akademie.adw-goe.de

ADW Göttingen
Friedländer Weg 11

coptot.manuscriptroom.com

ADW Göttingen
Friedländer Weg 12

sub.uni-goettingen.de

Digitale Akademie
Platz der Göttinger Sieben 1

fwb-online.de

ADW Göttingen
Geiststrasse 10

resikom.adw-goe.de

ADW Göttingen
Arbeitsstelle Kiel

klosterdatenbank.germania-sacra.de

ADW Göttingen
Geiststrasse 10

Handreichung für die Archivierung von wissenschaftlichen Webseiten

Einleitendes

Problembeschreibung

Ziel des Dokuments

Zielgruppen

HAProxy – TCP/HTTP Load Balancer

Heritrix Web Crawling Software

Historical Context Ontology (HiCO)

ADW GöttingenTheaterstr. 7

Einleitendes

Problembeschreibung

Ziel des Dokuments

Zielgruppen

ADW Göttingen
Theaterstr. 7