A B C D E F G H I J K L M N O P Q R S T U V W X Z

Git_Versioning Software

Git ist eine freie Software zur verteilten Versionsverwaltung.

Das bedeutet: Mit git können mehrere Personen auf ihren lokalen Rechnern an einem Projekt arbeiten, und ihre individuellen Arbeitsstände in einem zentralen online-Repository zusammenführen. git wird vor allem für Coding-Projekte verwendet, aber auch andere Anwendungszwecke sind theoretisch denkbar.

Prinzipielle Funktionsweise

Etwas vereinfacht funktioniert git so:

Online existiert ein Repository. Wenn eine Person am Projekt arbeiten möchte, lädt sie den aktuellen Stand des Projektes aus dem Repository herunter. Dieser Befehl wird auch „Pull“ genannt. Alle Dateien liegen nun als Kopien auf ihrem Rechner. Mit diesen kann sie arbeiten und sie verändern, löschen, oder neue Dateien hinzufügen. Wenn Person A damit fertig ist, lädt sie ihren aktuellen Arbeitsstand von ihrem lokalen Rechner in das Repository. Dieser Schritt heißt „Push“ . Die Dateien im Repository werden aktualisiert und Rechner und Repository sind nun auf demselben Stand.

Es können auch mehrere Personen gleichzeitig pullen und pushen. Dabei kann es zu Konflikten kommen. Zum beispiel dann, wenn Person A und Person B eine Datei bearbeitet haben. Beide pushen ihre Dateien. Nun würden zwei verschiedene Versionen der Datei existieren. Ist das der Fall, bietet git verschiedene Möglichkeiten an, die Dateien zusammenzuführen.

Branches

Eine weitere zentrale Funktion ist das Erstellen von Branches. Zu Beginn eines Projektes gibt es nur einen Branch: Den main-Branch (früher auch oft Master-Branch genannt). Hier sind alle Dateien gespeichert. Manchmal möchte man aber nicht an den „original“-Daten arbeiten, zum Beispiel, wenn man etwas ausprobieren möchte von dem man noch nicht sicher ist, ob es funktioniert. Dann kann man einen Branch erstellen. Das bedeutet: Alle Dateien aus dem main-Branch werden kopiert und man arbeitet erstmal an den Kopien weiter. Alle Pulls und Pushes passieren dann auf dem neuen Branch. Wenn man sich sicher ist, dass der eigene Code funktioniert, spielt man seine Änderungen aus dem Branch zurück in den main-Branch. Diese Zusammenführung der Branches heißt Merge.

In vielen Projekten ist es sinnvoll, den Zugriff auf den main-Branch zu beschränken und zuerst noch eine Kontrolle einzuführen. In diesem Fall kann man den eigenen Branch nicht einfach so mit dem main-Branch zusammenführen, sondern stellt erstmal einen Pull-Request. Das bedeutet: Man bittet den Besitzer des main-Branches darum, die Änderungen im eigenen Branch in den main-Branch zu übernehmen. Wird der Pull-Request akzeptiert, werden die Branches zusammengeführt.

Git verwenden

Klassischerweise wird git über die Kommandozeile verwendet. Dafür muss man die Software hier herunterladen. GitHub bietet außerdem ein Cheat-Sheet für die Kommandozeilenbefehle an: https://education.github.com/git-cheat-sheet-education.pdf

Für Windows gibt es auch die Möglichkeit, git über die Desktop-Anwendung Github Desktop zu verwenden. Diese bietet eine übersichtliche Oberfläche für alle Funktionen von git und kann hier heruntergeladen werden.

Wenn man Github Desktop mit gitlab verwenden will, dann muss man nach folgender Anleitung vorgehen: https://itnext.io/how-to-use-github-desktop-with-gitlab-cd4d2de3d104

 

Goenet Security Group in GWDG Horizon

Create and Manage Security Groups

You can create new security groups to provide certain servers with specific access. After login with the user credential, follow the steps:

    1. From the left menu bar, select Project→Network→Security Groups and then click “Create Security Group”.
    2. Determine a unique meaningful name (Ex. Goenet) and an optional description then click “Create Security Group”.

Once the security group has been created successfully, it will be shown in the list with an option to manage its security rules.

Manage Security Rules

You can add/remove security rules to/from a security group, in order to change the provided access. Click “Manage Rules” from the very right of the security group row. A form containing all defined rules will be shown. By default, all ports are opened for outbound connections and no inbound connections are allowed. As a result, you can see that it contains 2 Egress rules whit no limitation on IPs and ports.

    1. To add a new rule, click “Add Rule” on top-right of the form.
    2. To define Goenet rule, first select TCP protocol from “Rule” drop-down list.
    3. Leave the “Direction” field with the value Ingress (inbound connections).
    4. For TCP protocol select All ports from “Open Ports” drop-down list.
    5. Leave the “Remote” field with the value CIDR, and in “CIDR” field specify the GWDG/University’s IP range: 134.76.0.0/16. The default value “0.0.0.0/0” means from any IP (no protection) .
    6. Then click “Add” on bottom-right of the form.
Goenet Rule

Assign Security Group to Server

From the left menu bar, select Project → Compute → Instances and then click the small arrow on the very right of each instance row called “Actions”. After that select “Edit Security Groups” then click the “+” (add sign) of “Goenet” from Security Groups list. Then click “Save” on bottom-right of the form to apply the rules on the server.

Source:  Create and Manage Security Groups

Göttingen Research Online (GRO)

GRO.data ist ein universelles Forschungsdatenrepositorium für den Göttingen Campus. Forschende mit Zugehörigkeit zu einer Institution des Göttingen Campus können es kostenfrei nutzen. GRO.data dient verschiedenen Zwecken, wie z.B.:

  • Datensätze auf einfache Art dauerhaft sichern
  • Änderungen an Datensätzen über mehrere Versionen hinweg verfolgen
  • Daten mit KollegInnen teilen
  • Daten öffentlich verfügbar machen (publizieren)
  • Persistente Identifikatoren für publizierte Daten erhalten

Wer kann den Dienst nutzen?

Jede/r Forschende am Göttingen Campus kann ihr/sein institutionelles Konto nutzen um sich einzuloggen, einen persönlichen Bereich („Dataverse“) anzulegen und dann hierin Dateien als „Datasets“ hochzuladen. Sie können dann anderen Forschenden oder Gruppen Zugriff auf diese Dateien ermöglichen oder die Daten publizieren und einen DOI erhalten, um diesen bspw. für die Zitation zu nutzen. Wenn Sie eine ORCID iD haben, können Ihre Daten auch automatisch zu Ihrem ORCID record hinzugefügt werden.

Technische Details

GRO.data basiert auf dem Open-Source-Programm Dataverse. Es wurde und wird kontinuierlich von der Göttinger eResearch Alliance angepasst, um sich gut in die lokale Infrastruktur zu integrieren und den Zugriff über Single Sign-On, d.h. mit Ihrem GWDG-Konto, zu ermöglichen. Die GWDG hostet diesen Dienst und kümmert sich um Datensicherheit und -schutz, einschließlich Backups und Zugriffskontrolle, sowie um die Verfügbarkeit und Zuverlässigkeit.

grab-site (web crawler)

 

grab-site is the archivist’s web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns

GitHub repo: https://github.com/ArchiveTeam/grab-site

Installation steps:

Install on Ubuntu 18.04, 20.04, 22.04, Debian 10 (buster), Debian 11 (bullseye)

  1. On Debian, use su to become root if sudo is not configured to give you access.

sudo apt-get updatesudo apt-get install –no-install-recommends \    wget ca-certificates git build-essential libssl-dev zlib1g-dev \    libbz2-dev libreadline-dev libsqlite3-dev libffi-dev libxml2-dev \    libxslt1-dev libre2-dev pkg-config

If you see Unable to locate package, run the two commands again.

  1. As a non-root user:

wget https://raw.githubusercontent.com/pyenv/pyenv-installer/master/bin/pyenv-installerchmod +x pyenv-installer./pyenv-installer~/.pyenv/bin/pyenv install 3.8.15~/.pyenv/versions/3.8.15/bin/python -m venv ~/gs-venv~/gs-venv/bin/pip install –no-binary lxml –upgrade git+https://github.com/ArchiveTeam/grab-site

–no-binary lxml is necessary for the html5-parser build.

  1. Add this to your ~/.bashrc or ~/.zshrc:

PATH=“$PATH:$HOME/gs-venv/bin“

and then restart your shell (e.g. by opening a new terminal tab/window).

Upgrade an existing install

To update grab-site, simply run the ~/gs-venv/bin/pip install … or nix-env … command used to install it originally (see above).

After upgrading, stop gs-server with kill or ctrl-c, then start it again. Existing grab-site crawls will automatically reconnect to the new server.

Using grab-site

First, start the dashboard with:

gs-server

and point your browser to http://127.0.0.1:29000/

Note: gs-server listens on all interfaces by default, so you can reach the dashboard by a non-localhost IP as well, e.g. a LAN or WAN IP. (Sub-note: no code execution capabilities are exposed on any interface.)

Then, start as many crawls as you want with:

grab-site ‚URL‘

>>Do this inside tmux unless they’re very short crawls.<<

grab-site outputs WARCs, logs, and control files to a new subdirectory in the directory from which you launched grab-site, referred to here as „DIR“. (Use ls -lrt to find it.)

You can pass multiple URL arguments to include them in the same crawl, whether they are on the same domain or different domains entirely.

See „SolrWayback“ entry in the Knowledge Base for help with accessing WARC files.

Handreichung für die Archivierung von wissenschaftlichen Webseiten

Siehe unter:  https://github.com/UB-LMU/Webseitenarchivierung_BestPracticeGuide/blob/main/Webseitenarchivierung_BestPracticeGuide.md

Autoren: Andreas Frech (LMU) und Yves Vincent Grossmann (MPDL)

Version 1.0 – 18.01.2024

Einleitendes

Problembeschreibung

Entgegen des häufig kolportierten Satzes „Das Internet vergisst nichts!“ und des ebenso häufig angemahnten „Rechts auf Vergessen“ verschwinden Informationen oft leise und unbemerkt, aber stetig aus dem Netz. Diese Phänomene werden als „content drift“ (Änderung von Webinhalten unter der gleichen Adresse), „link rot“ (Verfall von Webseitenlinks) oder „reference rot“ (Verfall von Zitierungen eines Webinhalts) bezeichnet. Sie betreffen das gesamte Spektrum des Internets, von einzelnen Webseiten, über Publikationen bis hin zu Social-Media-Anbietern. Zwar ist es richtig, dass besonders Social-Media-Posts über einen mittelfristig relevanten Zeitraum erhalten bleiben, jedoch ist eine langfristige Verfügbarkeit selbst bei großen Marktteilnehmern alles andere als gewährleistet. Im März 2019 wurde bekannt, dass die Social-Media-Plattform „MySpace“ durch einen missglückten Serverumzug ca. 50 Millionen Fotos, Videos und Audiodateien verlor, die in den Jahren 2003 bis 2016 hochgeladen wurden. 490.000 mp3s konnten im April 2019 durch das Internet Archive wiederhergestellt werden; die Mehrheit der Daten blieb jedoch verloren. In den 2000er Jahren war MySpace die zentrale Anlaufstelle für Musiker und Musikliebhaber gleichermaßen im Internet und das Verschwinden von sowohl Daten als auch der Plattform selbst war lange so undenkbar wie bei anderen großen zeitgenössischen, inzwischen heftig ins Wanken geratenen Plattformen. Jede einzelne Webseite im Internet benötigt Hardware-Komponenten wie Webserver, Speichermedien und Netzwerkinfrastruktur und dazu passende Betriebssysteme, Datenbank- und Webserver-Software. Zur Darstellung der Inhalte werden zusätzlich Programmiersprachen, Skripte und Stylesheets verwendet. Jeder einzelne dieser Komponenten unterliegt einem technologischen Alterungsprozess und bedarf aufwendiger Pflege und Wartung. Viele dieser Softwarekomponenten werden nutzerfreundlich in Content-Management-Systemen wie z.B. WordPress zusammengefasst, die selbst wiederum diesen Alterungsprozessen unterliegen und gewartet werden müssen. Es entsteht das Paradox von einer (scheinbaren) Überfülle auf der einen und Knappheit, d.h. dem schnellen Quellenverlust, auf der anderen Seite (Roy Rosenzweig1). Bei der Erstellung einer neuen Webseite ist es also wichtig, von Anfang an die Bedeutung der Datenarchivierung im Blick zu haben. Dies ermöglicht die langfristige Bewahrung der auf der Seite veröffentlichten Informationen.

Ziel des Dokuments

Webdesigner bauen eine Webseite gewöhnlich unter den Gesichtspunkten Nutzerfreundlichkeit, Performance und Suchmaschinenoptimierung. Zunehmend wichtiger wird es jedoch auch, für langfristige Zugänglichkeit und möglichst vollständige Langzeitarchivierung zu gestalten, was sich auf Struktur, Inhalt, Funktionalität und Front-End-Präsentation auswirkt. Wie also sollte eine Webseite aufgebaut sein, die möglichst langfristig – also mit einem Zeithorizont jenseits von 10 Jahren, wie es die Standards zur Sicherung guter wissenschaftlicher Praxis der DFG empfehlen – relevante Informationen bereitstellen soll, sei es online oder in einem Webarchiv? Und was sollte vor der Web-Publikation dabei berücksichtigt werden?

Zielgruppen

Projektverantwortliche Die Handreichung soll vor allem bei der Konzeption von Projekten unterstützen, damit die Projektinhalte möglichst langfristig online verfügbar gehalten werden können.

Wichtige Kapitel „Erste Schritte“, „Informationsmodelle“, „Dateiformate und Datenbanken“, „Graphische Darstellungen“, „Maschinen-Lesbarkeit“, „Webseiten-Archivierung in den Leitlinien zur guten wissenschaftlichen Praxis“, „Rechtliche Fragestellungen“, „Datenschutz“, „Checkliste für die Webseitenarchivierung“

Technische Mitarbeiter, Webdesigner Die Handreichung soll Entwickler und Webdesigner Hinweise geben, welche technischen Parameter und Designentscheidungen Einfluss auf die Langzeitverfügbarkeit und Archivierbarkeit einer Webseite haben.

Wichtige Kapitel „Technisches“, „Dateiformate und Datenbanken“ „Graphische Darstellungen“, „Maschinen-Lesbarkeit“

Institutionen Die Handreichung kann zur Erarbeitung interner Standards und Vorgaben dienen, um eigene Webseiten langfristig verfügbar zu halten. Auch kann sie bei der Kommunikation mit Archivierungsinfrastruktureinrichungen hilfreich sein. Dies gilt gleichermaßen bei der Vergabe von Aufträgen, wo sie zur Ableitung von Anforderungen herangezogen werden kann.

HAProxy – TCP/HTTP Load Balancer

HAProxy is a free reverse-proxy offering high availability, load balancing, and proxying for TCP and HTTP-based applications. It is particularly suited for very high traffic web sites and powers a significant portion of the world’s most visited ones. Over the years it has become the de-facto standard opensource load balancer, is now shipped with most mainstream Linux distributions, and is often deployed by default in cloud platforms.

http://www.haproxy.org/

Historical Context Ontology (HiCO)

The Historical Context Ontology (HiCO) is an OWL 2 DL ontology developed for representing the context of a claim. In particular, it addresses features characterising hermeneutical activities performed by scholars while generating new information (i.e. an interpretation act). It allows to represent and reason on reliability of argumentations around attributions, by evaluating features such as motivations, types of cited sources or criteria, dates, relations with other claims (e.g. agreement/disagreement). Specifically, historical context regards events and situations that are part of the life-cycle of cultural heritage objects. For instance, being created by somebody, or being created at a certain time, are events related to an artefact that are claimed by an agent at a certain time, motivated with usage of primary sources, and recorded in a secondary source (e.g. a cataloguing record). HiCO extends the PROV Ontology with terms for describing aspects of the hermeneutical activity, and reuses existing ontologies, such as CiTO Ontology for linking attributions to related sources.

IRI:
http://purl.org/emmedi/hico
Version IRI:
http://purl.org/emmedi/hico/2020-03-31
Date:
31/03/2020
Current version:
2.0
Authors:
Marilena Daquino
Contributors:
Francesca Tomasi
Silvio Peroni
Other visualisation:
Ontology source

https://marilenadaquino.github.io/hico/