ArchivesSpace: Import und Export

ArchivesSpace bietet eine OAI-PMH-Schnittstelle sowie dateibasierten Import und Export in diversen Formaten (EAD, MARCXML, CSV). Um damit vertraut zu werden, haben wir Beispieldaten im Format EAD importiert und anschliessend in MARCXML exportiert.

Übung: Import
Von den Beispieldaten auf https://eadiva.com/2/sample-ead2002-files/ hat meine Gruppe gleich das erste (The American Association of Industrial Editors (AAIE) Records) als “raw XML file” heruntergeladen. Anschliessend wurden diese Daten im Format EAD in ArchivesSpace importiert: Create > Background Job > Import Data.

Anhand der Log-Datei kann man sehen, was ArchivesSpace genau aus den EAD-Dateien liest, z.B. Normdaten. EAD ist ein komplexes Dateiformat und ist etwas aufwändiger auszuwerten, weshalb dies in mehreren Zyklen erfolgt: codimd

Der Import hat mit den von mir verwendeten Beispieldaten problemlos geklappt. Dies war jedoch nicht bei allen der Fall und wie sich herausstellte, ist dies eine generelle Schwäche von EAD: Grundsätzlich ist es ein gutes Austauschformat und weit verbreitet, es gibt jedoch keine Garantie für den Import/Export in Systemen, sodass man häufig mit Fehlermeldungen zu tun hat. Bestätigung des abgeschlossenen Imports:
codimd

Und so sieht der Datensatz in ArchivesSpace aus:
codimd

Übung: Export
Um auch die Export-Funktion zu testen, haben wir die zuvor importierten Daten im Format MARCXML exportiert (Funktion befindet sich in der Button-Leiste bei der “Resource”). Der Vergleich der MARCXML-Datei mit den in ArchivesSpace angezeigten Informationen hat dabei zunächst nichts Auffallendes offenbart, was jedoch nur an dem gewählten Datensatz lag, denn dieser besteht aus nur einer Verzeichnisstufe. Die meisten Archiv-Datensätze bestehen jedoch aus mehreren Stufen, wodurch beim Export in MARCXML Probleme entstehen können, da MARCXML medienzentriert ist und keine Hierarchien kennt. Wenn man demnach EAD in MARCXML migriert, wird der EAD-Datensatz “flachgeklopft”, was sich bspw. darin zeigen kann, dass nur die oberste Stufe übertragen wird. ArchivesSpace stellt Mappingtabellen als XLS (Stand 2013) zur Verfügung, die in solchen Fällen dringend zu konsultieren sind, um nachvollziehen zu können, was beim Export geschieht. Das Exportfile in MARCXML:
codimd

Marktüberblick Archivsysteme

  • In den USA ist ArchivesSpace weit verbreitet
  • Eine weitere bekannte Open-Source-Alternative ist AtoM (Access to Memory). Diese Software haben wir im Studium bereits einmal oberflächlich kennengelernt und soweit ich mich erinnern kann, hat sie einen guten Eindruck gemacht. Übrigens bietet docuteam das Hosting für AtoM in Schweizer Rechenzentren an, worunter die Bereitstellung der IT-Infrastruktur, den Betrieb und die Wartung der Applikation fällt. Sie haben AtoM ausserdem in ihr Produkt docuteam cosmos integriert – eine cloudbasierte Archivlösung für die digitale Langzeitarchivierung, die aus mehreren Komponenten besteht.
  • Auf dem Schweizer Markt dominieren die Produkte scope.Archiv und CMISTAR
  • Als Mitarbeiterin des Schweizerischen Kunstarchivs (SIK-ISEA) ist mir ausserdem die Archivsoftware ANTON bekannt, die zurzeit entwickelt wird.

Digitalisiertes Archivgut wird häufig unter Einsatz von zusätzlicher Software online präsentiert. Beispiele:

Unterschiede zwischen Bibliotheks- und Archivsystemen

Bibliothek

  • Die Sammlung besteht zu einem Grossteil aus Massenmedien
  • Nutzung durch Besucher/innen steht im Vordergrund
  • Software ist medienzentriert
  • Metadatenformat: MARC21, zukünftig BIBFRAME (?)

Archiv

  • Der Bestand ist meist unikal und “stehend”
  • Nutzung ist oftmals eingeschränkt, Konsultation auf Anfrage
  • Software orientiert sich an analogen Findmitteln
  • Metadatenformat: EAD, zukünftig RiC

Repository-Software für Publikationen und Forschungsdaten

Grundsätzliches zu Repositorien: https://open-access.net/informationen-zu-open-access/repositorien

Es ist wichtig, folgende Begriffe auseinanderhalten zu können:

  • Open Access bezeichnet den freien Zugang zu Publikationen. Der Fokus liegt hierbei auf Zweitveröffentlichungen (“grüner Weg”) sowie Hochschulschriften. Statistik zu Open-Access-Repositorien.
  • Open Data bezieht sich auf Forschungsdaten. Dies sind Primärdaten, die im Rahmen von Forschungsprojekten entstehen und oftmals im Anhang von Zeitschriftenartikel zu finden sind. Verzeichnis von Forschungsdaten-Repositorien.
  • Forschungsinformationen sind Informationen über Forschende, Drittelmittelprojekte, Patente und weiteres. Dass erhoben wird, wer was forscht und wie finanziert wird, ist relativ neu – früher galt “Wissenschaftsfreiheit”. Ziel ist es, Wissenschaft stärker zu empirisieren und zu beobachten, um Forschungsberichterstattung zu ermöglichen. Beispiel: “Kerndatensatz Forschung” in Deutschland

Software-Beispiele

Exkurs: Orcid
Orcid („Open Researcher Contributor Identification Initiative“) ist ein Zusammenschluss von mehreren grossen wissenschaftichen Verlagen und Forschungsinsitutitonen, der Forschenden einen unique Identifier vergibt, um sie eindeutig identifizieren zu können. Diese ID erlaubt es, Publikationen sowie weitere Forschungsaktivitäten und -ergebnisse einer Person zuzuordnen. Vergleichbar ist dies mit der GND (Gemeinsame Normdatei), wobei Orcid auf einem höheren Level liegt: Anders als bei der GND wirkt Orcid international, es werden alle Personen erfasst, zudem können sich Forschende selber registrieren und die eigenen Angaben verwalten.

DSpace

Die Software eignet sich für Publikationen und Forschungsdaten – und mit DSpace-CRIS als Erweiterung zusätzlich auch für Forschungsinformationen. Als Metadatenformat wird Qualified Dublin Core (Erweiterung des Standardset) verwendet, es kann aber auch mit dem DataCite Metadatenschema betrieben werden. Die Version DSpace 6.x wurde 2016 veröffentlicht und wird weiterhin gepflegt, wenn auch nicht mehr weiterentwickelt. 2020 ist die Veröffentlichung der Version DSpace 7.x geplant, die mit neuer Technologie im Frontend (Angular) sowie im Backend (neue REST API) erscheint.

Wir testen DSpace anhand der öffentlich zugänglichen Demo: https://demo.dspace.org. Für die unterschiedlichen Rollen in DSpace gibt es unterschiedliche Logins:

  • Site Administrator: dspacedemo+admin@gmail.com
  • Community Administrator: dspacedemo+commadmin@gmail.com
  • Collection Administrator: dspacedemo+colladmin@gmail.com
  • Submitter: dspacedemo+submit@gmail.com
  • Passwort: dspace

Übung: Communities und Collections
Ziel dieser Übung war das Erstellen einer Community und innerhalb dieser einer Collection. Da ein unbekannter Witzbold das Passwort zum Site Admin geändert hat, mussten wir auf das Login des Community Admin ausweichen – hat trotzdem geklappt. Das Vorhandensein dieser beiden Bereiche lässt sich auf das Rechtemanagement zurückführen; es ist bequemer, zentral bei der Community definieren zu können, wer welche Collection(s) verwalten darf als umgekehrt innerhalb jeder Collection. Auch können ganze Communities “geharvestet” werden, d.h. Daten einer Institution über die Schnittstelle abgefragt werden. [Hier hätte ich anschliessend einen Screenshot meiner erstellten Datensätze eingefügt, leider wurden diese aber mittlerweile gelöscht. Da eine Abbildung nicht wirklich einen Mehrwert mit sich bringt, habe ich darauf verzichtet, die Übung zu wiederholen]

Übung: Einreichung und Review
In dieser zweiten Übung versetzte ich mich in die Rolle einer Forscherin, die ein Dokument hochlädt. Dabei musste ich vor der Veröffentlichung den Begutachtungsprozess durchlaufen (da ich dies beim Anlegen der Collection aktiviert hatte). Auch dies hat gut geklappt (Screenshot fehlt aus den oben genannten Gründen). Für diese Übung habe ich irgendein PDF verwendet, das auf meinem Rechner herumlag. DSpace bietet jedoch auch Datenübernahme via DOI an, sodass nicht alle Metadaten händisch eingegeben werden müssen.

Import und Export
DSpace bietet einerseits dateibasierten Import an. Im Kontext von Repositorien sind jedoch v.a. Schnittstellen relevant: SWORD ermöglicht die Publikation in DSpace auf anderen Webseiten. Eine OAI-PMH-Schnittstelle ermöglicht anderen Systemen, die in DSpace erfassten Metadaten abzurufen. OAI-PMH-Schnittstelle der DSpace-Demo: http://demo.dspace.org/oai/request?verb=ListSets

Marktüberblick Repository-Software

Relevante Systemen im DACH-Raum (alle Open Source): DSpace, EPrints, Fedora / Islandora, Invenio, MyCoRe, OPUS

Aus dieser Liste ist Invenio herauszupicken, das an interessanten Lösungen arbeitet:

  • InvenioRDM - “The turn-key research data management repository. Coming soon - late 2020”
    • InvenioILS - “Modern Integrated Library System. Coming soon - late 2020”


Quellen: docuteam und AtoM, ANTON, BAIN-Skript 4