Skip to content
P

PIDs

Benötigte Metadaten

Ein Ausschnitt aus einer Beispiel-JSON von GESIS:

    "studyDOI" : "10.4232/1.1680",
    "variableName" : "V1",
    "variableLabel" : "ZA STUDY NUMBER 1680",
    "pidProposal" : "21.T11998/nfdi-task0-v0",
    "landingPage" : "https://search.gesis.org/variables/exploredata-ZA1680_VarV1",
    "resourceType" : "Variable",
    "title" : "V1 - ZA STUDY NUMBER 1680",
    "creators" : [ {
      "firstName" : "Jonathan",
      "lastName" : "Kelley"
    }],
    "publisher" : "GESIS - Leibniz Institute for the Social Sciences",
    "publicationDate" : "1989-01-01",
    "availability" : "OnSite",
    "description" : "V1 - ZA STUDY NUMBER 1680"

Zentrale Dokumente aus dem PID-Projekt (Zenodo-Community):

Verwendete Metadaten

Welche Datensätze?

  • Informationen aus dem zentralen Repo, weil dort die Registrierungsdaten auch wieder gespeichert werden sollen: https://git.soep.de/soep-generierungen/Dokumentation/
  • Nur Datensätze, die in datasets_versions.csv zur gewünschten Version (aktuell: v37) gehören.
  • Nur Datensätze, die in logical_datasets.csv bei minedition die Einträge "teaching","international","eu","planning_regions","area_types","onsite" haben, also in der SUF kommen.
  • Das sind im Ergebnis die Datensätze, die auch auf paneldata.org sind. (Ausnahme: bei abroad wurde zwischenzeitlich die minedition auf arch gesetzt, was für diesen Zweck wieder auf teaching korrigiert wurde.
  • Es werden dann alle variables.csv bezogen, die im v37-Ordner liegen und die zu den genannten Datensätzen gehören.

Welche Merkmale?

Merkmal Beschreibung
studyDOI paste0("10.5684/soep.core.",active.version,"o") also die DOI der Onsite-Edition
variableName Variablenname (variable in variables.csv)
variableLabel Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem [de])
pidProposal noch offen, haben wir Präferenz? Für Testsystem s.u.
landingPage paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable) konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL?
resourceType "Variable" (fix)
title paste0(variables.csv$variable, " – ", variables.csv$variableLabel) zusammengesetzt aus Variablenname und -Label
creators wollen wir da Personen? Wenn ja überall die gleichen?
publisher "SOEP Group" (fix)
publicationDate Registrierungsdatum DOI, manuell gesetzt, fix
availability effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular
description Variablenbeschreibung (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem [de])
source.path aus welcher Datei stammt die Zeile? (zusätzlich)
version in welcher SOEP-Version wurde die Variable registriert? (zusätzlich)

Die Aufbereitung der Metadaten erfolgt mit dem Skript extract_from_repo.R.

Können die Metadaten nach der Registrierung verändert werden? Wenn ja: In welchem Umfang ist das gewünscht/vorgesehen?

PIDs im Testsystem

Für das Testsystem steht nur noch ein PID Präfix (nämlich 21.T11998) zur Verfügung. Deswegen ist für PID-Proposal folgendes festgelegt, um Kollision und Überschreiben von Test-PIDs zu vermeiden:

PID Proposal: 21.T11998/username.test.studyDoiSuffix.variableName .

Gesis nutzt also z.B. 21.T11998/gesis.test.1.1680.v1, 21.T11998/gesis.test.1.1680.v2 etc. wobei studyDOI:10.4232/1.1680 und variableName: V1, V2

Da SOEP gleiche Variablen pro DOI haben (in unterschiedlichen Datensätzen) müssen wir noch Datensatzname einfügen.

Welche Merkmale kommen zurück von der Registrierung?

  • PID
  • ???

Welche davon müssen in die Metadaten integriert werden?

Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sicher verwahrt werden.

Nächste Welle

  • Wenn die nächste Welle mit einer Kopie der v37-Metadaten beginnt (derzeit der Fall), müssen bei nächster Registrierung nur noch die neuen Variablen (also die ohne PID registriert werden)

Weil paneldata.org versionsagnostisch ist

  • Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen). Die Landing-Page repräsentiert immer die aktuellste Welle/Version.
  • Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten.
  • Aber durch die DOI wird ein Versionsbezug implizit hergestellt.

Landing page Vorschlag

  • Format: https://paneldata.org/api/pid/?study={study}&version={version}&dataset={dataset}&variable={variable}
  • Verhalten:
    • Nicht mehr in aktueller version: Seite mit minimalen Informationen; vielleicht Link zu dataset, wenn noch vorhanden.
    • In aktueller Version: Direkte Weiterleitung.
    • PID zu alter Version und variable existiert in aktueller Version: Minimale Information und link zur aktuellen variable.

Mehr zur PID-Registrierung