PIDs
- Benötigte Metadaten
- Verwendete Metadaten
- Nächste Welle
- Weil paneldata.org versionsagnostisch ist
- Landing page Vorschlag
- Mehr zur PID-Registrierung
Benötigte Metadaten
Ein Ausschnitt aus einer Beispiel-JSON von GESIS:
"studyDOI" : "10.4232/1.1680",
"variableName" : "V1",
"variableLabel" : "ZA STUDY NUMBER 1680",
"pidProposal" : "21.T11998/nfdi-task0-v0",
"landingPage" : "https://search.gesis.org/variables/exploredata-ZA1680_VarV1",
"resourceType" : "Variable",
"title" : "V1 - ZA STUDY NUMBER 1680",
"creators" : [ {
"firstName" : "Jonathan",
"lastName" : "Kelley"
}],
"publisher" : "GESIS - Leibniz Institute for the Social Sciences",
"publicationDate" : "1989-01-01",
"availability" : "OnSite",
"description" : "V1 - ZA STUDY NUMBER 1680"
Zentrale Dokumente aus dem PID-Projekt (Zenodo-Community):
- KonsortSWD Measure 5.1: metadata schema extended report (January 31, 2023), link to latest version
- KonsortSWD Measure 5.1: use cases description extended report (January 31, 2023), link to latest version
- KonsortSWD Measure 5.1: PID Service for variables report (March 30, 2022), link to latest version
Verwendete Metadaten
Welche Datensätze?
- Informationen aus dem zentralen Repo, weil dort die Registrierungsdaten auch wieder gespeichert werden sollen: https://git.soep.de/soep-generierungen/Dokumentation/
- Nur Datensätze, die in datasets_versions.csv zur gewünschten Version (aktuell:
v37
) gehören. - Nur Datensätze, die in logical_datasets.csv bei minedition die Einträge
"teaching","international","eu","planning_regions","area_types","onsite"
haben, also in der SUF kommen. - Das sind im Ergebnis die Datensätze, die auch auf paneldata.org sind. (Ausnahme: bei
abroad
wurde zwischenzeitlich dieminedition
aufarch
gesetzt, was für diesen Zweck wieder aufteaching
korrigiert wurde. - Es werden dann alle
variables.csv
bezogen, die imv37
-Ordner liegen und die zu den genannten Datensätzen gehören.
Welche Merkmale?
Merkmal | Beschreibung |
---|---|
studyDOI |
paste0("10.5684/soep.core.",active.version,"o") also die DOI der Onsite-Edition |
variableName |
Variablenname (variable in variables.csv) |
variableLabel |
Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem [de]) |
pidProposal |
noch offen, haben wir Präferenz? Für Testsystem s.u. |
landingPage |
paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable) konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL? |
resourceType |
"Variable" (fix) |
title |
paste0(variables.csv$variable, " – ", variables.csv$variableLabel) zusammengesetzt aus Variablenname und -Label |
creators |
wollen wir da Personen? Wenn ja überall die gleichen? |
publisher |
"SOEP Group" (fix) |
publicationDate |
Registrierungsdatum DOI, manuell gesetzt, fix |
availability |
effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular |
description |
Variablenbeschreibung (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem [de]) |
source.path | aus welcher Datei stammt die Zeile? (zusätzlich) |
version | in welcher SOEP-Version wurde die Variable registriert? (zusätzlich) |
Die Aufbereitung der Metadaten erfolgt mit dem Skript extract_from_repo.R.
Können die Metadaten nach der Registrierung verändert werden? Wenn ja: In welchem Umfang ist das gewünscht/vorgesehen?
PIDs im Testsystem
Für das Testsystem steht nur noch ein PID Präfix (nämlich 21.T11998) zur Verfügung. Deswegen ist für PID-Proposal folgendes festgelegt, um Kollision und Überschreiben von Test-PIDs zu vermeiden:
PID Proposal: 21.T11998/username.test.studyDoiSuffix.variableName .
Gesis nutzt also z.B. 21.T11998/gesis.test.1.1680.v1, 21.T11998/gesis.test.1.1680.v2 etc. wobei studyDOI:10.4232/1.1680 und variableName: V1, V2
Da SOEP gleiche Variablen pro DOI haben (in unterschiedlichen Datensätzen) müssen wir noch Datensatzname einfügen.
Welche Merkmale kommen zurück von der Registrierung?
- PID
- ???
Welche davon müssen in die Metadaten integriert werden?
Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sicher verwahrt werden.
Nächste Welle
- Wenn die nächste Welle mit einer Kopie der v37-Metadaten beginnt (derzeit der Fall), müssen bei nächster Registrierung nur noch die neuen Variablen (also die ohne PID registriert werden)
Weil paneldata.org versionsagnostisch ist
- Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen). Die Landing-Page repräsentiert immer die aktuellste Welle/Version.
- Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten.
- Aber durch die DOI wird ein Versionsbezug implizit hergestellt.
Landing page Vorschlag
- Format:
https://paneldata.org/api/pid/?study={study}&version={version}&dataset={dataset}&variable={variable}
- Verhalten:
- Nicht mehr in aktueller version: Seite mit minimalen Informationen; vielleicht Link zu
dataset
, wenn noch vorhanden. - In aktueller Version: Direkte Weiterleitung.
- PID zu alter Version und
variable
existiert in aktueller Version: Minimale Information und link zur aktuellenvariable
.
- Nicht mehr in aktueller version: Seite mit minimalen Informationen; vielleicht Link zu
Mehr zur PID-Registrierung
- Die PIDs werden wohl am Ende hier registriert: https://www.pidconsortium.net/
- API GESIS: https://labs.da-ra.de/nfdi/
- https://pypi.org/project/swagger-codegen/
- https://youtu.be/fm8T-hlhsXg (Janete Saldanha Bach: The hurdles of current data citation practices and the adding-value ... [Talk])
- https://www.youtube.com/watch?v=ZxPfvkCC81k (NFDI InfraTalk: On the road towards a PID strategy for Germany, 5 June 2023)