Ein Ausschnitt aus einer [Beispiel-JSON](https://git.soep.de/kwenzig/pids/-/blob/main/examples/V1.json) von GESIS:
Ein Ausschnitt aus einer [Beispiel-JSON](https://git.soep.de/kwenzig/pids/-/blob/main/examples/V1.json) von GESIS:
...
@@ -22,6 +23,7 @@ Ein Ausschnitt aus einer [Beispiel-JSON](https://git.soep.de/kwenzig/pids/-/blob
...
@@ -22,6 +23,7 @@ Ein Ausschnitt aus einer [Beispiel-JSON](https://git.soep.de/kwenzig/pids/-/blob
```
```
Zentrale Dokumente aus dem PID-Projekt ([Zenodo-Community](https://www.zenodo.org/communities/konsortswd-ta5-m1/)):
Zentrale Dokumente aus dem PID-Projekt ([Zenodo-Community](https://www.zenodo.org/communities/konsortswd-ta5-m1/)):
-[KonsortSWD Measure 5.1: metadata schema extended report](https://doi.org/10.5281/zenodo.7588901)(January 31, 2023), link to latest version
-[KonsortSWD Measure 5.1: metadata schema extended report](https://doi.org/10.5281/zenodo.7588901)(January 31, 2023), link to latest version
-[KonsortSWD Measure 5.1: use cases description extended report](https://doi.org/10.5281/zenodo.7588943)(January 31, 2023), link to latest version
-[KonsortSWD Measure 5.1: use cases description extended report](https://doi.org/10.5281/zenodo.7588943)(January 31, 2023), link to latest version
-[KonsortSWD Measure 5.1: PID Service for variables report](https://doi.org/10.5281/zenodo.5957743)(March 30, 2022), link to latest version
-[KonsortSWD Measure 5.1: PID Service for variables report](https://doi.org/10.5281/zenodo.5957743)(March 30, 2022), link to latest version
...
@@ -38,22 +40,121 @@ Zentrale Dokumente aus dem PID-Projekt ([Zenodo-Community](https://www.zenodo.or
...
@@ -38,22 +40,121 @@ Zentrale Dokumente aus dem PID-Projekt ([Zenodo-Community](https://www.zenodo.or
## Welche Merkmale?
## Welche Merkmale?
| Merkmal | Beschreibung |
<table>
|---------|--------------|
<tr>
| `studyDOI` | `paste0("10.5684/soep.core.",active.version,"o")` also die DOI der Onsite-Edition |
<th>Merkmal</th>
| `variableName` | Variablenname (variable in variables.csv) |
<th>Beschreibung</th>
| `variableLabel` | Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem \[de\]) |
</tr>
| `pidProposal` | noch offen, haben wir Präferenz? Für Testsystem s.u.|
<tr>
| `landingPage` | `paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable)` konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL?|
<td>
| `resourceType` | `"Variable"` (fix) |
| `title` | `paste0(variables.csv$variable, " – ", variables.csv$variableLabel)` zusammengesetzt aus Variablenname und -Label |
`studyDOI`
| `creators` | wollen wir da Personen? Wenn ja überall die gleichen? |
| `availability` | effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular |
`paste0("10.5684/soep.core.",active.version,"o")` also die DOI der Onsite-Edition
| `description` | Variablenlabel (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem \[de\]) |
</td>
| source.path | aus welcher Datei stammt die Zeile? (zusätzlich) |
</tr>
| version | in welcher SOEP-Version wurde die Variable registriert? (zusätzlich)|
<tr>
<td>
`variableName`
</td>
<td>Variablenname (variable in variables.csv)</td>
</tr>
<tr>
<td>
`variableLabel`
</td>
<td>Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem \[de\])</td>
</tr>
<tr>
<td>
`pidProposal`
</td>
<td>noch offen, haben wir Präferenz? Für Testsystem s.u.</td>
</tr>
<tr>
<td>
`landingPage`
</td>
<td>
`paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable)` konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL? Vorschlag für die URL, um zu erreichen, dass PIDs nicht mehr vorhandener Variablen aufgelöst werden:
<td>effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular</td>
</tr>
<tr>
<td>
`description`
</td>
<td>Variablenlabel (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem \[de\])</td>
</tr>
<tr>
<td>source.path</td>
<td>aus welcher Datei stammt die Zeile? (zusätzlich)</td>
</tr>
<tr>
<td>version</td>
<td>in welcher SOEP-Version wurde die Variable registriert? (zusätzlich)</td>
</tr>
</table>
Die Aufbereitung der Metadaten erfolgt mit dem Skript [extract_from_repo.R](https://git.soep.de/kwenzig/pids/-/blob/main/extract/extract_from_repo.R).
Die Aufbereitung der Metadaten erfolgt mit dem Skript [extract_from_repo.R](https://git.soep.de/kwenzig/pids/-/blob/main/extract/extract_from_repo.R).
...
@@ -70,6 +171,7 @@ Gesis nutzt also z.B. 21.T11998/gesis.test.1.1680.v1, 21.T11998/gesis.test.1.168
...
@@ -70,6 +171,7 @@ Gesis nutzt also z.B. 21.T11998/gesis.test.1.1680.v1, 21.T11998/gesis.test.1.168
Da SOEP gleiche Variablen pro DOI haben (in unterschiedlichen Datensätzen) müssen wir noch Datensatzname einfügen.
Da SOEP gleiche Variablen pro DOI haben (in unterschiedlichen Datensätzen) müssen wir noch Datensatzname einfügen.
## Welche Merkmale kommen zurück von der Registrierung?
## Welche Merkmale kommen zurück von der Registrierung?
- PID
- PID
- ???
- ???
...
@@ -78,9 +180,11 @@ Welche davon müssen in die Metadaten integriert werden?
...
@@ -78,9 +180,11 @@ Welche davon müssen in die Metadaten integriert werden?
Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sicher verwahrt werden.
Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sicher verwahrt werden.
# Nächste Welle
# Nächste Welle
- Wenn die nächste Welle mit einer Kopie der v37-Metadaten beginnt (derzeit der Fall), müssen bei nächster Registrierung nur noch die neuen Variablen (also die ohne PID registriert werden)
- Wenn die nächste Welle mit einer Kopie der v37-Metadaten beginnt (derzeit der Fall), müssen bei nächster Registrierung nur noch die neuen Variablen (also die ohne PID registriert werden)
# Weil paneldata.org versionsagnostisch ist
# Weil paneldata.org versionsagnostisch ist
- Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen). Die Landing-Page repräsentiert immer die aktuellste Welle/Version.
- Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen). Die Landing-Page repräsentiert immer die aktuellste Welle/Version.
- Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten.
- Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten.
- Aber durch die DOI wird ein Versionsbezug implizit hergestellt.
- Aber durch die DOI wird ein Versionsbezug implizit hergestellt.
...
@@ -94,4 +198,5 @@ Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sich
...
@@ -94,4 +198,5 @@ Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sich
+ PID zu alter Version und `variable` existiert in aktueller Version: Minimale Information und link zur aktuellen `variable`.
+ PID zu alter Version und `variable` existiert in aktueller Version: Minimale Information und link zur aktuellen `variable`.
# Mehr zur PID-Registrierung
# Mehr zur PID-Registrierung
- Die PIDs werden wohl am Ende hier registriert: https://www.pidconsortium.net/
- Die PIDs werden wohl am Ende hier registriert: https://www.pidconsortium.net/