|
|
[[_TOC_]]
|
|
|
|
|
|
# Benötigte Metadaten
|
|
|
|
|
|
Ein Ausschnitt aus einer [Beispiel-JSON](https://git.soep.de/kwenzig/pids/-/blob/main/examples/V1.json) von GESIS:
|
... | ... | @@ -22,6 +23,7 @@ Ein Ausschnitt aus einer [Beispiel-JSON](https://git.soep.de/kwenzig/pids/-/blob |
|
|
```
|
|
|
|
|
|
Zentrale Dokumente aus dem PID-Projekt ([Zenodo-Community](https://www.zenodo.org/communities/konsortswd-ta5-m1/)):
|
|
|
|
|
|
- [KonsortSWD Measure 5.1: metadata schema extended report](https://doi.org/10.5281/zenodo.7588901) (January 31, 2023), link to latest version
|
|
|
- [KonsortSWD Measure 5.1: use cases description extended report](https://doi.org/10.5281/zenodo.7588943) (January 31, 2023), link to latest version
|
|
|
- [KonsortSWD Measure 5.1: PID Service for variables report](https://doi.org/10.5281/zenodo.5957743) (March 30, 2022), link to latest version
|
... | ... | @@ -38,22 +40,121 @@ Zentrale Dokumente aus dem PID-Projekt ([Zenodo-Community](https://www.zenodo.or |
|
|
|
|
|
## Welche Merkmale?
|
|
|
|
|
|
| Merkmal | Beschreibung |
|
|
|
|---------|--------------|
|
|
|
| `studyDOI` | `paste0("10.5684/soep.core.",active.version,"o")` also die DOI der Onsite-Edition |
|
|
|
| `variableName` | Variablenname (variable in variables.csv) |
|
|
|
| `variableLabel` | Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem \[de\]) |
|
|
|
| `pidProposal` | noch offen, haben wir Präferenz? Für Testsystem s.u.|
|
|
|
| `landingPage` | `paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable)` konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL?|
|
|
|
| `resourceType` | `"Variable"` (fix) |
|
|
|
| `title` | `paste0(variables.csv$variable, " – ", variables.csv$variableLabel)` zusammengesetzt aus Variablenname und -Label |
|
|
|
| `creators` | wollen wir da Personen? Wenn ja überall die gleichen? |
|
|
|
| `publisher` | `"SOEP Group"` (fix) |
|
|
|
| `publicationDate` | Registrierungsdatum DOI, manuell gesetzt, fix |
|
|
|
| `availability` | effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular |
|
|
|
| `description` | Variablenlabel (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem \[de\]) |
|
|
|
| source.path | aus welcher Datei stammt die Zeile? (zusätzlich) |
|
|
|
| version | in welcher SOEP-Version wurde die Variable registriert? (zusätzlich)|
|
|
|
<table>
|
|
|
<tr>
|
|
|
<th>Merkmal</th>
|
|
|
<th>Beschreibung</th>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`studyDOI`
|
|
|
</td>
|
|
|
<td>
|
|
|
|
|
|
`paste0("10.5684/soep.core.",active.version,"o")` also die DOI der Onsite-Edition
|
|
|
</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`variableName`
|
|
|
</td>
|
|
|
<td>Variablenname (variable in variables.csv)</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`variableLabel`
|
|
|
</td>
|
|
|
<td>Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem \[de\])</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`pidProposal`
|
|
|
</td>
|
|
|
<td>noch offen, haben wir Präferenz? Für Testsystem s.u.</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`landingPage`
|
|
|
</td>
|
|
|
<td>
|
|
|
|
|
|
`paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable)` konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL? Vorschlag für die URL, um zu erreichen, dass PIDs nicht mehr vorhandener Variablen aufgelöst werden:
|
|
|
|
|
|
https://git.soep.de/kwenzig/pids/-/wikis/home#landing-page-vorschlag
|
|
|
</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`resourceType`
|
|
|
</td>
|
|
|
<td>
|
|
|
|
|
|
`"Variable"` (fix)
|
|
|
</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`title`
|
|
|
</td>
|
|
|
<td>
|
|
|
|
|
|
`paste0(variables.csv$variable, " – ", variables.csv$variableLabel)` zusammengesetzt aus Variablenname und -Label
|
|
|
</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`creators`
|
|
|
</td>
|
|
|
<td>wollen wir da Personen? Wenn ja überall die gleichen?</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`publisher`
|
|
|
</td>
|
|
|
<td>
|
|
|
|
|
|
`"SOEP Group"` (fix)
|
|
|
</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`publicationDate`
|
|
|
</td>
|
|
|
<td>Registrierungsdatum DOI, manuell gesetzt, fix</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`availability`
|
|
|
</td>
|
|
|
<td>effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>
|
|
|
|
|
|
`description`
|
|
|
</td>
|
|
|
<td>Variablenlabel (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem \[de\])</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>source.path</td>
|
|
|
<td>aus welcher Datei stammt die Zeile? (zusätzlich)</td>
|
|
|
</tr>
|
|
|
<tr>
|
|
|
<td>version</td>
|
|
|
<td>in welcher SOEP-Version wurde die Variable registriert? (zusätzlich)</td>
|
|
|
</tr>
|
|
|
</table>
|
|
|
|
|
|
Die Aufbereitung der Metadaten erfolgt mit dem Skript [extract_from_repo.R](https://git.soep.de/kwenzig/pids/-/blob/main/extract/extract_from_repo.R).
|
|
|
|
... | ... | @@ -70,6 +171,7 @@ Gesis nutzt also z.B. 21.T11998/gesis.test.1.1680.v1, 21.T11998/gesis.test.1.168 |
|
|
Da SOEP gleiche Variablen pro DOI haben (in unterschiedlichen Datensätzen) müssen wir noch Datensatzname einfügen.
|
|
|
|
|
|
## Welche Merkmale kommen zurück von der Registrierung?
|
|
|
|
|
|
- PID
|
|
|
- ???
|
|
|
|
... | ... | @@ -78,9 +180,11 @@ Welche davon müssen in die Metadaten integriert werden? |
|
|
Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sicher verwahrt werden.
|
|
|
|
|
|
# Nächste Welle
|
|
|
|
|
|
- Wenn die nächste Welle mit einer Kopie der v37-Metadaten beginnt (derzeit der Fall), müssen bei nächster Registrierung nur noch die neuen Variablen (also die ohne PID registriert werden)
|
|
|
|
|
|
# Weil paneldata.org versionsagnostisch ist
|
|
|
|
|
|
- Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen). Die Landing-Page repräsentiert immer die aktuellste Welle/Version.
|
|
|
- Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten.
|
|
|
- Aber durch die DOI wird ein Versionsbezug implizit hergestellt.
|
... | ... | @@ -94,4 +198,5 @@ Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sich |
|
|
+ PID zu alter Version und `variable` existiert in aktueller Version: Minimale Information und link zur aktuellen `variable`.
|
|
|
|
|
|
# Mehr zur PID-Registrierung
|
|
|
|
|
|
- Die PIDs werden wohl am Ende hier registriert: https://www.pidconsortium.net/ |
|
|
\ No newline at end of file |