|
|
# Benötigte Metadaten
|
|
|
|
|
|
Ein Ausschnitt aus einer [Beispiel-JSON](https://git.soep.de/kwenzig/pids/-/blob/main/examples/V1.json) von GESIS:
|
|
|
|
|
|
```
|
|
|
"studyDOI" : "10.4232/1.1680",
|
|
|
"variableName" : "V1",
|
|
|
"variableLabel" : "ZA STUDY NUMBER 1680",
|
|
|
"pidProposal" : "21.T11998/nfdi-task0-v0",
|
|
|
"landingPage" : "https://search.gesis.org/variables/exploredata-ZA1680_VarV1",
|
|
|
"resourceType" : "Variable",
|
|
|
"title" : "V1 - ZA STUDY NUMBER 1680",
|
|
|
"creators" : [ {
|
|
|
"firstName" : "Jonathan",
|
|
|
"lastName" : "Kelley"
|
|
|
}],
|
|
|
"publisher" : "GESIS - Leibniz Institute for the Social Sciences",
|
|
|
"publicationDate" : "1989-01-01",
|
|
|
"availability" : "OnSite",
|
|
|
"description" : "V1 - ZA STUDY NUMBER 1680"
|
|
|
```
|
|
|
|
|
|
# Verwendete Metadaten
|
|
|
|
|
|
## Welche Datensätze?
|
|
|
|
|
|
- Nur Datensätze, die in [datasets_versions.csv](https://git.soep.de/soep-generierungen/Dokumentation/-/blob/master/meta/datasets_versions.csv) zur gewünschten Version (aktuell: `v37`) gehören.
|
|
|
- Nur Datensätze, die in logical_datasets.csv bei minedition die Einträge `"teaching","international","eu","planning_regions","area_types","onsite"` haben, also in der SUF kommen.
|
|
|
- Das sind im Ergebnis die Datensätze, die auch auf paneldata.org sind. (Ausnahme: bei `abroad` wurde zwischenzeitlich die `minedition` auf `arch` gesetzt, was für diesen Zweck wieder auf `teaching` korrigiert wurde.
|
|
|
- Es werden dann alle `variables.csv` bezogen, die im `v37`-Ordner liegen und die zu den genannten Datensätzen gehören.
|
|
|
|
|
|
## Welche Merkmale?
|
|
|
|
|
|
| Merkmal | Beschreibung |
|
|
|
|---------|--------------|
|
|
|
| `studyDOI` | `paste0("10.5684/soep.core.",active.version,"o")` also die DOI der Onsite-Edition |
|
|
|
| `variableName` | Variablenname (variable in variables.csv) |
|
|
|
| `variableLabel` | Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem \[de\]) |
|
|
|
| `pidProposal` | noch offen, haben wir Präferenz? |
|
|
|
| `landingPage` | `paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable)` konstruierter Link zu paneldata.org|
|
|
|
| `resourceType` | `"Variable"` (fix) |
|
|
|
| `title` | `paste0(variables.csv$variable, " – ", variables.csv$variableLabel)` zusammengesetzt aus Variablenname und -Label |
|
|
|
| `creators` | wollen wir da Personen? Wenn ja überall die gleichen? |
|
|
|
| `publisher` | `"SOEP Group"` (fix) |
|
|
|
| `publicationDate` | Registrierungsdatum DOI, manuell gesetzt, fix |
|
|
|
| `availability` | effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular |
|
|
|
| `description` | Variablenlabel (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem \[de\]) |
|
|
|
| source.path | aus welcher Datei stammt die Zeile? (zusätzlich) |
|
|
|
| version | in welcher SOEP-Version wurde die Variable registriert? (zusätzlich)|
|
|
|
|
|
|
Die Aufbereitung der Metadaten erfolgt mit dem Skript [extract_from_repo.R](https://git.soep.de/kwenzig/pids/-/blob/main/extract/extract_from_repo.R).
|
|
|
|
|
|
## Welche Merkmale kommen zurück von der Registrierung?
|
|
|
- PID
|
|
|
- ???
|
|
|
|
|
|
Welche davon müssen in die Metdaten integriert werden?
|
|
|
|
|
|
Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sicher verwahrt werden.
|
|
|
|
|
|
## Nächste Welle
|
|
|
- Wenn die nächste Welle mit einer Kopie der v37-Metadaten beginnt (derzeit der Fall), müssen bei nächster Registrierung nur noch die neuen Variablen (also die ohne PID registriert werden)
|
|
|
|
|
|
## Weil paneldata.org versionsagnostisch ist
|
|
|
- Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen)
|
|
|
- Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten. |
|
|
\ No newline at end of file |