@@ -40,121 +40,22 @@ Zentrale Dokumente aus dem PID-Projekt ([Zenodo-Community](https://www.zenodo.or
## Welche Merkmale?
<table>
<tr>
<th>Merkmal</th>
<th>Beschreibung</th>
</tr>
<tr>
<td>
`studyDOI`
</td>
<td>
`paste0("10.5684/soep.core.",active.version,"o")` also die DOI der Onsite-Edition
</td>
</tr>
<tr>
<td>
`variableName`
</td>
<td>Variablenname (variable in variables.csv)</td>
</tr>
<tr>
<td>
`variableLabel`
</td>
<td>Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem \\\[de\\\])</td>
</tr>
<tr>
<td>
`pidProposal`
</td>
<td>noch offen, haben wir Präferenz? Für Testsystem s.u.</td>
</tr>
<tr>
<td>
`landingPage`
</td>
<td>
`paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable)` konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL? Vorschlag für die URL, um zu erreichen, dass PIDs nicht mehr vorhandener Variablen aufgelöst werden:
<td>effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular</td>
</tr>
<tr>
<td>
`description`
</td>
<td>Variablenlabel (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem \\\[de\\\])</td>
</tr>
<tr>
<td>source.path</td>
<td>aus welcher Datei stammt die Zeile? (zusätzlich)</td>
</tr>
<tr>
<td>version</td>
<td>in welcher SOEP-Version wurde die Variable registriert? (zusätzlich)</td>
</tr>
</table>
| Merkmal | Beschreibung |
|---------|--------------|
| `studyDOI` | `paste0("10.5684/soep.core.",active.version,"o")` also die DOI der Onsite-Edition |
| `variableName` | Variablenname (variable in variables.csv) |
| `variableLabel` | Variablenlabel (label in variables.csv, falls leer und label_de gefüllt, wird label_de verwendet mit führendem \[de\]) |
| `pidProposal` | noch offen, haben wir Präferenz? Für Testsystem s.u. |
| `landingPage` | `paste0("``https://paneldata.org/soep-core/datasets/``", variables.csv$dataset, "/", variables.csv$variable)` konstruierter Link zu paneldata.org, gibt es Einschränkungen für die URL? |
| `resourceType` | `"Variable"` (fix) |
| `title` | `paste0(variables.csv$variable, " – ", variables.csv$variableLabel)` zusammengesetzt aus Variablenname und -Label |
| `creators` | wollen wir da Personen? Wenn ja überall die gleichen? |
| `availability` | effektive minedition (aus der des Datensatzes und der Variable), ggfs. noch rekodiert in kontrolliertes Vokabular |
| `description` | Variablenlabel (description in variables.csv, falls leer und description_de gefüllt, wird description_de verwendet mit führendem \[de\]) |
| source.path | aus welcher Datei stammt die Zeile? (zusätzlich) |
| version | in welcher SOEP-Version wurde die Variable registriert? (zusätzlich) |
Die Aufbereitung der Metadaten erfolgt mit dem Skript [extract_from_repo.R](https://git.soep.de/kwenzig/pids/-/blob/main/extract/extract_from_repo.R).
...
...
@@ -183,15 +84,11 @@ Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sich
- Wenn die nächste Welle mit einer Kopie der v37-Metadaten beginnt (derzeit der Fall), müssen bei nächster Registrierung nur noch die neuen Variablen (also die ohne PID registriert werden)
# Granularität der PID: Version, Edition, Dateiformat
# Weil paneldata.org versionsagnostisch ist
- paneldata.org ist versionsagnostisch
* Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen). Die Landing-Page repräsentiert immer die aktuellste Welle/Version.
* Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten.
* Aber durch die DOI wird ein Versionsbezug implizit hergestellt.
- in jeder Version/Welle gibt es unterschiedliche Editionen
- von Datensätzen einer DOI existieren unterschiedliche Dateiformate, die CSV-Dateien enthalten keine Metadaten, wie z.B. Labels
- Die PID einer Variable in einem Datensatz ändert sich nicht über die Zeit, auch wenn der Inhalt sich ändert (Korrekturen, neue Fälle künftiger Wellen). Die Landing-Page repräsentiert immer die aktuellste Welle/Version.
- Wegfallende Variablen/Datensätze sollen eine Rumpf-Landingpage mit den Registrierungsinformationen erhalten.
- Aber durch die DOI wird ein Versionsbezug implizit hergestellt.
# Landing page Vorschlag
...
...
@@ -204,3 +101,6 @@ Das Registrierungsergebnis, vermutlich eine JSON mit allen Variablen sollte sich
# Mehr zur PID-Registrierung
- Die PIDs werden wohl am Ende hier registriert: https://www.pidconsortium.net/