Anonymisierung am Beispiel DZHW-Absolventenpanel

Am Beispiel des DZHW-Absolventenpanels 2009 zeigen wir Ihnen hier, welche Anonymisierungsmaßnahmen wir anwenden und wie diese mit den verschiedenen Zugangswegen zusammenhängen.

Vorgehen

In einem ersten Schritt werden alle direkten Identifikatoren gelöscht (etwa Namen, Adressdaten). Anschließend werden Quasi-Identifikatoren bestimmt, sie werden auch indirekte Identifikatoren genannt. Mehrere Quasi-Identifikatoren könnten in Kombination (u.a. auch mit externen Datenquellen) zu einer Identifikation einer Person führen (etwa Wohnort, Alter, Studienfach, Hochschule in Kombination). Diese werden daher entweder entfernt oder so stark verändert (etwa durch Aggregation), dass eine Identifikation der Personen ausgeschlossen werden kann. Zuletzt werden besonders sensible Informationen identifiziert, die nicht herausgegeben werden können.

Anonymisierungsbeispiele DZHW-Absolventenpanel

Die folgende Tabelle gibt eine Übersicht über die Merkmale, die beim DZHW-Absolventenpanel 2009 im Rahmen der Anonymisierung je nach Zugangsweg entweder freigegeben, aggregiert oder gelöscht wurden.

MASSNAHMEN DER STATISTISCHEN ANONYMISIERUNG DER DATEN DES DZHW-ABSOLVENTENPANELS 2009 NACH ZUGANGSWEG

 
Merkmal On-Site-SUF Remote-Desktop-SUF Download-SUF Download-CUF (Substichprobe)
Direkte Identifikatoren Löschung und Vergabe einer zufälligen ID Löschung und Vergabe einer zufälligen ID Löschung und Vergabe einer zufälligen ID Löschung und Vergabe einer zufälligen ID
Fragebogeneingang Freigabe Löschung Löschung Löschung
Studienfach Freigabe Aggregation zu Studienbereichen Aggregation zu Studienbereichen Aggregation zu Fächergruppen
Hochschule Aggregation zu Hochschulart und Hochschulort zu NUTS 2 Aggregation zu Hochschulart und Hochschulort zu Bundesländern Aggregation zu Hochschulart und Hochschulort zu neuen/alten Bundesländern Aggregation zu Hochschulart und Hochschulort zu neuen/alten Bundesländern
Weitere akademischen Qualifikation (Land) Freigabe Freigabe Aggregation zu Deutschland/Ausland Aggregation zu Deutschland/Ausland
Arbeitsort (Bundesland/Ausland) Freigabe Freigabe Aggregation zu Bundesländern/Ausland Aggregation zu neue/alte Bundesländer und Ausland
Arbeitsort (PLZ) Freigabe Aggregation zu NUTS 2 Aggregation zu NUTS 2 Löschung
(weitere) ...      
Alter Freigabe Freigabe Freigabe TOP-Codierung
Merkmale zur Gesundheit Löschung Löschung Löschung  

In der erstem Spalte ist das Merkmal angegeben und in den weiteren Spalten das Anonymisierungsvorgehen für die einzelnen Zugangswege. Das DZHW-Absolventenpanel 2009 wird als Scientific Use File (SUF) über alle drei Zugangswege und zusätzlich als Campus Use File (CUF) über den Zugangsweg Download angeboten. Freigabe bedeutet, dass das Merkmal über den entsprechenden Zugangsweg so herausgegeben wird, wie es erfragt und aufbereitet wurde. So können Datennutzer*innen beispielsweise die Postleitzahl des Ortes, an dem die Studienberechtigung erworben wurde, über den Zugangsweg On-Site einsehen. Bei Löschung hingegen geben wir das Merkmal über den jeweiligen Zugangsweg nicht heraus. Das ist beispielsweise bei der Postleitzahl des Wohnortes im Download-CUF der Fall.

 

DREI BEISPIELE FÜR ANONYMISIERUNGSMASSNAHMEN

Studienfach

Zuerst schauen wir uns das Studienfach der befragten Personen an, das unterschiedlich stark aggregiert wurde und so über verschiedene Zugangswege bereitgestellt werden kann.

Merkmal On-Site-SUF Remote-Desktop-SUF Download-SUF Download-CUF (Substichprobe)
Studienfach Freigabe Aggregation zu Studienbereichen Aggregation zu Studienbereichen Aggregation zu Fächergruppen

Der Zugangsweg On-Site ist am stärksten technisch kontrolliert, weshalb wir das Studienfach hier ohne zu aggregieren herausgeben. Für die Zugangswege Remote-Desktop und Download, die schwächer technisch kontrolliert sind, wurde das Studienfach zu Studienbereichen aggregiert. Dabei haben wir das Schlüsselverzeichnis der Studenten- und Prüfungsstatistik Wintersemester 2008/09 und Sommersemester 2009 von Destatis herangezogen. Anstelle des Studienfachs Werkstofftechnik wird nun der Studienbereich Maschinenbau/Verfahrenstechnik herausgegeben. Beim Download-CUF, das ohne Abschließen eines Datennutzungsvertrages beantragt werden kann, aggregieren wir in dem Fall stärker als beim SUF. Hier werden anstelle der Studienfächer die Fächergruppen herausgegeben: in unserem Beispiel also die Fächergruppe Ingenieurwissenschaften.

Hochschule

Ein zweites Beispiel ist das Merkmal Hochschule, das nie frei herausgegeben wird.

Merkmal On-Site-SUF Remote-Desktop-SUF Download-SUF Download-CUF (Substichprobe)
Hochschule Aggregation zu Hochschulart und Hochschulort zu NUTS 2 Aggregation zu Hochschulart und Hochschulort zu Bundesländern Aggregation zu Hochschulart und Hochschulort zu neuen/alten Bundesländern Aggregation zu Hochschulart und Hochschulort zu neuen/alten Bundesländern

Stattdessen wird der Hochschulort über die verschiedenen Zugangswege unterschiedlich aggregiert, was auch die nachfolgenden Abbildungen veranschaulichen. Über den Zugangsweg On-Site werden die Hochschulorte sehr feingliedrig auf NUTS-2-Ebene (38 Regionen) bereitgestellt und bieten das höchste Analysepotential. Datennutzer(innen), die den Zugangsweg Remote nutzen, erhalten den Hochschulort auf Bundeslandebene. Sowohl beim CUF als auch beim SUF liegt beim Download-Zugang die Information vor, ob sich die Hochschule in einem der neuen oder der alten Bundesländer befindet. 

Deutschlandkarte mit Umrissen der NUTS-2-Regionen
NUTS-2-Regionen

 

Deutschlandkarte mit Umrissen der 16 Bundesländer
Bundesländer

 

Deutschlandkarte mit Umrissen der alten und neuen Bundesländer (ohne Berlin-West)
Alte/neue Bundesländer

 

Alter

Ein weiteres Beispiel ist das Alter der befragten Personen. Da es sich in unserem Beispiel um die Befragung eines Hochschulabsolvent(inn)enjahrgangs handelt, sind die befragten Personen ungefähr im selben Alter und Personen, die verhältnismäßig spät ein Studium abgeschlossen haben, recht selten. Im SUF ist die Information über alle Zugangswege freigegeben. Beim CUF aggregieren wir hingegen und wenden eine Top-Codierung an. Das bedeutet, dass Altersangaben oberhalb einer bestimmten Grenze - in diesem Fall ab dem Geburtsjahr 1959 und älter - zu einer Kategorie zusammengefasst werden. 

Merkmal On-Site-SUF Remote-Desktop-SUF Download-SUF Download-CUF (Substichprobe)
Alter Freigabe Freigabe Freigabe TOP-Codierung

Das Anonymisierungsverfahren inklusive Übersichtstabelle wird für jede Studie jeweils in einem eigenen Kapitel im Daten- und Methodenbericht ausführlich erläutert.

 

Den rechtlichen Hintergrund für die Anonymisierung bildet zum einen die EU-Datenschutz-Grundverordnung (EU-DSGVO) und das Bundesdatenschutzgesetz in seiner Neufassung vom 30. Juni 2017, das festlegt, dass Daten aus wissenschaftlichen Forschungsprojekten zur Weitergabe an Dritte derart zu anonymisieren sind, dass kein Bezug zur Person mehr hergestellt werden kann.

Das stellen wir über eine Kombination aus statistischen Maßnahmen und technischen Zugriffsbeschränkungen sicher. Dabei gilt: Je stärker der Datenzugang technisch kontrolliert wird, desto geringer ist das Risiko einer De-Anonymisierung, desto weniger müssen die Daten mittels statistischer Maßnahmen um Informationen reduziert werden und desto größer bleibt ihr Analysepotential.