Die Datenschatten: Zum staatlichen Umgang mit vernetzten Datenbeständen

von Rainer Rehak

Mit der zunehmenden Digitalisierung hinterlassen die Handlungen von Menschen Metadaten in den jeweiligen Systemen. Sie werden für die kommerzielle Profilerstellung, aber auch für folgenschwere polizeiliche und geheimdienstliche Zwecke ausgewertet. Über diese technikgläubige Herangehensweise muss dringend diskutiert werden.

Seit ihrer Existenz sammeln und speichern staatliche Stellen Informationen über ihre BürgerInnen. Auch die damit eng verbundene Grenze zwischen als notwendig erachteter Verwaltung und weit darüber hinausgehenden Kontrollabsichten ist seit jeher Gegenstand gesellschaftlicher Diskussionen. Seit Jahrzehnten befinden wir uns nun im Prozess einer zunehmenden automatisierten Datenverarbeitung persönlicher, geschäftlicher sowie gesellschaftlicher Interaktionen – inzwischen lapidar „Digitalisierung“ genannt. Informationen werden nicht mehr in dunklen Kellern in Form von papierenen Aktenmetern abgelegt, aufbewahrt und mühsam manuell durchsucht, sondern können in vernetzen informationstechnischen Systemen erzeugt und verarbeitet werden. Volltextsuche, Mehrfachindexierung, Sortieren, Filtern und effizientes Speichern sind dabei nur noch Fingerübungen der Informatik, die in jedem Informatikbuch über Algorithmen nachzulesen sind.[1]

Neuere Methoden drehen sich eher um das Finden von Korrelationen durch statistische Analysen oder das Entdecken ähnlicher Strukturen durch Muster(wieder)erkennung, beispielsweise mit „lernenden“ künstlichen neuronalen Netzen (KNN) oder anderen heuristischen – und damit nicht-exakten – Ansätzen. Ist die Datengrundlage vergleichsweise groß und vielfältig, so fällt häufig der unscharfe, aber politisch und wirtschaftlich wirkmächtige Begriff „Big Data“. Es stellen sich jedoch weitreichende Fragen bezüglich der Ergebnisinterpretation solcher Herangehensweisen, denn was sagen beispielsweise Korrelationen über kausale Zusammenhänge aus und was sind „ähnliche“ Strukturen? Welche „Muster“ können und sollen überhaupt erkannt werden?

Die „digitalisierte Gesellschaft“

Wir reichen unsere Steuererklärung digital ein, tragen ein Mobiltelefon bei uns, nutzen digitale Plattformen zum Informationstausch und Warenkauf, verwenden E-Mails und Instant Messenger zur Kommunikation, haben unsere Backups in der ominösen „Cloud“ und fragen den Wahl-O-Mat nach unseren Wahlpräferenzen. Doch ein Fokus allein auf die individuelle Nutzung greift zu kurz, denn permanent sind wir in staatlichen und wirtschaftlichen Prozessen von digitalen vernetzten Informationssystemen umgeben und Gegenstand ihrer Verarbeitung: von der Abwicklung des Flugverkehrs, den Rentenverwaltungssystemen oder dem zentralen Fahreignungsregister in Flensburg (früher Verkehrszentralregister) über die Polizeiverwaltungs-, Fahndungs- oder Fallbearbeitungssysteme bis hin zu Krankenkassenverwaltungsstrukturen, Mautsystemen, den Einwohnermelde- und Finanzämtern, der Schutzgemeinschaft für allgemeine Kreditsicherung (Schufa), Unternehmens- sowie Bankensystemen und schließlich dem „Internet der Dinge“.

Neben vielen interessanten Aspekten dieser allgemeinen Entwicklung, beispielsweise dass eine der weltweit größten Zimmervermietungen gar keine Zimmer besitzt (AirBnB) oder die weltweit größte Enzyklopädie von Freiwilligen befüllt und administriert wird (Wikipedia), gibt es spezielle Eigenschaften aktueller digitaler Systeme. Hier fallen nicht nur die direkt verarbeiteten Daten, wie beispielsweise die eigentlichen Kommunikationsinhalte, die abgegebene Steuererklärung, die Schlafrhythmusdaten von Fitness-Apps, die Rechnungen in PDF-Form, die „gekauften“ (bzw. tatsächlich nur lizenzierten) E-Books und andere Medieninhalte, sondern auch eine ganze Menge der viel zitierten „Metadaten“ an. Metadaten sind Daten, die die Umstände der Datenverarbeitung beschreiben, wie etwa BesitzerIn und Erstellungszeitpunkt eines Dokumentes, die involvierten Sender- und Empfängernummern eines Telefongespräches bzw. Nachrichtenaustausches, die aufgerufenen Unterseiten einer Webseite und deren Ansichtsdauer, der aktuell verbundene Funkmast von Mobiltelefonen, die IP-Adresse von WebseitenbesucherInnen oder die genauen Nutzungszeiten von Kommunikationsdiensten. Diese Metadaten entstehen zwar nicht notwendigerweise, aber die meisten Systeme sind so gebaut, dass nahezu alle Aktivitäten festgehalten – geloggt – werden. Dafür gibt es teilweise technische Gründe, eine effektivere Fehlersuche oder schnellere Angriffserkennung, aber es über­wiegen tatsächlich eher kommerzielle Gründe, beispielsweise Abrechnungsprozesse oder die Möglichkeit einer detaillierten Benutzerprofilerstellung ebenso wie zum A/B-Testen von Alternativinhalten.

Ein Eingangsstempel auf einem papierenen Brief lässt sich nicht so automatisiert und massenhaft auswerten wie die Digitalversion. Hinzu kommt der Umstand, dass mit den aktuellen Hardwarekosten und Softwaredesigns das Behalten und Speichern von Daten und Metadaten viel billiger und weniger aufwändig ist als das Löschen, weil Daten beispielsweise auch aufeinander verweisen und so auch in andere Kontexte hinein verknüpft sind.

Daten oder Metadaten

Gerade in der Politik wird immer noch oft die Ansicht vertreten, Metadaten seien weniger aussagekräftig und daher weniger schützenswert als Inhaltsdaten. Doch offenbaren beispielsweise Metadaten von Kommunikationsvorgängen – die sogenannten Verkehrsdaten – den kompletten so­zia­len Graphen. Der beinhaltet, wer von wo mit wem und wann kommuniziert. Daraus lässt sich direkt ableiten, welche Gruppen und Zusammenhänge es gibt und wer die zentralen, vernetzten Personen sind. Aus den Kommunikationszeiten wiederum lässt sich in der Regel auch die Art der Beziehung ablesen – beruflich oder privat, lose oder intim, stabil oder dynamisch. Anrufe bei Anwaltskanzleien für Arbeitsrecht, HIV-Hilfestellen, psychologischen Praxen, Escort-Services oder Familien­planungszentren brauchen kaum weitere Inhaltsdaten, um für sich bereits aussagekräftig zu sein. Darüber hinaus lassen sich Metadaten auch mit anderen Informationen verknüpfen und so offenbaren die Ortsdaten nicht nur Essensgewohnheiten (in Verknüpfung mit Restaurantlisten) oder Gesundheitszustand (Arzt- oder Krankenhausverzeichnisse), sondern auch komplette Verhaltensprofile.[2] Metadaten sind also ebenso aussagekräftig wie Inhaltsdaten, sie müssen nur anders ausgewertet werden.

Auch deswegen schützt Artikel 10 des Grund­gesetzes nicht nur die Kommunikation, sondern auch deren Umstände, etwa die zugehörigen Metadaten. Im Allgemeinen gilt im Datenschutzrecht ein Erhebungsverbot mit Erlaubnisvorbehalt, demzufolge grundsätzlich nichts gespeichert werden darf, es sei denn es gibt explizite Gründe für eine Erhebung, etwa eine Einwilligung.[3] Einzig rechtliche Einhegungen sorgen dafür, dass Daten nicht nach Gutdünken zusammengeführt werden, um ein umfassendes digitales Abbild der menschlichen Welt zu erschaffen.[4]

Polizeidateien

In Deutschland legen Polizeien eigene Datenbanken über Personen an, die sie als relevant erachten. Diese sogenannten „Dateien“ benötigen je nach Bundesland manchmal eine Errichtungsanordnung, für den Bund jedoch immer.[5] Sie definieren den Zweck, den betroffenen Personenkreis, Datenquellen, Regeln der Datenübermittlung an andere Stellen oder Höchstspeicher- und Prüffristen. In Berlin muss beispielsweise bei jeder neuen Datei der Berliner Beauftragte für Datenschutz und Informationsfreiheit unterrichtet werden, in Hamburg nur dann, wenn die Errichtung mit „besonderen … Problemen“ verbunden ist.[6]

Interessant wird es dann, wenn federführend durch das Bundesministerium des Innern (BMI) und praktisch ausgeführt vom Bundeskriminalamt (BKA) Dateien bundesweit angelegt werden, die sogenannten INPOL-Verbunddateien. Auch sie sind zweckgebunden und sollen Anga­ben zu den als interessant angesehenen Personen enthalten. Befüllt bzw. verwendet werden diese rund 150 Verbunddateien aber von den Landes- und Bundesbehörden gemeinsam, teilweise auch von Geheimdiensten.

Das Konzept der Verbunddateien ist immer wieder Gegenstand von Kritik.[7] In einem prominenten Fall ging es um Teilnehmende einer Anti-Atom-Demonstration, deren Namen vor zwei Jahren vom Verfassungsschutz – laut BMI zu Recht – mit der Begründung, Kernkraftkritik sei ja Systemkritik, in eine gemeinsam mit dem BKA genutzte Projektdatei aufgenommen worden sind.[8] Für das BKA war eine solch willkürlich gefüllte Datei jedoch praktisch nutzlos.

Ein weiteres Beispiel war die „Zentraldatei politisch-motivierte Kriminalität links“ (PMK-links Z), die im Jahre 2012 durch den damaligen Bundesdatenschutzbeauftragten Peter Schaar analysiert wurde. Im Ge­gensatz zu gemeinsamen Verbunddateien kann bei Zentraldateien nur das BKA schreibend zugreifen, es muss also selbst die Einträge prüfen. Schaar hatte dabei so viele Rechtsverstöße festgestellt, dass das BKA rund 90 Prozent der Einträge löschen musste.[9]

Die Konsequenzen einer solchen Speicherungspraxis zeigen sich besonders im Falle einer Rasterfahndung[10], denn der Abgleich mit einer Datei, die fast ausschließlich fälschlich, sprich illegal, gespeicherte Personendaten enthält, kann für die Betroffenen verheerende Folgen haben – für die eigentlich Gesuchten wiederum ist eine solche Praxis sehr von Vorteil.

Hier offenbart sich das generelle Problem gemeinsam genutzter Da­tenbestände: Informationen werden von einem Akteur in einem Kontext mit einer bestimmte Absicht erhoben und dann – dekontextualisiert – als Daten gespeichert. Mit der Nutzung durch andere Akteure werden sie dann – meist ganz anders – rekontextualisiert. Dass aber die Kontexte der Erhebung und die der Nutzung zusammenpassen, muss akribisch sichergestellt werden, insbesondere wenn es sich bei den Akteuren um staatliche Stellen mit großer und/oder verdeckter Wirkmacht handelt.

Existenz fragwürdig, Prozesse intransparent, veraltet

Es zeichnet sich ab, dass die schlechte Performanz solcher Datenbanken nicht die Ausnahme, sondern die Regel darstellt. Eine sinnvolle Nutzung wäre rein theoretisch nur durch mehr Qualitätssicherungspersonal, detailliertere Dateneingangsprüfungen, strikte Eintragsverbote beispielsweise für Personen mit Freisprüchen, kontextbeschreibende Annotationen der Daten, sinngebende Verweise auf Akten, Verfahren oder Hintergründe und regelmäßige, aufwändige Datenpflege inklusive restriktiver Löschfristen möglich. Denn Daten veralten, verändern sich, müssen korrigiert oder gelöscht werden. Sollte das jedoch mit den vorhandenen Mitteln gar nicht möglich sein, so müssen Nutzen und Erforderlichkeit solcher Dateien generell infrage gestellt werden.

Bei einer ständig unterbesetzten Polizei, die schon jetzt viele konventionelle Spuren kaum verfolgen kann, sind derartig komplex zu betreibende, löchrige, veraltete, illegale Datenbestände sogar schädlich. „Ganz klar: Unnötig gespeicherte Daten schaffen nicht mehr, sondern weniger Sicherheit“, befand überraschend auch Jus­tiz­mi­nister Hei­ko Maas (SPD) im Kontext des G20-Akkreditierungsde­ba­kels.[11] Ebenso klagen BKA-interne AnalystInnen über zu viele irrelevante Daten in den Ver­bund­dateien; insbesondere dort, wo Geheimdienste mit im Boot sind, da diese immer auf mehr Informationen aus sind, unabhängig davon, ob sie sich sauber überprüfen lassen.[12]

Lange Zeit, so scheint es, war die Nutzung solcher Dateien politisch gewollt. Auch diese Entwicklung muss im Kontext der Vernetzung und Digitalisierung sowie ihren hehren Verheißungen verstanden werden: Auch hier spielen Technikgläubigkeit und mechanistische Weltbilder eine wesentliche Rolle, denn oft herrscht bezüglich der Kriminalitäts- und Terrorbekämpfung die Vorstellung einer Suche nach der „Nadel im Heuhaufen“, wofür ja zuerst der ganze Heuhaufen benötigt würde.[13]

In Deutschland werden bislang keine Big-Data-Analysen auf Basis polizeilicher Dateien durchgeführt und Datenbestände mit verschiedenen Zwecken (etwa des Staatsschutzes, der Organisierten oder der Wirtschaftskriminalität) dürfen auch nicht verkettet werden.

Trotzdem sehen viele Personen in politischen Führungspositionen eine verheißungsvolle Zukunft in der Abkehr vom restriktiven Datenschutz hin zum Datenreichtum als Lösungsansatz für wirtschaftliche, ökologische oder polizeiliche Aufgabenstellungen.[14] Dieser Denkweise sind Trennungsgebot, Verkettungsverbot bzw. Zweckbindung ein Dorn im Auge.

Wilde Erfahrungen mit (Meta-)Daten

Was mit den angesammelten Daten passiert, wenn es zu wenige der oben beschriebenen Beschränkungen gibt, sehen wir beispielsweise in China, wo gerade ein Sozialkredit-Punktestand aller BürgerInnen aufgebaut wird. In dieser Datenbank wird gespeichert, wer bei Rot über die Ampel geht, wer Rechnungen nicht bezahlt oder wer sich kritisch über die Regierung äußert.[15]

Ein anderes Beispiel ist die verhängnisvolle Metadatennutzung für Drohnentötungen des US-Militärs in Pakistan oder Jemen. Auch der deutsche Bundesnachrichtendienst (BND) hat dafür Kommunikations-Metadaten sowie Stammdaten wie zugehörige Namen und Adressen beigesteuert.[16] Für solche Drohnenangriffe werden mitunter nicht bekannte Individuen anvisiert, sondern Personen auf die bestimmte Muster passen. Bei diesen sogenannten „signature strikes“[17] werden Eigenschaften und Zusammenhänge definiert, etwa regelmäßige Aufenthalte an bestimmten Orten, Telefonanrufe oder ähnliche Bewegungsmuster, wie sie andere, bereits bekannte Personen aufweisen. Diese Art von Datenverknüpfung wird allein mit Metadaten möglich, mit tödlichen Folgen für die Getroffenen.

Es gibt jedoch auch ganz andere Verwendungen von Metadaten, die keine komplexen Modelle brauchen, wie etwa die geheime Sammlung von Kompromat gegen „GefährderInnen“ durch den US-amerikanischen Geheimdienst NSA zeigt. In einem der Fälle wurden massenhaft völlig legale, aber sozial brisante Zugriffe auf Pornographiewebseiten auf Vorrat gespeichert. Die damit erlangten Informationen über Erotikvorlieben der Nutzer sollten dann verwendet werden, um die Zielpersonen bei Bedarf zu erpressen. In anderen Fällen wurden einfach alle BesucherInnen von Webseiten wie WikiLeaks (Enthüllungsplattform), TheTorProjekt.org (Anonymisierungssoftware) oder PirateBay (File-Sharing-Seite) auf Vorrat dokumentiert, vermutlich für eine spätere noch zu definierende Verwendung.[18] Hier wird erkennbar, welche Wirkung Metadaten entfalten können.

Gerade in Bezug auf Kommunikationsdaten ist auch in Deutschland eine starke Tendenz zur Datenanhäufung und -nutzung erkennbar. Die ermittlungsbezogenen Funkzellenabfragen nach § 100g Absatz 3 Strafprozessordnung (StPO), wobei großflächig und regelmäßig auf die vorhandenen Metadaten der Vorratsdatenspeicherung zurückgegriffen wird,[19] nehmen stark zu, ebenso wie die Nutzung von metadatenerzeugenden „Stillen SMS“. Interessant in diesem Zusammenhang: Im Jahre 2015 wurde die Firma Rola Security – Anbieter für polizeiliche Fallbearbeitungssoftware mit Überwachungsschnittstellen – von der Telekom gekauft.[20] Nun kann die Telekom in Bezug auf Telekommunikationsüberwachung bequem aus einer Hand liefern.

Bei allen Anwendungsfällen fällt auf, dass die Betroffenen keine oder nur geringe Einfluss- und Beschwerdemacht haben, dass die Aktivitäten geheim ablaufen, dass ein späterer Widerspruch sinnlos wäre oder alles zusammen.

Big Data, künstliche Intelligenz und Technikgläubigkeit

Ganz allgemein gesprochen ist offensichtlich gerade staatlichen Akteuren weder bewusst, was automatisierte Datenauswertung kann bzw. nicht kann, noch was die Voraussetzungen dafür sind oder wie verheerend die Auswirkungen für die Betroffenen sein können.

Für die automatisierte Datenauswertung muss immer klar sein, was die gesuchten Zusammenhänge ausmacht, worin sie also genau bestehen. Mit den traditionellen informatischen Mitteln wie Suchen, Filtern, Sortieren sind immer auch formale Beschreibungen des Gesuchten notwendig. Es ist eben nicht möglich, Algorithmen auf eine Datensammlung anzusetzen und einfach nach „Terroristen“ oder „Gefährdern“ suchen zu lassen, denn wir haben bislang nicht einmal eine nicht-formale, allgemein anerkannte Definition von „Terrorismus“ oder „Gefährderverhalten“. Wonach suchen wir also? Und gerade bei neuen Analyse- und Auswertungsmethoden mit bislang unklarer Wirkungsweise wie beispielsweise künstlichen neuralen Netzen muss genau abgewogen werden, was die Konsequenzen von Fehlanalysen sind, um den möglichen Nutzen damit abzugleichen.

Wenn beispielsweise der Google-Bilderkennungsalgorithmus ein Bild falsch klassifiziert, Amazon ein unpassendes Buch empfiehlt oder oder AlphaGo vielleicht auch einmal eine Partie verliert,[21] ist die Konsequenz doch ungleich erträglicher als wenn fehlerhafte Rückfallvorhersagesoftware bei Gerichtsprozessen überwiegend Menschen dunkler Hautfarbe hinter Gitter bringt, JournalistInnen ihre Arbeit nicht mehr ausüben können, Menschen ihre politischen Aktivitäten einschränken, um keine verhängnisvollen Spuren mehr zu hinterlassen oder afghanische Bauersleute sterben, weil sie am falschen Ort Hochzeit gefeiert haben.

Über diese Auswirkungen automatisierter Datenverarbeitung müssen wir dringend diskutieren, bevor wir eine Gesellschaft in – wenn auch manchmal nur ungewollt – ungerechte Technik gießen. Gerade auch Technikerinnen und Techniker müssen sich hier politisch zu Möglichkeiten und vor allem Grenzen von informationstechnischen Herangehensweisen äußern; oder um es sinngemäß mit dem Computerpionier und Gesellschaftskritiker Joseph Weizenbaum zu sagen: „Früher übergab man ein Problem dem Computer, wenn man es verstanden hatte. Heute ist es zunehmend anders herum.“ Diese Entwicklung gilt es zu stoppen.

 

[1] s. z. B. Cormen, T. u.a.: Algorithmen – Eine Einführung, München 2013
[2] Zeit.de v. 24.2.2011 (Link)
[3] s. Volkszählungsurteil des Bundesverfassungsgerichts v. 15.12.1983 (Link)
[4] vgl. Situation in China: Deutschlandfunk-Kultur, Weltzeit v. 5.9.2017 (Link)
[5] s. § 34 BKA-Gesetz, § 490 Strafprozessordnung (StPO) oder § 49 ASOG Berlin
[6] § 26 Gesetz über die polizeiliche Datenverarbeitung Hamburg (HmbPolDV) (Link)
[7] Zeit.de v. 24.9.2014 (Link)
[8] Deutschlandradio: Informationen am Morgen v. 2.9.2017 (Link)
[9] Netzpolitik.org v. 14.4. (Link), 27.4 (Link) und 19.6.2015 (Link)
[10] beispielsweise § 98a StPO, § 47 ASOG (Berlin) oder § 28 BKAG
[11] Zeit.de v. 30.8.2017 (Link)
[12] Deutschlandradio, Informationen am Morgen v. 2.9.2017 (Link)
[13] Guardian v. 10.10.2013 (Link)
[14] Beschreibung der datengetriebenen Hoffnung in der Politik: Forum InformatikerInnen für Frieden und gesellschaftliche Verantwortung, Pressemitteilung v. 21.12.2016 (www.fiff.de) (Link)
[15] Deutschlandfunk-Kultur, Weltzeit v. 5.9.2017 (Link)
[16] zeit.de v. 15.10.2015 (Link)
[17] zeit.de v. 16.10.2015 (Link)
[18] Netzpolitik.org v. 3.7.2014 (Link) und Theintercept.com v. 18.2.2014 (Link)
[19] Netzpolitik.org v. 23.5.2017 (Link)
[20] sueddeutsche.de v. 6.7.2015 (Link)
[21] heise.de v. 5.1.2017 (Link)

Lizenz des Textes: CC BY 3.0 DE

Beitragsbild: Pete Birkinshaw from Manchester, UK (Old kardex file cabinet (CC BY 2.0

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert