KI in der Polizeiarbeit: Der Mythos vom vorhersagbaren Verbrechen

von Nina Galla

Schon mindestens 75 Staaten nutzen Künstliche Intelligenz (KI) zu polizeilichen Zwecken. Mit dem sogenannten „Predictive Policing“ arbeiten 52 Länder, 64 nutzen automatisierte Gesichtserkennung in der Videoüberwachung.[1] Pilotprojekte gibt es auch in Deutschland.

Wenn von KI die Rede ist, geht es meist um Verfahren eines mehr oder weniger ausgeprägten maschinellen Lernens. Alle diese Systeme sind komplex, es braucht zahlreiche menschliche Entscheidungen, um sie so zu gestalten, dass sie tatsächlich ihren Zweck erfüllen. Diese Entscheidungen wiederum erfordern Kenntnis und Verständnis sowohl der technischen Verfahren als auch des sozialen Kontexts ihres Einsatzes.

Die Datenethik-Kommission empfiehlt in ihrem im November 2019 veröffentlichten Gutachten, diese Systeme je nach Auswirkungen und Risikopotenzial in verschiedene Risikoklassen einzuordnen, aus denen sich Anforderungen an ihre Regulierung ergeben.[2] KI in der Polizeiarbeit kann Auswirkungen auf das Vertrauen der Gesellschaft in die Behörden haben. Predictive Policing gehört daher in eine der höchsten Risikoklassen des Modells der Datenethik-Kommission.

Anders als manchmal suggeriert wird, sind KI-Systeme keine Zauberei. Es sind Maschinen, die mit hoher Rechenleistung statistische Verfahren anwenden. Sie ermitteln Wahrscheinlichkeiten. Sie können nur Korrelationen entdecken, keine Kausalitäten. Und sie wenden keine wissenschaftlichen Verfahren an, um zu ihren Ergebnissen zu kommen. Menschen wählen aus, zu welchem Zweck und mit welchen Daten ein System trainiert wird. Menschen bewerten den Lernfortschritt und entscheiden, wie sie mit den Ergebnissen umgehen wollen. Menschen tragen also eine hohe Verantwortung entlang der gesamten Kette von Entwicklung, Einsatz und Evaluierung eines solchen Systems.

Eine sogenannte „starke KI“, bei der eine Maschine in ihrem Lernverhalten unabhängig vom Menschen wäre, ist bis auf Weiteres technisch ausgeschlossen. Maschinen scheitern an Unvorhergesehenem und komplexen Zusammenhängen. Faktisch geht es also immer um „schwache KI“, also darum, dass Maschinen wenig komplexe Aufgaben ausführen, welche bestimmten Regeln folgen und deren Kriterien für Computer zu verstehen, also operationalisierbar, sind.

Beruhigen kann das allerdings nicht, denn auch „schwache KI“ ist – insbesondere beim Einsatz im polizeilichen Bereich – nicht frei von Risiken. Grundsätzlich geht es hier um die Vorverlagerung von Ermittlungen aufgrund von maschinell entdeckten Korrelationen und damit um eine mögliche Umkehr der Unschuldsvermutung. Weitere Probleme zeigen sich, wenn man betrachtet, wie eine Maschine überhaupt lernt und zu Entscheidungen kommt und wie mit diesen Entscheidungen umgegangen wird.

Trainingsdaten: Auf Basis welcher Daten lernen die Systeme, Entscheidungen zu treffen?

Maschinen lernen zunächst auf Basis bereits vorhandener Daten. Damit die Maschine überhaupt mit etwas arbeiten kann, müssen diese Daten für Maschinen lesbar und verständlich, also „operationalisierbar“ sein. Einfach zu operationalisierende Daten sind Alter, Geschlecht, Uhrzeit, Ort – also Daten, die einen eindeutigen Zustand beschreiben. Bezogen auf die Polizeiarbeit können dies personenbezogene Daten sein oder Fallzahlen von Straftaten, die wiederum klassifiziert werden können. Nicht oder nur sehr schwer operationalisierbar sind subjektive Umstände bei der Begehung von Straftaten – Motive, Affekte, Interaktion mit anderen. Verbrechen werden daher nie zuverlässig vorhersagbar sein.

Es ist hingegen möglich, bestimmte Wahrscheinlichkeiten zu errechnen: Wo in der Vergangenheit oft eingebrochen wurde, wird in Zukunft vielleicht auch oft eingebrochen. Da es in den letzten Jahren auf Weihnachtsmärkten viele Taschendiebstähle gab, wird es sie voraussichtlich auch wieder in diesem Jahr geben. Damit können Theorien wie zum Beispiel der Near-Repeat-Ansatz unterstützt werden.

In der Polizeiarbeit werden aber vielfach unnötig Daten gesammelt und vorgehalten, um solche Trainingsdaten zu gewinnen. Sie sind für polizeiliche Zwecke nicht erforderlich. Von diesen Inputdaten ist jedoch das Ergebnis der maschinellen Arbeit abhängig: Bilden die Daten polizeilich relevante Vorgänge zu einseitig ab? Manifestieren sie bereits bestehende Diskriminierungen? Sind sie zu alt? Bilden sie falsche Verhältnisse ab? Sind sie überhaupt kausal zum Output oder verleiten sie zu falschen Maßnahmen? Grundsätzlich muss sich die Polizei hier fragen: Was soll eine Maschine hier besser können als der Mensch? Sind die Daten, die wir dafür brauchen, überhaupt in ausreichender Qualität und Quantität vorhanden und dabei operationalisierbar und kausal?

Algorithmus: Welches Lernverfahren wird gewählt, um das gewünschte Ziel zu erreichen?

Eine Maschine braucht ein Ziel, für das sie lernen soll. Das kann sein, eine bestimmte Reihenfolge festzulegen, eine Route zu finden, ein Muster zu erkennen oder eine Wahrscheinlichkeit zu ermitteln. Für diese Lernziele gibt es verschiedene Algorithmen, die beim Training eines Systems eingesetzt werden können. Die Wahl des Algorithmus ist daher essenziell für die Qualität des Ergebnisses. Aus diesem Grund ist es auch sehr problematisch, ein trainiertes KI-System für einen anderen als den ursprünglichen Zweck einzusetzen. Es bedarf einer besonderen Expertise, um die richtigen technischen Anforderungen für den jeweiligen sozialen Kontext zu definieren. Systeme des maschinellen Lernens werden daher auch als sozio-technische Systeme bezeichnet, da sie je nach Umfeld unterschiedliche soziale Wirkungen entfalten. Es ist derzeit fraglich, ob diese Kompetenzen in Polizeibehörden überhaupt ausreichend vorhanden sind.

Was macht der Mensch mit den Ergebnissen?

Im kommerziellen Kontext – etwa bei der Werbung durch Empfehlung von Produkten – ist das Schadenspotenzial von KI-Ergebnissen gering. Wer diesen Ergebnissen ausgesetzt wird, kann dem Vorschlag folgen oder auch nicht. Im polizeilichen Kontext ist dies logischerweise hochsensibel, denn hier geht es unter Umständen darum, ob die Polizei von Ermittlungs- und Zwangsbefugnissen Gebrauch macht oder nicht. Daher sind die Fragestellungen, welcher Art das Ergebnis ist (Wahrscheinlichkeit, Klassifizierung, Vorschlag) und wie viel Handlungsspielraum den polizeilichen Entscheider*innen gegeben wird, genauso zentral wie die Auswahl der Inputdaten und des Algorithmus. Ein Beispiel: Das Land Baden-Württemberg plant am Hauptbahnhof Mannheim ein Projekt, das Bewegungsabläufe von Passant*innen analysieren und bestimmte Verhaltensmuster melden soll. Als „kritisches“ Verhalten soll dabei auch das Rennen gelten.[3]

Für ein KI-System ist es sehr schwierig, eine allgemeine Regel zu lernen, da es für das Verhalten von Menschen zu viele individuelle Motivationen gibt. Wie soll das System unterscheiden lernen, ob ein Mensch zu etwas oder jemandem hinläuft (einem geliebten Menschen) oder vor etwas wegläuft? Und wenn der Mensch wegläuft – läuft er*sie weg vor eine*r potenziellen Straftäter*in oder ist sie*er selbst eine*r? Um das System richtig trainieren zu können, müssen Grenzen festgelegt werden, ab wann das Laufen am Bahnhof als risikoreich gilt. Damit die Maschine operationalisierbaren Input bekommt, muss diese Grenze scharf gezogen werden: Es sind nur Entscheidungen „gefährlich“ oder „nicht gefährlich“ möglich. Dies führt zwangsläufig dazu, dass harmloses Laufen hin und wieder als risikoreich bewertet wird und umgekehrt. Wo diese Grenze zu ziehen ist, entscheiden Menschen. Und hier stellt sich eine Frage, die nur gesamtgesellschaftlich festgelegt werden kann: Wollen wir lieber einige harmlose Passant*innen in die Klasse der Risikopersonen stecken oder besser einige Risikopersonen unerkannt lassen? Derzeit wird diese Debatte jedoch nicht öffentlich geführt.

Und im letzten Schritt: Wie geht der Mensch mit dem Ergebnis um, wenn ein Mensch als „risikoreiche*r Läufer*in“ erkannt wird: Ist der Verdacht der Maschine schon Anlass genug für eine Überprüfung? Sind die Entscheider*innen fähig, eine mögliche Diskriminierung zu erkennen und kennen sie Wege für Rückmeldungen, dass das System optimiert werden muss? Was blüht der* Entscheider*in, wenn sie trotz maschineller Treffermeldung auf eine Überprüfung verzichtet?

Bei kritischen Anwendungsbereichen von KI heißt es stets, dass die Letztentscheidung immer noch beim Menschen liege. Hier gibt es aber noch viel mehr Fragen zu stellen – vom Automatisierungsgrad bis hin zu arbeitsrechtlichen Konsequenzen bei Nicht-Befolgen der maschinellen Empfehlung. In der Mensch-Maschine-Interaktion können bis zu zehn verschiedene Automatisierungsgrade differenziert werden.[4] Das menschliche Verhalten im Umgang mit maschinellen Entscheidungsvorschlägen wird derzeit noch erforscht. Erste Ergebnisse zeigen, dass Menschen dazu neigen, maschinelle Entscheidungen nicht mehr in Frage zu stellen. Wenn beruhigend davon gesprochen wird, dass der Mensch stets die letzte Entscheidung treffe, lohnt es sich daher nachzufragen, welche Vorarbeit die Maschine denn geleistet hat: Hat sie Korrelationen dargestellt und drei mögliche Handlungsempfehlungen gegeben? Oder nur eine, und die Entscheidung des Menschen besteht nur noch darin, zuzustimmen oder abzulehnen? Noch weniger Spielraum gibt es bei Automatisierungsgraden, die eine Entscheidung ausführen und der Mensch sie nur noch stoppen kann. Auch hier trifft der Mensch die letzte Entscheidung, sie besteht jedoch nur noch aus Unterlassen oder Intervenieren.

Videoüberwachung am Südkreuz

Das wohl bekannteste KI-Projekt bislang in Deutschland ist das Pilotprojekt zur Gesichtserkennung am Berliner Bahnhof Südkreuz von 2017. Das Ergebnis: mangelhaft. Während das Bundesinnenministerium (BMI) die Ergebnisse durch Auslassung von wichtigen Informationen geschönt hat, machte der Chaos Computer Club dieser PR-Taktik einen Strich durch die Rechnung und stellte heraus, wie hoch die Fehlerquote der einzelnen Systeme tatsächlich war: Es könnten täglich mehr als 600 Pas­sant*innen fälschlich als „Treffer“ klassifiziert werden.[5] Auch wenn die Interpretation des BMI aus rein politischen Gründen erfolgte, hinterlässt sie den Beigeschmack fehlender technischer und statistischer Kompetenz, die Ergebnisse korrekt zu interpretieren.

Auch in London hat eine Untersuchung der Gesichtserkennung durch die Polizei eine miserable Trefferquote von 20 Prozent offengelegt. Sie zeigte zusätzlich, dass Polizist*innen zu leichtfertig mit den Ergebnissen umgehen, unter anderem weil sie nicht ausreichend überprüft wurden.[6] Diese katastrophalen Ergebnisse hindern das BMI jedoch nicht daran, die Videoüberwachung an Bahnhöfen in Zukunft auszubauen. Bis 2023 sollen insgesamt 132,5 Millionen Euro investiert werden.[7]

SKALA – schwache Aussagekraft von Prognosen

Auch andere Predictive Policing-Experimente fielen bisher mittelmäßig aus, so zum Beispiel das Projekt SKALA (kurz für „System zur Kriminalitätsauswertung und Lageantizipation“), das von 2015-2017 in Nordrhein-Westfalen lief. Das Ziel des Pilotversuchs war es, die „Möglichkeiten und Grenzen der Prognose von Kriminalitätsbrennpunkten“ sowie die „Effizienz und Effektivität daraus resultierender polizeilicher Maßnahmen“ zu prüfen.[8] Der Fokus lag dabei auf Einbrüchen in Wohnungen und Gewerbeobjekten sowie bei KFZ-Delikten. Während in anderen Datenanalysesystemen (z.B. „Hessendata“) Daten aus unterschiedlichen Quellen lediglich zusammengeführt werden, zeichnete sich SKALA durch eine Prognosefunktion aus.

Im Idealfall sollte mit SKALA eine Senkung der Kriminalitätshäufigkeit erreicht werden. Hierzu entwickelte das Landeskriminalamt NRW ein eigenes System, das sowohl strukturierte als auch unstrukturierte Daten analysieren und Muster erkennen kann. Als Datenbasis dienten polizeiliche Vorgangsdaten sowie Daten zu Bevölkerungsstruktur, Einkommen, Gebäudestruktur, Reiseaffinitäten und KFZ-Zulassungen, aber auch Fluchtmöglichkeiten wie die Nähe zu Bundesstraßen oder Autobahnen. Auch die allgemeine Straßenkriminalität, Berechnung der Tage seit dem letzten Einbruch im Wohnquartier beziehungsweise Straßenabschnitt („Near-Repeat-Ansatz“), der Modus Operandi der Tat sowie Wert und Art der Beute flossen in das System ein. Personenbezogene Daten (Täter- oder Opferdaten) wurden nicht verwendet.

Zunächst wurden wissenschaftliche Hypothesen generiert und Vorhersagevariablen identifiziert. Dann erfolgte die Auswahl und Aufbereitung der Daten. Eine erste Einschränkung der Vorhersagequalität ergibt sich daraus, dass Täter*innen wie oben angeführt nicht durchgehend rational handeln, das heißt, dass sie nicht in jedem Fall allein eine Kosten-Nutzen-Abwägung ihrer Tat vornehmen. Daraus resultierende Prognosefehler lassen sich auch nicht operationalisieren. Eine weitere Fehlerquelle resultiert aus dem Umstand, dass manche Delikte erst mit Verzug angezeigt werden oder auch die tatsächliche Deliktschwere erst später ermittelt wird. Deshalb wurden bei SKALA regelmäßig neue aktualisierte Gesamtdaten bezogen.

Zur Analyse wurde mit Entscheidungsbäumen gearbeitet. Entscheidungsbaummodelle gelten als gut nachvollziehbar, da hierbei Datenlücken erkannt und geschlossen werden können, außerdem können zielgenau Variablen verändert werden. So zeigte sich beispielsweise, dass Wetterdaten nicht die angenommene Relevanz für die Prognose hatten.

Zur Prognoseberechnung wurden raum- und zeitbezogene Daten (Jahreszeiten) zusammengeführt und Wohnquartiere als räumliche Bezugsgröße ausgewählt. Hierbei war darauf zu achten, dass die Quartiere eine ausreichende Homogenität aufweisen und die Einheiten weder zu groß noch zu klein gewählt werden. Je größer die Einheit, desto mehr Detailinformationen gehen verloren, desto höher ist aber auch die Wahrscheinlichkeit, dass ein erwartetes Ereignis eintritt. Ist die Einheit jedoch zu klein, könnten zu viele Details zu Unüberschaubarkeit und schlechterer Vergleichbarkeit führen. Im Laufe des Projekts wurde beispiels­weise der Zuschnitt der Quartiere noch einmal angepasst. Die Er­geb­nisse der Prognosen wurden dann den Polizeikräften als Karten über­mittelt. Zu bedenken ist hierbei, dass auch die Gestaltung von Visualisierungen nicht neutral ist und Farbgebungen das menschliche Verhalten beeinflussen können.

Die Ergebnisse beschreiben zunächst lediglich die beobachteten Effekte. Bei der Auswertung musste sichergestellt sein, dass hier keine Ver­zerrung entsteht, indem Taten, die nicht zum Katalog der definierten beobachteten Delikte gehören, hinzugerechnet werden. Wie sich auf zahlreichen Veranstaltungen herausstellte, sind Definitionen einheitlicher Validierungsindizes allerdings noch keine gängige Praxis im Bereich von Predictive Policing; dies erschwert auch die Vergleichbarkeit mit anderen Systemen. Die Analyse ist auch abhängig vom beobachteten Zeitraum. Es können sich große Abweichungen ergeben – abhängig davon, ob Daten aus einem Zeitraum von einem Tag oder zwei Wochen betrachtet wurden. Auch das betrachtete Quartier ist differenziert zu bewerten: Wenn sich die Prognose auf einen „Hotspot“ bezieht, in dem die Wahrscheinlichkeit für Straftaten sowieso schon hoch ist, dann ist zwar auch die Erfolgsquote hoch, hat aber keinen Mehrwert. Tatsächlich lag die vom System berechnete Einbruchswahrscheinlichkeit höher in Wohnquartieren, die insgesamt stark von Einbrüchen betroffen sind, als in Quartieren, in denen der Zeitabstand zum letzten Einbruch hoch war. Im Ergebnis konnte die KI also das nachbilden, was erfahrene Polizeibeamt*innen ohnehin prognostizierten. Ob dieses Ergebnis den Einsatz von insgesamt mehr als 500.000 Euro rechtfertigt, bleibt fraglich.

Das wichtigste Ziel des SKALA-Projekts war jedoch, in Prognosegebieten Taten durch gezielte präventive Maßnahmen wie Bestreifung zu verhindern. „Trefferraten“ können dadurch also nicht verifiziert werden, denn die Zahl ausgebliebener Straftaten lässt sich nicht berechnen. Auch wenn die Polizei in den getesteten Gebieten während des SKALA-Projekts ihre Maßnahmen gar nicht verstärkt hat, wurden keine „Trefferraten“ berechnet. Denn auch hier bedeutet Korrelation keine Kausalität.

Auch zeigte sich, dass mehr Daten nicht zu besseren Ergebnissen führen. Es blieben elf Variablen übrig, die für die Prognose als sinnvoll erachtet wurden. Ausschlaggebender war der Zuschnitt der bewerteten Wohnquartiere. Je nach Wohnquartier und Jahreszeit zeigten sich unterschiedliche Korrelationen der ausgewählten Variablen, so dass eine Übertragbarkeit der Ergebnisse auf andere Zeiträume, Quartiere oder gar von der Stadt auf das Land nicht möglich ist.

KI verhindert keine Straftaten, gefährdet aber Bürgerrechte

Mittlerweile ist die Zahl der Einbruchsstraftaten in Deutschland wieder zurückgegangen, ohne dass es dafür eine eindeutige Erklärung gibt. Eine ganze Reihe weiterer Straftaten mit vielen Opfern, insbesondere Beziehungstaten, lässt sich mit Predictive Policing ohnehin nicht prognostizieren. Es fehlt wie gesagt an operationalisierbaren Daten. Das Freiburger Max-Planck-Institut für ausländisches und internationales Strafrecht hat in einer Studie ebenfalls herausgestellt, dass Predictive Policing höchs­tens im homöopathischen Bereich Nutzen für die Polizeiarbeit bringt.[9]

Bislang dürfen aufgrund mangelnder Rechtsgrundlagen Systeme der automatisierten Entscheidungsfindung nur als Pilotprojekte eingesetzt werden. Wie die oben genannten Beispiele zeigen, ist das ein großes Glück, da die Maschinen nicht ansatzweise halten, was sich Behörden von ihnen erhoffen. Und selbst wenn, stellt sich die Frage nach der benötigten Rechtsgrundlage.

Predictive Policing kann darüber hinaus auch Profilbildung bedeuten. Im September 2019 startete das EU-finanzierte Forschungsprogramm „Roxanne“, das Sprach-, Video-, Orts- und Netzwerkdaten (auch aus sozialen Medien) aus unterschiedlichen Quellen auswerten und verbinden soll, um damit Netzwerke aufzudecken. Daran beteiligt sind neben Interpol auch die Universitäten Hannover und Saarbrücken. Hierbei können Menschen aufgrund von persönlichen Netzwerken zu Risikoklassen gezählt werden,[10] in die sie überhaupt nicht gehören. In den USA werden solche Profilbildungen und Netzwerkanalysen bereits angewendet. Das System macht dabei auch nicht Halt vor Rentnern und über 100-Jährigen, die vor Jahrzehnten in Gangs aktiv waren.[11] Die Technologie entwickelt sich schnell weiter: An der Wuhan University of Technology in China konnten kürzlich anhand von Schallwellen Bewegungen in einem Raum erkannt werden.[12] Die maschinelle Überwachung – sie geht weiter.

Wie weiter?

Schaut man hinter den Zauber der KI, wird deutlich, dass es keine Anwendungsbereiche gibt, in denen Maschinen bessere Polizeiarbeit machen können als die Polizei selbst. Das Versprechen, mit maschinellem Lernen könne ein höheres Sicherheitsniveau erreicht werden, ist nicht haltbar und irreführend. Damit die Gesellschaft dieser Mär nicht auf den Leim geht – mit allen beschriebenen Konsequenzen –, braucht es eine breite Aufklärung und Sensibilisierung zu den Möglichkeiten und Grenzen von Maschinen – und nicht zuletzt eine Aufwertung des Menschen, der immer noch besser in der Lage ist, komplexe Situationen einzuschätzen als jede Maschine.

Gesichtserkennung und auch Videoüberwachung finden derzeit nur wenige Gegner*innen, da die Vorstellung, man habe selbst nichts zu verbergen, zum subjektiven Gefühl einer Nicht-Beobachtung führt und die Erfassung der eigenen Daten keinen unmittelbar spürbaren Nachteil ergibt.

Es ist jedoch nicht unerheblich, wo und von wem wir gefilmt werden, was mit den Aufnahmen geschieht und wer wo wie lang die Aufnahmen speichert. Es ist nicht immer bloß eine Spielerei, wenn Apps aus aktuellen Gesichtsbildern Emojis machen oder berechnen, wie jemand in dreißig Jahren aussehen wird. Es kann immer ein Training für Gesichtserkennungssoftware dahinter stehen, dem die einzelnen Nutzer*innen durch Hinweggehen über die Allgemeinen Geschäftsbedingungen (AGB) zustimmen, ohne es bewusst wahrzunehmen. Wenn un­zu­reichende oder fehlerhafte Systeme von nicht ausgebildeten oder autorisierten Polizist*innen verwendet werden, geraten möglicherweise Daten in die Polizeiarbeit, die dort nicht hingehören. Die Pläne, zahlreiche Datenbanken auf europäischer Ebene zusammenzuführen, erhöhen das Risiko der unberechtigten Zugriffe.

Wenn ein System des maschinellen Lernens schon unbedingt eingesetzt werden soll, dann sollte es doch zunächst zu internen Zwecken innerhalb von Behörden pilotiert werden. Es könnten dabei (selbstverständlich unter Achtung von Datenschutz-Rechten der Arbeitenden) missbräuchliche Datennutzungen entdeckt oder auch rechte Netzwerke aufgedeckt werden – ohne Bürgerrechte zu gefährden. Dabei können gleichzeitig behörden-internes Wissen und Erfahrungen aufgebaut werden, die derzeit noch nicht flächendeckend vorhanden sind.

Auch die Fragestellung, in welcher Gesellschaft wir leben wollen, muss regelmäßig breit diskutiert werden: Nur eine informierte Gesellschaft ist in der Lage, den Sicherheitswahn der Behörden kritisch zu hinterfragen und Bürgerrechte zu schützen. Die Zahlen des Pilotversuchs am Südkreuz sind ernst zu nehmen: Wenn täglich 600 Menschen fälschlicherweise als Terrorist*innen klassifiziert werden, ist es eine Frage der Zeit, bis es auch jene trifft, die bislang meinten, sie hätten nichts zu verbergen.

Von den Behörden müssen wir erwarten und einfordern, dass sie offenlegen, wie sie ihre Systeme auswählen und trainieren, wer an welcher Stelle was entscheidet und welche Qualifikationen diese Person mitbringt. Entsprechend den Risikoklassen der Datenethikkommission braucht es einen klaren Katalog von Anforderungen für Systeme in der Polizeiarbeit und auch eine klare rote Linie: Können relevante Kriterien nicht erfüllt werden, darf das System nicht eingesetzt werden. Es muss auch gestoppt werden, wenn es im laufenden Betrieb Diskriminierungen zeigt oder Entscheidungen nicht nachvollziehbar und reproduzierbar sind. Hierzu braucht es eine qualifizierte öffentliche Kontrollinstanz. Der Einsatz kann sich durchaus lohnen: In San Francisco wurde die Gesichtserkennung mittlerweile wieder deutlich eingeschränkt.[13]

Die Pläne des BMI, 135 Bahnhöfe mit biometrischer Gesichtserkennung auszustatten, sind vorerst gestoppt.[14] Parallel arbeitet allerdings das BKA an einer polizeilichen KI-Strategie.[15] Noch ist wenig dazu bekannt und man darf gespannt sein, wann und wo die Gesichtserkennung wieder auftaucht und wie sorgfältig die aktuellen Fehlerquellen der Pilotversuche erkannt und geschlossen wurden. Die Zeit bis dahin sollten Bürgerrechtler*innen nutzen, um unbequeme Fragen vorzubereiten und mit gesellschaftlicher Unterstützung zur rechten Zeit das Salz in die richtige Wunde zu streuen.

[1]   Forscher: Weltweit immer mehr Massenüberwachung mit KI, heise online v. 18.9.2019
[2]   Datenethikkommission der Bundesregierung: Gutachten, Berlin Oktober 2019, S. 177 (www.bmjv.de/SharedDocs/Downloads/DE/Themen/Fokusthemen/Gutachten_DEK_DE.pdf)
[3]   Mannheim testet verhaltensbasierte Videoüberwachung, heise online v. 3.12.2018
[4]   Save, L.; Feuerberg, B.: Designing Human-Automation Interaction: a new level of Automation Taxonomy, in: De Waard, D. et al.: Human Factors: a view from an integrative perspective, HFES Europe Chapter Conference, Toulouse 2012, S. 43-55 (44) (www.hfes-europe.org/wp-content/uploads/2014/06/Save.pdf)
[5]   Videoüberwachung: Seehofer hält flächendeckende Gesichtserkennung für möglich, zeit.de v. 12.10.2018; CCC: Bundespolizei hat Bericht zur Gesichtserkennung absichtlich geschönt, heise online v. 15.10.2018
[6]   Gesichtserkennung in London hat miserable Trefferquote und kann Menschenrechte verletzen, Netzpolitik.org v. 5.7.2019
[7]   Bahn: mehr Überwachung mit Gesichtserkennung an Bahnhöfen, heise.de v. 12.9.2019
[8]   Landeskriminalamt NRW: Abschlussbericht Projekt SKALA, Düsseldorf 2018 (https://lka.polizei.nrw/sites/default/files/2019-01/180821_Abschlussbericht_SKALA_0.PDF)
[9]   Predictive Policing – die Kunst, Verbrechen vorherzusagen, heise online v. 19.5.2019
[10] Strafverfolgung: Geheimdienstmethoden für Ermittler, Golem v. 8.11.2019
[11] Big Data: Predictive policing in Chicago, Wired v. 12.12.2018
[13] San Francisco verbietet Gesichtserkennung durch Behörden, Zeit online v. 15.5.2019
[14] Bundespolizei: Nutzung von Gesichtserkennung wird wohl nicht erlaubt, RBB24 v. 24.1.2020
[15] BT-Drs. 19/13221 v. 16.9.2019, S. 6

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.