Ein aufhaltsamer Aufstieg: Kurze Geschichte der automatisierten Gesichtserkennung

von Roland Meyer

In einer konzertierten Aktion zwischen staatlichen Sicherheitsbehörden und kommerziellen Unternehmen wurde seit den 1960er Jahren die Entwicklung der automatisierten Gesichtserkennung vorangetrieben. Die gescheiterten Versuche und die nach wie vor hohen Falscherkennungsraten haben diese Geschichte nicht aufgehalten. Höchste Zeit für eine politische Debatte.

Der Minister war zufrieden. Als Horst Seehofer im Oktober 2018 die Ergebnisse des Pilotprojekts zum Einsatz automatisierter Gesichtserkennung am Berliner Bahnhof Südkreuz vorstellte, zeigte er sich sogar zu Scherzen aufgelegt. „Wenn die Politik nur 0,1 Prozent Fehler machen würde, dann wären wir gut“, kommentierte er die Falscherkennungsraten der getesteten Systeme launig.[1]

Nicht nur, dass, wie der Chaos Computer Club herausfand,[2] die Treffer- und Fehlerraten im Abschlussbericht der Bundespolizei wohl geschönt waren – auch ohne vertiefte Kenntnisse in Statistik und Informatik hätten die Zahlen stutzig machen können. Schon mit einfacher Mittelstufenprozentrechnung zeigt sich nämlich, dass bereits die angegebene Fehlerquote im flächendeckenden Einsatz verheerende Konsequenzen hätte. Bei rund 90.000 Passant*innen, die den Bahnhof Südkreuz täglich passieren, würde das System rund 90 Mal am Tag falschen Alarm geben. Ein Einsatz auf allen Bahnhöfen im Bundesgebiet hätte gar, wie das Max-Planck-Institut für Bildungsforschung ausgerechnet hat, rund 350.000 Fehlalarme monatlich zur Folge – 350.000 Menschen, die im Zweifelsfall von der Polizei gestoppt und kontrolliert würden. Und da die Zahl der gesuchten „Gefährder“ im Verhältnis zur Gesamtbevölkerung verschwindend gering ausfällt, stellt sich fast jeder Treffer des Systems als falscher Alarm heraus – mutmaßlich mehr als 99 Prozent.[3] Anders als Ministerium und Bundespolizei die Öffentlichkeit glauben machen wollten, hatten sich die Systeme also keinesfalls „in beeindruckender Weise bewährt“.[4]

Das muss schließlich auch dem Minister gedämmert haben. Ursprünglich hatte Seehofer angekündigt, noch 2020 die gesetzlichen Voraussetzungen zu schaffen, um automatisierte Geschichtserkennung an 135 Bahnhöfen und 14 Flughäfen einsetzbar zu machen. Im aktuellen Entwurf für das Bundespolizeigesetz ist davon keine Rede mehr. Überraschend ließ Seehofer verkünden, es seien noch „einige Fragen“ in Bezug auf die Technologie und ihre gesellschaftliche Akzeptanz offengeblieben. Tatsächlich lässt sich beobachten, dass der Einsatz automatisierter Gesichtserkennung auch in Deutschland immer kritischer diskutiert wird – auch jenseits jener Kreise, die immer schon Datenschutzbedenken angemeldet hatten.

Meldungen wie die über die Firma Clearview, die in riesigen Größenordnungen private Bilder aus Social-Media-Netzwerken mittels Gesichtserkennung durchsuchbar macht – selbstverständlich ohne die Einwilligung der Nutzer*innen –, haben auch hierzulande für Aufsehen gesorgt. In den USA artikulieren sich inzwischen massive zivilgesellschaftliche Forderungen nach einer Regulierung, wenn nicht gar einem Verbot der Technologie, und erste Städte – darunter die Tech-Metropole San Francisco – haben bereits einen „ban on facial recognition“ ausgesprochen. Weit handfester äußerte sich der Widerstand im vergangenen Sommer in Hong Kong, wo es die Demonstrant*innen gezielt auf die Demontage der Überwachungskameras abgesehen hatten, um der allgegenwärtigen Gesichtserkennung zu entgehen.

Was jedoch in der gegenwärtigen Debatte seltsam unterbelichtet scheint, ist die Tatsache, dass automatisierte Gesichtserkennung keineswegs eine neue Technologie ist. Vielmehr hat sie eine bereits über fünfzigjährige Geschichte – eine Geschichte, die weithin unbekannt ist, die aber Schlaglichter auf die Gegenwart wirft. Diese Geschichte soll im Folgenden knapp skizziert werden.[5]

Von der Bertillonage zur „Videodatenverarbeitung“

Die ersten Versuche mit automatisierter Gesichtserkennung datieren bereits aus den 1960er Jahren. Als Pionier des Feldes kann der amerikanische Mathematiker Woody Bledsoe gelten, der um 1963 im Auftrag der CIA damit begann, den Einsatz von Computern bei der Identifizierung menschlicher Gesichter zu erforschen. Als Vorbild diente ihm das anthropometrische Signalement des französischen Kriminalisten Alphonse Bertillon, ein Mess- und Beschreibungsverfahren, das in den 1880er Jahren zur Identifizierung von Wiederholungstätern entwickelt worden war. Die vollständige Automatisierung der Gesichtsvermessung gelang Bledsoe jedoch nicht – vielmehr schlug er seinen Auftraggebern ein „Mensch-Maschine-System“ mit klarer Kompetenzverteilung vor: Menschliche operators sollten zunächst auf polizeilichen Fahndungsbildern vorgegebene Merkmalspunkte wie Augen- und Mundwinkel, Nasen- und Kinnspitze markieren. Deren digital erfasste Koordinaten konnten anschließend vom Computer mit den bereits zuvor erfassten Datenbeständen abgeglichen werden. Der Computer blieb also in dieser frühesten Versuchsanordnung noch blind und war für den Dateninput auf menschliche Augenpaare angewiesen.

Während Bledsoes Arbeit, den Interessen seines Auftraggebers geschuldet, im Geheimen stattfand, suchten andere Forscher die Öffentlichkeit. So bewarb die Nippon Electric Company ihre neuartige Technologie der „Videodatenverarbeitung“ 1970 auf der Weltausstellung im japanischen Osaka mit einem ganz besonderen Spektakel namens „Computer Physiognomy“. Wer wollte, konnte hier sein Gesicht elektronisch erfassen lassen und erhielt als Andenken nicht nur ein ausgedrucktes Computerporträt, sondern auch eine spezielle Form der automatisierten Charakterdeutung. Auf Basis messbarer Ähnlichkeiten sollte der Rechner nämlich jedes erfasste Gesicht einem „Typus“ zuordnen, der von jeweils einem von insgesamt sieben Prominentengesichtern repräsentiert wurde – von Winston Churchill über John F. Kennedy bis zu Marylin Monroe. Doch nach welchen Kriterien die Zuordnung erfolgte, erfuhr das Publikum nicht. Gesichtserkennung, das gilt bis heute, präsentiert sich in der Regel als black box, deren Funktionsweise strukturell im Verborgenen bleibt – der Öffentlichkeit gegenüber ebenso wie nicht selten sogar jenen, die sie einsetzen: In diesem Fall mussten die beteiligten Wissenschaftler erst in der nachträglichen Datenanalyse erfahren, dass die Ergebnisse ihres fehleranfälligen Programms häufig reine Zufallsprodukte waren.

Das Experiment von Osaka erwies sich dennoch als folgenreich. Denn auf Basis der hier erhobenen Gesichtsdaten entwickelte der junge japanische Informatiker Takeo Kanade in seiner Dissertation von 1973 das erste Verfahren, das ohne menschliche Eingabehilfen auskam. Auch Kanade setzte auf die digitale Vermessung des Gesichts, doch Brillen, Bärte und Falten im Gesicht verwirrten sein System und machten die Lokalisierung von Merkmalspunkten wie Augen- oder Mundwinkeln schwierig. Als Testbilder verwendete er daher ausschließlich solche junger, bart- wie brillenloser, zudem überwiegend männlicher japanischer Gesichter, doch selbst die wurden nur in rund dreiviertel aller Fälle erkannt. Gesichtserkennung, auch das gilt bis heute, etabliert stets Standards der Erkennbarkeit, die nicht von jedem Gesicht gleichermaßen erfüllt werden.

Im Laufe der 1970er Jahre begann man vielerorts, an Verfahren der automatisierten Gesichtserkennung zu arbeiten – unter anderem auch am Bundeskriminalamt in Wiesbaden. Als Ziel schwebte BKA-Chef Horst Herold ein „Personenerkennungssystem“ vor, das alles objektiv messbar und vergleichbar machen sollte, was bislang der menschlichen Wahrnehmung vorbehalten gewesen war. In Zukunft könnten dann mittels Videotechnik, Datenverarbeitung und anderer Medien „alle Merkmale der Individualität“, einschließlich Mimik, Gang- und Stimmmustern, automatisch erfasst und ausgewertet werden. Doch wie andere Technologien, deren Entwicklung das BKA im Kampf gegen den RAF-Terrorismus mit großem Aufwand betrieb, kam die elektronische Personenerkennung nie über den Stand der Grundlagenforschung hinaus.

Fiction & Science

Auch international stagnierte in den 1980er Jahren die Forschung – zu viele Probleme schienen ungelöst, als dass in absehbarer Zeit mit einem praxistauglichen Verfahren zu rechnen gewesen wäre. Als einsatzfähig erwies sich die Technologie allein im Reich der Fiktion. Insbesondere die Filme der James-Bond-Reihe führten seit den 1980er Jahren regelmäßig immer elaboriertere Formen der elektronischen Identifizierung vor. In A View to a Kill (1986) ist es ausgerechnet der Schurke Zorkin, der eine in seinem Arbeitszimmer versteckte Kamera nutzt, um den inkognito auftretenden Bond zu identifizieren. Während Zorkin sich noch mit seinem verdächtigen Gast unterhält, lässt er heimlich dessen digitales Überwachungsbild von seinem PC auswerten, der ihm schließlich verrät, mit wem er es in Wahrheit zu tun hat.

Den Einfluss der filmischen Fiktion auf die Realität sollte man nicht unterschätzen. So ist überliefert, dass die CIA regelmäßig, wenn einer neuer Bond in die Kinos kam, die dort vorgeführten Gadgets durch ihre technische Abteilung auf ihre Realisierbarkeit hin prüfen ließ. Vor allem aber prägten die Hollywoodfantasien der perfekten technischen Überwachung, wie sie seit den 1990er Jahren entstanden, populäre Vorstellungen technischer Machbarkeit. Filme wie etwa Enemy of the State (1998) zeichneten zwar ein düsteres Bild der Gefahren totaler Überwachung, doch die konkreten Schwachstellen der Technik sparten sie aus. Im Reich der Fiktion funktionierte die automatisierte Gesichtserkennung stets fehlerfrei.

Doch nicht nur Hollywood-Drehbuchautoren hielten in den späten 1990er Jahren automatisierte Gesichtserkennung für unmittelbar einsatzfähig. Tatsächlich hatte die Technologie mittlerweile die Entwicklungslabore verlassen. Der technische Durchbruch war 1991 gelungen, mit dem sogenannten Eigenface-Algorithmus der MIT-Forscher Matthew Turk und Alex Pentland. Anders als frühere merkmalsbasierte Verfahren setzten Turk und Pentland nicht auf die Vermessung der Anatomie des einzelnen Gesichts, sondern auf die statistische Auswertung von Helligkeitsverteilungen in großen Bilderdatenmengen. Dieser „holistische“ Ansatz, ursprünglich im Auftrag eines Unternehmens entwickelt, das zur Messung von Einschaltquoten elektronisch erfassen wollte, wer gerade vor dem Fernseher saß, erwies sich als so erfolgreich, dass er in den 1990er Jahren einen wahren Forschungsboom auslöste.

In rascher Folge erschienen nun immer neue Erfolgsmeldungen aus den Computerlaboren amerikanischer Spitzenuniversitäten. Das Interesse auf Seiten von Militär und Sicherheitsbehörden war entsprechend groß. Doch da jedes Entwicklungsteam seine eigene Bilddatenbank verwendete, ließen sich die Erkennungsraten nicht vergleichen. Auf diesen Mangel reagierte ab 1993 das FERET-Programm des US-Verteidigungsministeriums. Mit dem Aufbau einer einheitlichen Bilddatenbank sollte nun erstmals ein standardisierter Leistungsvergleich möglich werden. Dieser fand zwischen 1994 und 1996 in drei Phasen statt, bei denen jeweils die vielversprechendsten Teams auf Basis gemeinsamer Testaufgaben und Erfolgskriterien miteinander konkurrierten. Zwar stellte sich heraus, dass wechselnde Lichtverhältnisse, zeitliche Abstände zwischen den Aufnahmen und anderes mehr die Systeme unverändert vor große Herausforderungen stellten, doch allein die im Jahresrhythmus messbaren Fortschritte bestätigten die Beteiligten im Glauben an die bevorstehende Marktreife. Und so begann mit den FERET-Tests die Kommerzialisierung der Technologie, nutzten doch manche der beteiligten Forscher*innen die staatlich beglaubigten Testergebnisse, um Risikokapital für ihre neugegründeten Start-up-Firmen einzuwerben, die fortan Casinos, Flughäfen, Führerscheinstellen und Polizeibehörden mit Gesichtserkennungssoftware ausstatten sollten.

Ein öffentlichkeitswirksamer Coup gelang im Januar 2001 der Firma Viisage, die sich die Rechte am Eigenface-Algorithmus gesichert hatte: Mit ihrer Software wurden die Gesichter von über 70.000 Besucher*innen des Super-Bowl-Finales in Tampa (Florida) automatisch erfasst und mit polizeilichen Fahndungslisten abgeglichen. Obwohl keine Verhaftung erfolgte und unklar blieb, ob die Software überhaupt einen einzigen korrekten Treffer gelandet hatte, verbuchten die Beteiligten den Einsatz als Erfolg. Der größte Konkurrent von Viisage, nämlich Visionics, bot nun ebenfalls den Behörden von Tampa seine Dienste an, um im Sommer 2001 eine bestehende Videoüberwachungsanlage in der Innenstadt zum „Smart CCTV“ aufzurüsten. Doch erwies sich die Technik als wenig „smart“: Es häuften sich Fehlalarme, und nach wenigen Wochen Laufzeit schaltete die Polizei das Programm ab – ohne die Öffentlichkeit darüber zu informieren.[6]

Nach dem 11. September 2001

Derweil hatte Visionics längst einen größeren Markt anvisiert. Nur 14 Tage nach den Anschlägen vom 11. September veröffentlichte die Firma ein white paper mit dem Titel: „Protecting Civilization from the Faces of Terror“, das für die landesweite Aufrüstung aller Flughäfen mit Gesichtserkennung plädierte. Ausgerechnet jene Technologie, die wenige Wochen zuvor in Florida ebenso spektakulär wie von der Öffentlichkeit unbemerkt versagt hatte, hätte, so wurde dort suggeriert, die Terroristen rechtzeitig stoppen können. Mit der Wirklichkeit hatten solche Argumente nur wenig zu tun – nicht zuletzt, weil Mohammed Atta und seine Mittäter gar nicht unter falschem Namen oder mit gefälschten Papieren reisten. Für die biometrische Industrie markierte 9/11 dennoch einen „Paradigmenwechsel“. Bislang, so formulierte es im Februar 2002 der CEO von Visionics, Joseph J. Atick, in seiner Eröffnungsansprache zur Jahreskonferenz des Biometric Consortiums, hätte man mit „Privatsphärebedenken, Mangel als politischem Willen, unzureichender Finanzierung, fehlender Infrastruktur“ zu kämpfen gehabt – all dies wäre nun wie weggewischt.

In den Fokus rückte nach 9/11, etwa mit dem Programm „US-VISIT“ (ab 2005), vor allem die massive biometrische Aufrüstung der Grenzen. Zunächst nur ausgewählte Reisende aus islamischen Ländern, später dann fast alle, die mit Visum in die USA einreisten, wurden nun bei Ein- und Ausreise digital fotografiert und per Scanner daktyloskopisch erfasst. Zugleich wurde der Grenzübergang zur Datensammelstelle: Allein bis 2012 wurden so über 130 Millionen Nicht-US-Bürger*innen in den Datenbanken des Heimatschutzministeriums erfasst, wo ihre Daten bis zu 75 Jahre lang gespeichert werden. Parallel zur Reform der Einreisebestimmungen drängten die USA jene Staaten, deren Bürger*innen bislang ohne Visum einreisen konnten – darunter die Länder der EU –, zur Einführung „maschinenlesbarer“ Reisepässe, die die Speicherung biometrischer Daten erlauben. Mit allzu großem Widerstand mussten sie nicht rechnen. Denn auch hierzulande verknüpfte man nicht allein Sicherheits-, sondern auch ökonomische Interessen mit dem neuen biometrischen Passregime: „Die Pässe“, so formulierte es Otto Schily, Bundesinnenminister und später in den Aufsichtsräten gleich zweier Biometrie-Unternehmen aktiv, „sind auch ein Wirtschaftsfaktor. Wir zeigen, dass Deutschland das Knowhow und die Innovationskraft hat, um im jungen Sektor Biometrie Standards zu setzen.“

Die Einführung der e-Pässe in den 2000er Jahren war mithin auch eine staatliche Fördermaßnahme für die „Zukunftsbranche“ Biometrie. Nicht zuletzt boten Grenzkontrollen ideale Einsatzbedingungen für deren immer noch fehleranfällige Technologie: Stabile Umweltbedingungen, überwiegend kooperative Individuen sowie auch technisch relativ einfach zu lösende Aufgaben. Denn die Verifikation, also der 1:1-Vergleich der Merkmale bei der Passkontrolle, ist weit unkomplizierter als etwa der Abgleich eines unbekannten Gesichts in der Menge mit großen Mengen von Fahndungsbildern. Aus Sicht der Sicherheitsbehörden war jedoch letzteres nach wie vor die eigentliche Herausforderung. Insbesondere mit dem Ausbau der Videoüberwachung im öffentlichen Raum gewann die Idee, den kaum mehr von menschlichen Augen überschaubaren Bilderstrom elektronisch auszuwerten, an Fürsprecher*innen. Auch das BKA wurde wieder aktiv. Im Oktober 2006 startete man im Mainzer Hauptbahnhof einen viermonatigen Testlauf der automatisierten „Foto-Fahndung“. Ähnlich wie jüngst am Südkreuz waren auch hier die Gesichter von Freiwilligen zuvor gescannt worden – und sollten nun von „smarten“ Überwachungskameras im täglichen Pendlerstrom identifiziert werden. Das Ergebnis: Die Trefferraten im Feldversuch entsprachen nicht annähernd jenen, mit denen die Hersteller der Systeme warben, und waren für den praktischen Einsatz völlig ungenügend. In der öffentlichen Berichterstattung jedoch wurde der Testlauf als erfolgreiches Pilotprojekt dargestellt – der flächendeckende Einsatz der Technologie stand, wieder einmal, unmittelbar bevor.[7]

Die neuen Player

Bis weit in die Nullerjahre war automatisierte Gesichtserkennung vor allem eine Sache spezialisierter Firmen der Sicherheitsbranche. Seit rund zehn Jahren allerdings drängen ganz neue Player auf den Markt – nicht zuletzt die Internetgiganten Facebook, Google und Amazon. Auch aus Angst vor neuer Konkurrenz warnte schon 2011 der bereits zitierte Joseph J. Atick vor einem „perfekten Sturm“, der sich durch die Konvergenz von Smartphones, Social Media und Künstlichen Neuronalen Netzen ankündigte und Bürgerrechte in nie gekanntem Ausmaß bedrohte. Die Milliarden bereits namentlich identifizierbarer Bilder von Gesichtern, die mittlerweile online verfügbar waren, boten ideale Trainings- und Testbedingungen für neuartige Gesichtserkennungsalgorithmen, die nicht mehr auf vorgegebene Regeln der Auswertung, sondern auf machine learning setzten. Nicht zufällig können sich soziale Netzwerke wie Facebook mittlerweile der leistungsfähigsten Algorithmen der Bilderkennung rühmen – denn jedes Mal, wenn jemand ein Bild von sich hochlädt oder eine*n Bekannte*n auf einem Foto erkennt und taggt, wirkt er oder sie am Aufbau von Facebooks Bilddatenbanken und damit indirekt auch am Training seiner Algorithmen mit. Bilder von Gesichtern sind damit zur wertvollen Datenressource geworden – und zum Anker, der es erlaubt, beliebige Aufnahmen ein und derselben Person, in ganz unterschiedlichen Kontexten und selbst ohne deren Wissen erstellt, miteinander zu verknüpfen. Das Beispiel Clearview, das seinen Kund*innen – darunter Polizeibehörden ebenso wie Unternehmen und sogar Privatleute – verspricht, jedes beliebige Gesicht innerhalb von Sekunden im Abgleich mit Milliarden von Bildern aus sozialen Netzwerken zu identifizieren, zeigt, dass der „perfekte Sturm“ längst Realität ist.

Lehren aus der Geschichte

Was lässt sich angesichts dessen aus der Geschichte, die hier skizziert wurde, lernen? Automatisierte Gesichtserkennung ist nicht über Nacht zum Thema geworden – sie wurde über Jahrzehnte massiv gefördert, in einer konzertierten Anstrengung staatlicher Behörden und kommerzieller Unternehmen, begleitet von einem populären Diskurs, der selbst, wo er sich technikkritisch gab, viele konkrete Probleme der Technologie ausblendete. Die Geschichte der automatisierten Gesichtserkennung ist eine Geschichte der gescheiterten Feldversuche und Testläufe – die in immer größeren Maßstäben durchgeführt werden, aber praktisch nie die Versprechen erfüllen, die Politik und Medien an sie knüpfen. Und dennoch ist sie eine Geschichte der Erfolgsmeldungen – weil das Interesse, auch problematische Ergebnisse als Erfolge zu verkaufen, einfach zu stark war.

Und die Probleme lagen und liegen nicht allein in den Fehlerraten. Völlig ungelöst ist auch ein Problem, mit dem schon Takeo Kanade in den 1970er Jahren zu tun hatte: Selbst die neueste Software erkennt nicht jedes Gesicht mit der gleichen Zuverlässigkeit, vielmehr werden gerade Menschen mit dunklerer Hautfarbe schlechter erkannt als solche mit hellerer Haut. Der flächendeckende Einsatz von Gesichtserkennungssoftware, das zeichnet sich jetzt schon in den USA ab, führt mithin zur Verstärkung bestehender polizeilicher Diskriminierung.[8]

Und nicht zuletzt, das zeigt das Beispiel Clearview, scheint eine Kontrolle des Einsatzes der Technologie immer schwerer möglich – mit noch unabsehbaren Folgen. Was die Geschichte uns aber definitiv nicht lehren sollte, ist, dass die hier beschriebenen Entwicklungen zwangsläufig seien. Technik ist kein Schicksal, und es ist noch nicht zu spät, eine gesellschaftliche Diskussion zu beginnen, ob und unter welchen Bedingungen automatisierte Gesichtserkennung künftig unseren Alltag bestimmen soll.

[1] zit. nach Kontraste: Millionenfach unnötige Personenkontrollen durch Gesichtserkennung?, ZDF v. 23.11.2018 (https://www.youtube.com/watch?v=kpkTtkKpAwM)

[2] Chaos Computer Club: Pressemitteilung v. 13.10.2018 (www.ccc.de/de/updates/2018/debakel-am-suedkreuz)

[3] Max-Planck-Institut für Bildungsforschung: Unstatistik des Monats. „Erfolgreiche“ Gesichtserkennung mit Hunderttausenden Fehlalarmen, Meldung v. 30.10.2018, (www.mpib-berlin.mpg.de/unstatistik-gesichtserkennung-mit-fehlalarm)

[4] Bundesministerium des Innern: Pressemitteilung v. 11.10.2018 (www.bmi.bund.de)

[5] Die folgenden Ausführungen basieren auf meinem Buch: Operative Porträts. Eine Bildgeschichte der Identifizierbarkeit, Konstanz 2019. Dort finden sich auch alle weiteren Quellen und ausführliche Nachweise.

[6] vgl. Gates, K. A.: Our Biometric Future. Facial Recognition Technology and the Culture of Surveillance, New York; London 2011, S. 63–96

[7] vgl. Kammerer, D.: Bilder der Überwachung, Frankfurt a.M. 2008, S. 216–226

[8] Dieses Problem wird unter dem Stichwort algorithmic bias diskutiert, eine aktuelle Einführung in die Debatte liefert: Benjamin, R.: Race After Technology: Abolitionist Tools for the New Jim Code, Cambridge 2019

Bürgerrechte & Polizei | CILIP