Hollywood-Algorithmik

Hollywood-Algorithmik

Summary

Als eingefleischter Informatiker hat man es nicht leicht: irgendwie haben alle fachfremden Schreiber eine grundlegend andere Auffassung von Themen aus der Informatik als echte Informatiker - sowohl in der Belletristik als leider auch in den Nachrichten.

Ich bin ein ziemlich typischer Informatiker. Arbeite 40 Stunden die Woche in einem Ingenieursbüro für Softwareentwicklung, lese relativ viel Science Fiction, finde noch Zeit, ungewöhnliche Open-Source Projekte in die Welt zu setzen, und verfolge aktuelle politische Trends, die grob mit Informatik zu tun haben, recht genau in allerlei Nachrichten. Im Rahmen dessen schreibe ich mir auch nicht gerade selten die Finger wund um auf die Disparität zwischen Informatik und Hollywood-"Informatik" hinzuweisen. Netzpolitik im allgemeinen und Datenschutz im speziellen sind hier häufig Themenspender.

Ähnlich wie die Fehlbenutzung des Wortes "Hacker" durch Medien wird bei der Hollywood-Informatik oft mit schlechten Analogien sowie mit offensichtlich lückenhaften Technikkenntnissen gearbeitet - entweder aus Rhetorikgründen, oder weil es die Leute wirklich nicht besser wissen. In der Belletristik nennt man das Reality is Unrealistic und Hollywood Hacking. In Nachrichten führt es stattdessen zu einer wohlbekannten Geste zwischen Hand und Stirn unter denen, die sich damit auskennen, und Fear, Uncertainty and Doubt bei allen anderen.

Anlass für diesen Artikel ist ganz konkret ein Artikel auf Zeit Online mit dem Titel "Für Algorithmen ist jeder verdächtig". Kai Biermann erklärt hier, wieso man lieber niemandem mit seinen Daten vertrauen sollte. Soweit hat der Mann absolut recht. Das ist nur nichts neues. Jeder Informatiker dürfte eigentlich schon immer davon ausgegangen sein, dass jede Handlung, die mit einem Computersystem verbunden ist, auch protokolliert wird. Einfach weil Computer so arbeiten: schließlich möchte man sicher gehen, dass der nächste Cracker - das eigentliche Wort für den "Hacker" aus den Medien - auch ausfindig gemacht wird.

Jeder Computerbenutzer war sich bis vor wenigen Jahren darüber absolut im Klaren, genau so wie sich jeder Heimwerker darüber im klaren ist, dass die Hand halt ab ist, wenn man sie in eine Kreissäge hält. Und, dass die so gesammelten Daten jetzt mit diesem PRISM ausgewertet werden, das war eigentlich auch schon längst klar. Das analoge Äquivalent ECHELON hat schließlich seit den 1970ern das exakt gleiche getan - nur eben nicht bei Internetdaten sondern beim Telefon. Unsere Bundesbehörden gehen sogar noch einen Schritt weiter, was man gemeinhin schon bald seit einem Jahrzehnt dann den "Bundestrojaner" getauft hat. Die Vorratsdatenspeicherung, auf die unsere Regierung so stolz zu sein scheint, ist ja mitunter genau wegen sowas auch problematisiert worden. Die schizophrene Rolle unserer Datenschützer in all dem, mit dem Medienfokus auf banalen Facebook-Like-Buttons aber mysteriös wenig Kritik an RFID-Chips und Fingerabdrücken in Ausweisen, biometrischen Daten im Reisepass und der Opt-Out-Bestandsdatenauskunft über Einwohner beim zuständigen Meldeamt wird nicht gerade besser.

Algorithmen funktionieren nicht so

Gut, das meiste davon kann man mit dem guten alten Spruch You've made your bed, now lie in it abwimmeln - schließlich sind wir ja auch selbst Schuld, wenn wir Leute ins Amt wählen, die so etwas beschließen. Aber wenn wir darüber reden, dann doch bitte technisch akkurat. Was mir als Informatiker daran aufstößt, ist nicht etwa, dass der Autor auf die Problematik aufmerksam macht. Die Problematik ist real. Vielleicht stört es mich, dass es jetzt ausgerechnet im Rahmen von PRISM als etwas "ganz neues, nie dagewesenes" präsentiert wird. Aber das ist auch noch nicht schlimm, das ist bei dem Format quasi zu erwarten.

Mein Problem ist hier, wie der Begriff Algorithmus in dem Artikel verwendet, beschrieben und fehlrepräsentiert wird. Ähnlich wie die furchtbare Verunglimpfung des Wortes Hacker in den Medien - wird oft als Synonym für Cracker verwendet, beschreibt aber eigentlich nur einen stinknormalen Programmierer - zeichnet dieser Artikel ein verzerrtes Bild, welches sich gerade als Norm zu etablieren scheint: der Algorithmus ist ein zweischneidiges Hilfsmittel, welches reguliert gehört. Der Hinweis auf das "Plädoyer für eine Algorithmen-Ethik" hilft hier nicht gerade, wobei dieser Artikel noch ein wahrheitstreueres Bild von Algorithmen zeichnet.

Lese ich also Herrn Biermanns Artikel, so entsteht in meinem inneren Auge der Eindruck, dass so ein Algorithmus nichts anderes ist als ein Hilfsmittel, um Unmengen an Daten zu filtern. Mein inneres Auge würde hier auch noch das Bild vom T-800 ohne Haut einblenden. Mit diesem Verständnis macht auch die Forderung nach einer Algorithmen-Ethik sehr viel Sinn. Daher meinte ich auf Twitter auch: gute Panikmache.

In Wirklichkeit ist ein Algorithmus aber wesentlich vielfältiger. Laut Duden ist ein Algorithmus ein "Verfahren zur schrittweisen Umformung von Zeichenreihen; Rechenvorgang nach einem bestimmten [sich wiederholenden] Schema". In der Informatik ist besonders der zweite Teil relevant. Es gibt natürlich eine Klasse von Algorithmen, die Muster erkennen, aber das ist ein fast verschwindend geringer Teil. Die meisten Algorithmen machen so Dinge wie Winkel im Dreieck ausrechnen, beim Tippen am Computer die Zeichen auf dem Bildschirm erscheinen zu lassen, oder etwa auch eine Webseite von den Rohdaten in ein Bild zum Anzeigen umwandeln. Alles, was ein Computer macht ist eine lange Folge von Algorithmen. In analogen Analogien: Kochrezepte und Stickmuster sind ebenfalls Algorithmen. Hier macht die Forderung nach der Algorithmen-Ethik irgendwie keinen Sinn mehr.

Das Problem sind nämlich nicht die Algorithmen. Das Problem sind die Daten, die die Algorithmen haben.

Transparenz & Ablenkung vom Wesentlichen

Im Artikel wird bemängelt, dass die Algorithmen von Google, Amazon & Co. nicht transparent wären. Das stimmt so nicht wirklich. Insbesondere Google hat durchaus den Algorithmus, den sie für Suchen verwenden, veröffentlicht. Im Lauf der Zeit wurden natürlich Anpassungen an dem Algorithmus vorgenommen - aber diese stützen sich hauptsächlich auf die Daten die sie eben haben, und sind im Allgemeinen eher weniger fundamental. Ähnliches gilt bei Projekten wie PRISM: es ist absolut klar, was für ein Algorithmus dem ganzen zu Grunde liegt: eine Mustersuche. Die Konzepte dazu lernt man in jeder Einstiegsvorlesung zu Stochastik - sowohl bei Informatikern als auch bei Mathematikern. Die Kenntnis über Funktionsweise und Verhalten dieser Algorithmen ist an den meisten Universitäten sogar Voraussetzung, um einen Abschluß in irgendeinem naturwissenschaftlichen oder mathematischen Fach zu erhalten.

Das Problem sind nicht die Algorithmen. Es sind die Daten. Ein mustersuchender Algorithmus sucht nicht nach Personen am Flughafen, die einen zu hohen oder zu niedrigen Puls haben. Das ist etwas, das vielleicht ein Polizist anhand seines polizistischen Gespürs in Betracht ziehen würde - eine sehr analoge Vorgehensweise, die exakt das Gegenteil zu der im Artikel erwähnten Big Data vorgehensweise darstellt. Ein solcher Algorithmus nimmt vielleicht einen Pulswert und vergleicht ihn mit dem eines vorher als "Terrorist" markierten Datensatzes und mit den Pulswerten von den unzähligen anderen "nicht-Terroristen". Danach wird für diesen Faktor ein Wert generiert, dem Subjekt zugewiesen und der Algorithmus wird mit unzähligen anderen Faktoren wiederholt. Mein Gefühl sagt mir hier: der Puls ist irrelevant, weil ordentliche Terroristen abgebrüht genug sind um normal zu wirken. Bei Big Data Analysen würde das Kriterium daher vermutlich rausfallen.

Das funktioniert aber nicht wirklich hundertprozentig - ein Faktum, dessen sich die Benutzer solcher Algorithmen durchaus auch bewusst sind. Solche Auswertungen sind immer maximal ein Indiz - eines von vielen.

Definitiv falsch ist aber der Schluss, dass durch so etwas jeder von vornherein verdächtig ist. Im Gegenteil. Durch solche Maßnahmen sind speziell erst die verdächtig, die eine statistisch signifikante Ähnlichkeit zur Zielgruppe aufweisen. Ein analoger Vergleich wäre hier, sich gegen Streifenpolizei einzusetzen, denn damit wären alle Personen, auf die die Streifenpolizisten treffen, unter Verdacht etwas angestellt zu haben. Sind sie aber nicht: Personen werden erst "verdächtigt" wenn die Polizisten denken "hey, der sieht irgendwie verdächtig aus, ich frag' mal nach seinem Ausweis".

Daten-Ethik und mangelndes Interesse

Das ist aber auch egal, denn die Algorithmen werden so oder so nur eins berechnen: wie ähnlich ist ein Subjekt zu einer Gruppe von Subjekten, die vorher als Terroristen markiert wurden. Der Algorithmus dazu ist irrelevant, die funktionieren bei so etwas alle exakt gleich. Was wir also brauchen ist eine Daten-Ethik. Und das Problem hierbei ist: die Öffentlichkeit interessiert sich nicht dafür.

Klar, die Öffentlichkeit meckert, wenn Thilo Weichert berichtet, dass Benutzerdaten von allen Webseiten an Facebook in den USA gesandt werden - oder halt auch nicht. Aber wenn dann stattdessen die Regierung die Vorratsdatenspeicherung oder Stopp-Schilder im Internet beschließt, da hat dann plötzlich keiner ein Problem mehr. Spätestens nicht mehr, wenn unser Von-der-Laie - SCNR - alle Widerspenstigen pauschal mit dem Schutz-vor-Pädophilen-Argument abwürgt. Schöner Totschläger. Ist immer der oder der gute alte Schutz vor Terroristen. Natürlich sind dann alle, die so etwas problematisieren wollen auch gleich potentiell schwerst pädokriminell oder terroristisch veranlagt.

Schon praktisch, wenn einem die Öffentlichkeit so bereitwillig die Propagandaarbeit abnimmt und den Mist dann auch noch glaubt. Und was hat unsere Angie dann beim Gespräch mit Obama zu PRISM besprochen? Even money says: "hey, next time you do stuff like that, tell me in advance I'm sure we can cut a deal" - "I'm sure we did?". Oder glaubt etwa irgendjemand im Ernst, dass der BND nicht exakt das gleiche macht? Sind halt noch nicht ertappt worden. Oder halt, da war die Sache mit dem Bundestrojaner... ups.

Written by Magnus Deininger ().