Datenschutz. Ein Forscher:innen-Team der RUB und des Max-Planck-Instituts für Cybersicherheit und Schutz der Privatsphäre (MPI-SP) fand heraus, dass Sprachassistenten Lautsegmente teilweise als Aktivierungsworte wahrnehmen und persönliche Gespräche mitzeichnen.
Die „Tagesschau“, die „Süddeutsche Zeitung“ und der YouTube Kanal „STRG-F“ sind nur drei Beispiele für deutsche Medien, die sich in den vergangenen Tagen mit der Studie eines Forscher*innen-Teams des Hans-Görtz Instituts (HGI) an der RUB und des Max-Planck-Instituts (MPI) auseinandergesetzt haben. Dass Sprachassistenten sich bisweilen unaufgefordert einschalten und persönlichste Gesprächsfetzen mitzeichnen, mag den:die ein oder andere:n nicht mehr wirklich überraschen; das Team um Torsten Eisenhofer, Jan Wiele, Lea Schönherr, Dr. Maximilian Golla und Prof. Dorothea Kolossa hat nun aber aufgedeckt, wann und wie oft die kleinen „Helferchen“ potenziell tatsächlich zuhören. Dazu testeten sie Smart Speaker von Amazon, Apple, Google, Microsoft und Deutscher Telekom sowie drei chinesische Modelle auf das Erkennen von Worten und Lauten. Sie stellten fest, dass die Sprachassistenten auf „Fehltrigger“ reagieren: Sprachsequenzen, die Überschneidungen mit den eigentlichen Aktivierungswörtern der Geräte aufweisen.
Alexa hört so unter anderem auch auf „unacceptable“, Siri auf „Daquiri“ und „a city“ und „Google“ auf „Ok, cool“. Das Forscher:innen-Team hat die Smart Speaker wochenlang mit professionellen Audiodatensets als auch Nachrichtensendungen und Fernsehserien wie „Game of Thrones“ und „Das Traumschiff“ beschallt. Am Ende der Untersuchungen ergab sich eine Liste aus rund 735 unabsichtlichen Aktivierungen auf Englisch (an 16 Tagen) und 180 auf Deutsch (an sieben Tagen), welche weiter aktualisiert werden soll. Im deutschsprachigen Raum schalteten sich besonders oft die Geräte von Amazon ein. Zu erklären sind die Fehltrigger vermutlich dadurch, dass die Geräte, so drückt es Dorothea Kolossa aus, „mit Absicht etwas liberal programmiert“ sind, um ihre Benutzer:innen möglichst gut zu verstehen. So springen sie teilweise auf die kleinsten Klangeinheiten in Wörtern an. Als die Forscher:innen die Fehltrigger-Begriffe zerlegten, identifizierten sie diese Klangeinheiten und konnten mit ihnen neue Fehltrigger-Wörter erstellen. Die Auswertung eines (Fehl-) Triggers wird als zweistufig beschrieben: Wenn das Gerät ein Trigger- beziehungsweise Aktivierungswort in der aufgenommenen Umgebung vermutet, lädt es das Gespräch für eine bessere Analyse in die Cloud des:r Herstellers:in hoch. Wenn der Begriff dort als Fehltrigger identifiziert wird, leuchtet lediglich die Kontrolllampe am Gerät kurz auf. Die aufgenommene Audiosequenz befindet sich dann bei dem:r Hersteller:in und teilweise Menschen, die diese transkribieren. So behaupteten drei ehemalige Angestellte von Firmen, welche für Apple und Amazon Aufnahmen überprüfen, gegenüber der “Tagesschau” Arbeitsbesprechungen, Streits und Sex mitgehört zu haben. Obwohl die Speicherung und Überprüfung von ungewollt aufgenommenen Informationen ganz klar ein datenschutzrechtliches Problem darstellen, sind sie „aus Engineering-Sicht“ auch nützlich, erläutert Prof. Thorsten Holz vom HGI-Lehrstuhl für Systemsicherheit. Schließlich könnten die Systeme so effizient optimiert und sicherer gemacht werden, was wiederum zu weniger Fehltriggern führe – da eine gute Balance zu finden, sei sehr schwierig. Ob die Gesprächsfetzen anonymisiert sind, von Menschen oder Maschinen überprüft werden, inwiefern für die Sprachverbesserung überhaupt aufgezeichnet wird oder Aufnahmen aus der Vergangenheit gelöscht werden können, ist von Hersteller:in zu Hersteller:in unterschiedlich: Wenn Du mehr über die Studie wissen oder von den Expert*innen erfahren möchtest, wie es um Deinen Smart Speaker steht und was Du tun kannst, um Fehltrigger und Aufnahmen zu vermeiden, besuche gerne die Website zum Projekt des Bochumer Forscher:innen-Teams:unacceptable-privacy.github.io.
:Marlen Farina
0 comments