Alexa und Co hören alles – IT-Forscher*innen deckt Sicherheitslücke auf

Bild: Hört mit: Amazons Alexa könnte manipulierte Befehle erhalten, wie Bochumer Forscher*innen herausfanden. , IT-Forscher*innen gelingt Angriff auf Spracherkennungsassistenten Symbolbild

IT-Sicherheit. Bochumer Forscher*innen ist es gelungen, auf der Spracherkennungssoftware Kaldi basierende Geräte durch versteckte Audiosignale anzugreifen.

Sprachassistenten wie Amazons Alexa, Siri oder Cortana sollen das Leben erleichtern und beispielsweise in so genannten Smart-Homes die Heizung oder die Steuerung der Beleuchtung per Sprachbefehlen ermöglichen. Vermutlich basieren viele dieser Assistenten auf der Open Source-Software Kaldi; diese wurde erfolgreich von IT-Sicherheitsforscher*innen rund um Prof. Dorothea Kolossa und Prof. Thorsten Holz vom Horst-Görtz-Institut für IT-Sicherheit angegriffen. Die Bochumer Forscher*innen haben bewiesen, dass sich in Sprache, Musik oder auch Vogelgezwitscher geheime Botschaften für die Sprachassistenz verstecken lassen können, die für das menschliche Gehör so nicht wahrnehmbar sind, von der Software jedoch deutlich herausgehört werden können. Um Befehle für Spracherkennungssoftware in Audiodateien zu verstecken, habe man sich des psychoakustischen Models des Hörens bedient, respektive der lautstärke- und frequenzabhängigen Effekte der Maskierung. „Wenn das Gehör damit beschäftigt ist, einen lauten Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden auf dieser Frequenz andere, leisere Töne nicht mehr wahrnehmen“, erklärt Kolossa, die Professorin für Kognitive Signalverarbeitung ist. Eben jenes Prinzip macht man sich beim MP3-Format zunutze, hier werden für das menschliche Gehör nicht wahrnehmbare Bereiche ausgespart, um die Dateigröße zu verringern. In diesen Bereichen verstecken die Forscher*innen ihre Geheimbotschaften. Die manipulierte Audiodatei weist für den Menschen höchstens ein Rauschen auf, für die Maschine ändert sich jedoch der Sinn des Satzes
.

Bisher keine Gefahr

Zwar nutzt das IT-Sicherheitsteam für ihre auf der eigenen Website beispielhaften Angriffsszenarien Audiosignale, die den Sprachassistenten dazu verleiten würden, etwaige Überwachungskameras zu deaktivieren und Türen zu öffnen, doch Kolossa gibt vorerst Entwarnung: „Wir speisen die modifizierte Audiodatei direkt in das System ein, ohne den Umweg über Lautsprecher, Luft und Mikrophon.“ Zwar sei auch die Möglichkeit der direkten Übertragung über den Luftkanal denkbar und solle im nächsten Schritt der Untersuchungen erprobt werden, doch hier müssten die Störungen möglicherweise viel lauter – und so auch deutlich erkennbarer – sein.
Eine weitere Hürde ergibt sich durch die Tatsache, dass es sich bei dem Angriff auf die Software Kaldi um einen so genannten „White-Box Angriff“ handelt, dass also alle Parameter genau bekannt sind. Es ist also bisher auszuschließen, dass die heimische Alexa zu einer ernstzunehmenden Gefahr wird. Für Hersteller sei dies jedoch kein Grund zur Entwarnung, sie müssten in jedem Falle nachbessern. Die gute Nachricht: „Einige sinnvolle Verteidigungsmechanismen gegen unsere psychoakustische Maskierung gäbe es – zum Beispiel gibt es keinen wirklich wichtigen Grund, warum Sprachassistenten Teile des Audiosignals benutzen müssen, die Menschen auch nicht wahrnehmen können“, berichtet Kolossa. Jedoch sei nicht auszuschließen, dass auch andere Lücken außer dem MP3-Prinzip ausgenutzt werden könnten.

:Justinian L. Mantoan