Def Con 26: Forscher legen Stimmerkennung mit Maschinenlernen herein

Quelle: https://www.maclife.de/news/stimme-nicht-einzigartig-forscher-tricksen-siri-maschinenlernen-100105979.html

Autor: Alexander Trust

Datum: 13.08.18 - 15:51 Uhr

Stimme nicht einzigartig: Forscher tricksen Siri mit Maschinenlernen aus

Def Con 26: Forscher legen Stimmerkennung mit Maschinenlernen herein. John Seymour und Azeem Aqil präsentierten auf der IT-Sicherheitskonferenz Ergebnisse ihrer Nachforschungen. Sie könnten Apples Siri und auch Microsofts Cloud-Service hereinlegen, indem Sie mit Maschinenlern-Algorithmen synthetische Stimmen erzeugten, die möglichst nah am Original liegen.

Vor kurzem fand in den USA die Def Con 26 statt. Auf dieser IT-Sicherheitskonferenz stellen „Hacker“ und IT-Forensiker gleichermaßen ihre Ergebnisse vor. Ziel dieser Veranstaltung ist, aufzuzeigen, wie leicht manche Systeme zu umgehen sind. Tatsächlich gelang es in diesem Jahr sogar einem Elfjährigen, sich in das elektronische Wahlsystem Floridas zu hacken.

Nutzen Sie Ihre Stimme nicht als Passwort

Darüber hinaus gelang es Forschern, die Stimmerkennung von diversen Dienstleistern auszutricksen. Prominenteste Opfer waren Apples Siri und Microsofts Stimmerkennung in der Azure-Cloud.

Diese Beispiele sollten Ihnen Mahnung genug sein, nicht darauf zu vertrauen, dass ein System Ihre Stimme von allen anderen unterscheiden kann. Denn mit Hilfe von Maschinenlern-Algorithmen gelang es Seymour und Aqil unter Zuhilfenahme von Googles Text-to-Speech-System Tacotron 2 die vorher genannten System und weitere hereinzulegen.

300 Minuten Stimmaufzeichnungen reichen aus

Damit das System Resultate liefert, die möglichst nah an der echten Stimme liegen, benötigt es eigentlich hochwertige Audioaufnahmen, die rund 24 Stunden dauern. Doch Seymour und Aqil reichten am Ende lediglich 300 Minuten.

Sie zeichneten zunächst zehn Minuten der Stimme einer Person auf, und zerschnitten das Audiomaterial in zehn Sekunden lange Schnipsel. Dazu weiteten Sie Ihre Datensätze für das Training des ML-Algorithmus um Daten aus den Open-Source-Datenbanken Blizzard und LJ Speech aus.

Ausgetrickst

Menschliche Hörer konnten im späteren Hörtest keinen Unterschied zwischen der Computerstimme und dem Original wahrnehmen. Doch auch Apples Siri und Microsofts Azure fielen auf die Computerstimme herein.