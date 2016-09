Sprachassistenten wie Siri, Ok Google und Cortana sind im Alltag angekommen. Doch wie intelligent sind sie wirklich? Und werden sie eines Tages vollwertige Kommunikationspartner sein? Thomas Raukamp unterhielt sich mit zwei Experten von der Universität Bielefeld: dem Computerlinguisten Professor Dr. David Schlangen sowie dem Seniorprofessor für Künstliche Intelligenz Professor Dr. Ipke Wachsmut.

(Bild: Mac Life)

„Ich habe Angst, Dave. Dave, ich verliere den Verstand. Ich kann es fühlen.“ Es ist ein zu Herzen gehender Monolog, ein tiefer Wunsch nach Zuneigung, ein letztes verzweifeltes Signal vor dem unausweichlichen Verlöschen. Das nicht einmal von einem Menschen stammt. Der Gefühlsausbruch entspringt einem der berühmtesten Individuen der Filmgeschichte – dem Computer HAL 9000, die immanente Intelligenz des Jupiter-Raumschiffs „Discovery“ aus Stanley Kubricks Meisterwerk „2001: Odyssee im Weltraum“. Professor Dr. Ipke Wachsmut schmunzelt, wenn er an den neurotischen Rechner aus der Fantasie des britischen Physikers und Science-Fiction-Autors Sir Arthur C. Clarke denkt. „Na ja, das Empfinden von Angst nimmt man HAL nicht so recht ab“, sagt er. „Es wirkt eher wie eine Finte, mit der er sein Abschalten verhindern möchte. Dass Computer – wenn sie dem Menschen durch eine körperliche Erscheinung gegenübertreten oder emotional auf Dialogeingaben reagieren – irgendwann den Eindruck einer Persönlichkeit vortäuschen werden, erwarte ich jedoch durchaus.“ Wachsmut kann sich so eine Spekulation leisten – immerhin befasst er sich lange genug mit dem Thema der Interaktion zwischen Mensch und Maschine. Der deutsche Forscher lehrte 25 Jahre Künstliche Intelligenz an der Universität Bielefeld und arbeitet heute dort als Seniorprofessor am „Exzellenzcluster Kognitive Interaktionstechnologie“. Seine Begeisterung für die Kommunikation mit vermeintlich intelligenten Maschinen ist ungebrochen: „Mich fasziniert, dass der Eindruck eines ,Gegenübers’ entsteht, mit dem ich im Dialog Aufgaben kooperativ so angehen kann wie mit einem menschlichen Gesprächspartner.“

Mein geliebter künstlicher Freund

Die Faszination für den Austausch mit einem künstlichen Gegenüber ist es auch, die die Arbeit seines Kollegen Dr. David Schlangen antreibt. Der Professor für angewandte Computerlinguistik an der Universität in Bielefeld forscht zu Dialogsystemen, mit denen man per gesprochener Sprache interagiert – wie eben Apples Siri. „Mich interessiert besonders, wie ein gemeinsames Verständnis erzeugt wird“, erklärt er. „Dazu reicht es nicht, nur den Inhalt des Gesagten zu verstehen. In der freien Interaktion sind Signale wie etwa ein kurzes Kopfnicken oder auch ein fragender Blick viel flexibler, als wir das bisher von Systemen wie Siri kennen.“

Mit populären intelligenten Sprachbegleitern wie Siri, Ok Google und Microsoft Cortana hat der verbale Austausch mit dem Computer endlich seinen Weg aus den Forschungslaboren von Universitäten und der Fantasie von Science-Fiction-Fans hinein in den Alltag von Millionen von Anwendern gefunden. Gerade Apple hat hier Pionierarbeit geleistet: „Für die Industrie und unser Forschungsfeld war die Einführung von Siri ein wichtiges Ereignis“, stimmt Schlangen zu. „Nach einer langen, eher ruhigen Zeit ist Sprachtechnologie für viele Firmen jetzt zur Priorität gereift.“ Und dieses Interesse strahlt aus: „Das ist gut für unsere Studierenden und Doktoranden, weil sie gut bezahlte Positionen außerhalb der Unis finden – und für die Forschung, weil gute Ideen zurückfließen.“ Langfristig könnten daraus jedoch nicht nur Vorteile erwachsen: „Mit den Gehältern, die Google, Apple und Microsoft zahlen, können öffentliche Institutionen nicht konkurrieren. Momentan scheinen die Unternehmen es noch als vorteilhaft zu erachten, ihre Ergebnisse zu teilen. Das muss nicht so bleiben.“

Peinliche Siri?

Apple führt Siri mit dem neuen macOS Sierra auch auf dem Desktop ein, Google bewirbt seinen Sprachassistenten sogar in TV-Spots. Die Akzeptanz sprachgesteuerter Systeme in der Öffentlichkeit ist allerdings noch nicht allzu hoch. Laut einer Umfrage der US-amerikanischen Marktforschungsagentur Creative Strategies geben zwar 98 Prozent aller iPhone- beziehungsweise iPad-Nutzer an, Siri bereits mindestens einmal ausprobiert zu haben, 70 Prozent nutzen den Dienst sogar regelmäßig – nur 3 Prozent sprechen jedoch öffentlich mit Siri. Warum diese Zurückhaltung? „Mit Siri führt man ja keine Unterhaltungen, sondern will primär einzelne Informationsbedürfnisse befriedigt sehen“, vermutet Schlangen, „diese anderen zu offenbaren ist vielleicht oft ein wenig peinlich. Hinzu kommt, dass immer noch zu viele Interaktionen nicht erfolgreich sind und man sich bei mehrfacher Wiederholung in der Öffentlichkeit etwas blöd vorkommt.“

Sprachsysteme kommen nach Meinung beider Forscher erst dann endgültig in der Mitte der Gesellschaft an, wenn sie einen echten Mehrwert gegenüber anderen Eingabeverfahren bieten. „Die Schwachstelle ist inzwischen nicht mehr so sehr das Verstehen einfacher Befehle, sondern die Intelligenz hinter den Antworten“, gibt Schlangen zu bedenken. „Mit Faktenfragen kommt Siri offenbar ganz gut zurecht und berücksichtigt dabei auch Wissen über den individuellen Nutzer“, weiß auch Wachsmut. „Aber es gelingt kein kohärenter Dialog über mehrere Anfragen hinweg – der Diskurskontext geht verloren und Siri beantwortet Folgefragen wie Einzelanfragen. Da wäre noch einiges zu tun.“ Trotzdem weiß Siri auch die beiden Spezialisten zu begeistern: „Ich bin immer noch beeindruckt davon, wie gut die Spracherkennung – also die Umsetzung der gesprochenen in geschriebene Sprache – ist“, sagt etwa Schlangen. „Hier gab es einen unfassbaren Qualitätssprung in den vergangenen fünf Jahren. Aber ich bin gelegentlich enttäuscht davon, dass Siri das doch eigentlich korrekt Erkannte dann nicht richtig umsetzt.“

Humor als Schrittstein

Ein wichtiger Schritt zur Akzeptanz künstlicher Systeme als ernstzunehmender Kommunikationspartner ist die Simulation menschlicher Eigenschaften über die reine Sprach- und Informationswiedergabe hinaus. Humor ist dabei ein wichtigere Meilenstein – nicht umsonst weiß Siri auf Apple-Keynotes immer wieder durch humoristische Anwandlungen zu unterhalten. Auch Ipke Wachsmut weiß um deren Wichtigkeit – und das aus eigenen Experimenten: Der an der Universität Bielefeld entwickelte künstliche Gesprächspartner „Max“ kommt im „Heinz  Nixdorf MuseumsForum“ in Paderborn bei seinen Besuchern mit witzigen Bemerkungen gut an. Wie bei Siri sind diese aber ausschließlich „andressiert“. „Humor wirklich zu verstehen ist eine große Herausforderung für die Künstliche Intelligenz“, weiß Wachsmut – und verweist auf ein populäres, wenn auch fiktives Beispiel: „Im Science-Fiction-Film ,Nummer 5 lebt!’ aus dem Jahr 1986 erlernt der Roboter den Humor erst ganz am Schluss – der Zuschauer erhält so einen Eindruck von der zugrunde liegenden Komplexität.“ Echte Gefühle oder gar Intuition auf Seiten des Computers sieht der Forscher daher folgerichtig eher im Bereich der Science-Fiction: „Die Intelligenz von Siri beschränkt sich derzeit auf das – zuweilen programmiert humorvolle – Beantworten von Fragen des Nutzers und das Ausführen von Kommandos, die man sonst manuell eingegeben müsste – also etwa Kalendereinträge, Erinnerungen, E-Mails, Kurznachrichten, den Wecker und die Navigation.“ Das wird, so Wachsmut, geschickt mit individuellem Wissen über den Nutzer kombiniert, sodass der Eindruck eines mitdenkenden Assistenten entstünde.

Buchtipp: Menschen, Tiere und Max

Möwen, Krabben und Marktschreier – ausgehend von Alltagsbeobachtungen verbindet Professor Dr. Ipke Wachsmuth in seinem Buch die Themen Kommunikation und natürliche und Künstliche Intelligenz. Dabei geht es um Sprache und Denken, um Mimik und Gestik – und um die Komplexität hinter den so alltäglich erscheinenden kommunikativen Fähigkeiten von Mensch und Tier. „Menschen, Tiere und Max“ geht jedoch noch weiter und führt in die Welt von Robotern und anderen künstlichen Wesen ein, die unseren Alltag mehr und mehr bevölkern. Und der Leser lernt „Max“ kennen, ein „quicklebendiges“ Beispiel dafür, wie die Schnittstelle zwischen Mensch und Computer in Zukunft aussehen könnte.

Springer Spektrum | 9,99 Euro | E-Book 6,99 Euro

Überhaupt: Siri kann sich vielleicht schon recht sicher E-Mails diktieren lassen und Termine in den Kalender eintragen. Ok Google erkennt sogar semantische Zusammenhänge. Zu einem Plauderstündchen über die Thesen von Albert Camus reicht es indes noch nicht. Was fehlt? „Bis wir mit einem System wie Siri über Existenzialismus plaudern können, wird es mit Sicherheit noch eine ganze Weile dauern“, vermutet Wachsmut mit einem Schmunzeln. „Denn so ein Gespräch erfordert ein komplexes Wissen der Welt.“ Schlangen stimmt ihm zu: „Um zu einer wirklich freien Interaktion zu kommen, müssen Computer die gesamte menschliche Lebenswelt verstehen. Davon sind wir noch weit entfernt.“ Auch er zieht einen Vergleich aus der utopischen Literatur heran: „In Science-Fiction-Filmen klingen sprechende Computer wie Blechkisten, aber sie verstehen kleinste Anspielungen und geben intelligente, hilfsbereite Antworten. In der Realität klingen sprechende Computer hingegen fast perfekt, aber was sie sagen, passt oft nicht.“ Für ganz ausgeschlossen halten die Experten das philosophische Plauderstündchen in Zukunft aber nicht – wenn es gelänge, die umfangreichen Textdatenbanken im Internet anzuzapfen: „Selbst wenn solch ein System die Tiefe der Gedankengänge niemals nachvollziehen kann, könnte es doch Argumente zurückspielen, die einem Menschen den Eindruck sinnvoller Dialogbeiträge vermitteln“, prophezeit etwa Wachsmut.

Professor Dr. David Schlangen … … studierte in Bonn und Edinburgh Computerlinguistik, Informatik und Philosophie. Er arbeitet als Professor für angewandte Computerlinguistik an der Universität in Bielefeld. Sein Hauptforschungsinteresse gilt der Sprachverwendung und der sprachlichen Interaktion. „Siri hat es mir sehr viel leichter gemacht, auf Partys zu erklären, was ich mache“, sagt er lachend. „Früher musste ich immer mühsam beschreiben, was Sprachdialogsysteme sind, heute haben die meisten so ein System in der Hosentasche.“

David Schlangen beschreibt die Herausforderung aus dem Blickwinkel der Computerlinguistik, die er selbst als „an der Schnittstelle zwischen den Geistes- und den informatischen Wissenschaften liegend“ verortet: „Sprache ist immer mehrdeutig. So kann die Beschreibung ,Es ist kalt’ eine Feststellung über das Wetter oder über die Temperatur eines Gegenstands sein – oder die Aufforderung, die Heizung einzuschalten.“ Um zu erkennen, welches davon in einer konkreten Situation das Gemeinte ist, müsse eine Maschine eben die Gesamtsituation erkennen. „Das können aktuelle Systeme nicht, denn sie müssen sich in eng gesteckten Grenzen bewegen – also einem Kommando beziehungsweise einer Frage.“ Gleichzeitig zieht Schlangen einen Bogen zur Forschungsdisziplin seines Bielefelder Kollegen: „In Anlehnung an die Klasse von ,harten’ Problemen in der Informatik, die man NP-vollständig nennt, wird die wirklich tiefe Verarbeitung von Sprache auch KI-vollständig genannt – um diese zu erreichen, muss die Gesamtheit der menschlichen Intelligenz modelliert und somit eine Künstliche Intelligenz geschaffen werden.“

Vorteil Google?

Doch wie trainiert man ein Spracherkennungssystem wie Ok Google, Cortana oder eben Siri? Reine „Handarbeit“ reicht da laut Ipke Wachsmut nicht aus. „Was die Spracherkennung angeht, lernt Siri ständig aus Misserfolgen und Korrekturen, die Apple speichert und für den individuellen Nutzer optimiert.“ Das sei zwar ein großer Durchbruch für die Spracherkennung, für die Verarbeitung der Anfragen reiche es jedoch nicht aus. „Die Trumpfkarte liegt vielmehr in der Verwertung von Internetwissen, das sich Siri und ähnliche Systeme erschließen“, so Wachsmut. „Fragt man Siri nach allgemeinem Wissen, liest sie zum Beispiel die Einleitung eines passenden Artikels aus Wikipedia vor.“

David Schlangen erkennt besonders in der Zurückhaltung seitens Apple gegenüber der akademischen Forschung ein potenzielles Problem für die zukünftige Entwicklung: „Es kann durchaus sein, dass Apple das noch einmal schaden wird, weil sie ihre Produkte nicht mit der nötigen Geschwindigkeit verbessern können und somit nicht auf dem Stand der Kunst bleiben.“ Der Professor für angewandte Computerlinguistik sieht Google daher folgerichtig leicht im Vorteil: „Man vermutet, dass Google im Bereich des maschinellen Lernens von Antwortstrategien einen Vorsprung hat – aber wie sich das auswirkt, ist schwer zu sagen.“

Wachsmut betrachtet diese Überlegenheit aus datenschutzrechtlicher Sicht differenziert. Zwar stimmt er zu, dass Ok Google seinen Konkurrenten Siri und Cortana besonders in Hinsicht auf das Sprachverstehen voraus sei, „dafür nervt Google seine Nutzer durch unerwartete proaktive Aktionen mit erstaunlichem Insider-Wissen, das man mithilfe etwa von Spracheingaben am Navi und bei Standortwechseln sammelt. Wenn zum Beispiel jemand freitags immer zu seiner Freundin fährt, drängt Ok Google darauf, pünktlich aufzubrechen, ehe es zum Stau auf der Autobahn kommt.“ Mit der voranschreitenden Entwicklung und der unvermeidlichen Angleichung der Möglichkeiten sieht er diese Problematik aber auch bei Microsofts Cortana – und seit dem vergangenen Update ebenfalls bei Siri. „Als Anwender fragt man sich da, was die Unternehmen sonst noch alles mit den gesammelten Daten anfangen“, zeigt sich Wachsmut nachdenklich.

Professor Dr. Ipke Wachsmuth … … hat 25 Jahre Künstliche Intelligenz an der Universität Bielefeld gelehrt. Dort arbeitet er als Seniorprofessor am „Exzellenzcluster Kognitive Interaktionstechnologie“ (CITEC). KI-Systemen fehle es laut seiner Meinung derzeit noch an Einschätzungsvermögen. Das habe er auch mit dem an der Uni Bielefeld entwickelten künstlichen Gesprächspartner „Max“ erfahren: „Einige Besucher haben ihm zuweilen ganz hässliche Wörter beigebracht. Wir haben Max dann grundsätzlich antworten lassen: ,Heute Abend schau ich im Lexikon nach, ob das stimmt, was du mir gesagt hast’ – und die neuen Wörter automatisch gelöscht.“

Echte Science-Fiction

Kaum ein Forschungsbereich definiert die technische Zukunft derzeit so aktiv wie die der Computerlinguistik beziehungsweise der Künstlichen Intelligenz. Wie wird sich in der Vorausschau der Protagonisten also die Welt in zwanzig Jahren präsentieren? Beide stimmen überein, dass die Kommunikation von Mensch und Maschine zum Alltag gehören wird. „Computer werden sicherlich weiterhin die menschliche Intelligenz unterstützen und verstärken“, wagt Schlangen einen Ausblick. Und weiter: „Ich kann mir vorstellen, dass aus heutigen Mobiltelefonen sogenannte Companions werden, die ihren Besitzer durch ihr Leben begleiten und sich durch eine – wenn auch immer noch begrenzte – Situationserkennung selbstständig nützliche Informationen merken beziehungsweise diese dann wiedergeben, wenn sie gebraucht werden.“ Außerdem erwartet David Schlangen eine Inflation intelligenter Hausroboter – die sich aber gar nicht so sehr von der heutigen Waschmaschine unterscheiden würden: „Ich vermute, dass diese Geräte ihre Aufgaben eher still erledigen und es ein Zeichen ihrer Intelligenz sein wird, dass man mit ihnen nicht sprechen muss, sondern dass sie einfach funktionieren“, sagt der Computerlinguist. „Und dass man sie auch nicht Roboter nennen wird – schließlich bezeichnet man eine Spülmaschine ja auch nicht als Abwaschroboter.“

Und noch etwas: Blöd müssen wir uns gegenüber Siris Erben wohl auch in Zukunft nicht vorkommen. „Ich gehe jedenfalls nicht davon aus, dass es in zwanzig Jahren superintelligente Roboter gibt, für die wir störende Einfallspinsel sind.“