Zur Zukunft von Siri

Siri war gestern: Diese Unternehmen fordern Apple heraus

Die Frage nach dem Siri Nachfolger. Die jüngsten Firmenübernahmen von Apple lassen erahnen, welchen Weg Apple mit Siri einschlagen wird. Persönliche Assistenz-Systeme der nächsten Generation lassen Siri und Google Now, wie wir sie jetzt kennen, so alt aussehen wie Windows 95.

Von   Uhr

Seit den Frühtagen des PC vor über 30 Jahren ist die Nutzer-Schnittstelle – also die Interaktion mit dem Geschehen auf dem Bildschirm – grafisch. Wir brauchen unsere Augen und unsere Finger für die Tastatur. Der Maus-Zeiger ist unser Zeigefinger im PC. Mit dem Smartphone hat sich daran zunächst einmal nichts geändert. Aber als Apple vor inzwischen fünf Jahren (2011) Siri auf dem iPhone einführte, gab es zum ersten Mal ein weitergehendes sprachgesteuertes Nutzer-Interface auf einem massentauglichen Gerät.

Inzwischen findet sich Siri auf jedem aktuellen iOS-Gerät, auf der Apple Watch und auf dem neuen Apple TV wieder. Gerüchten nach zu urteilen soll Apple seit mindestens vier Jahren Siri auf dem Mac testen. Zusammen mit OS X 10.12 könnte Siri im Herbst auf dem Mac erscheinen. Zur WWDC 2016 im Juni dürfte mit einer entsprechenden Ankündigung und Beta-Version zu rechnen sein.

Siri Nachfolger: Mehr Sprachsteuerung

Mit Siri beschreitet Apple keineswegs Neuland. Sprachsteuerung war im iPhone von Anfang an eingebaut für die Wählfunktion des Telefonbuchs. Man konnte per Sprachsteuerung seine Kontakte auswählen und anrufen. Viele kennen Sprachsteuerung auch vom Navigationssystem im Auto. Fahrziele lassen sich per Sprachauswahl festlegen. Nicht zuletzt gibt es auch im Mac eine Sprachsteuerung für einfache Befehle. Doch noch sind die Möglichkeiten für einzelne Anwendungen eingeschränkt.

OS X 10.12: Siri auf dem Mac

Das nächste OS X 10.12 soll Siri auf den Mac bringen. Mit dem internen Codenamen „Fuji“ soll die neue Betriebssystemversion im Rahmen der WWDC 2016 im Juni erstmalig vorgestellt werden. Der Sprachassistent Siri soll zum Funktionsumfang gehören. Allerdings wird Siri nur auf „neuerer“ Mac-Hardware ab 2015 laufen. Das liegt an den Prozessoren von Intel.

Die Prozessor-Serien Broadwell und Skylake von Intel bieten nämlich im Platform Controller Hub (PCH) einen Audio-DSP, was neue Möglichkeiten für Spracherkennung bietet. Auch im Ruhezustand kann der Computer auf Sprachsignale wie „Hey Siri“ warten und dann die CPUs aktivieren, wenn dies für eine weitergehende Spracherkennung nötig sein sollte.

Die Broadwell-CPU steckt im MacBook (Frühjahr 2015) und im iMac 21,5-Zoll sowie im MacBook Pro 13-Zoll. Die 27-Zoll-iMacs laufen seit 2015 auf Skylake. Im MacBook Pro 15-Zoll und Mac mini stecken Haswell-CPUs und im Mac Pro noch ältere Xeon-Server-Prozessoren. Erfahrungsgemäß wird Apple zunächst mit neuer Hardware die Mac-Produktlinie anpassen. Mit dem Argument des fehlenden eingebauten Mikrofons könnten Mac mini und Mac Pro ausgeklammert werden.

Aber auch mit Siri ist vieles aber trotzdem in seinen Fähigkeiten begrenzt. Siri vereinfacht vergleichsweise einfache Tätigkeiten wie das Ändern von Einstellungen, die Erstellung eines Termins oder die Suche nach Kino-Filmen in der näheren Umgebung. Wer Siri täglich oder auch nur gelegentlich nutzt, weiß: Es gibt noch viel zu tun. Und obwohl Siri als Cloud-Anwendung hauptsächlich auf den Servern von Apple läuft, darf man erwarten, dass Siri im nächsten iOS 10 und auf dem kommenden iPhone 7 mit neuer A10-CPU und mehr Arbeitsspeicher noch leistungsfähiger wird.

Ohne Frage wird Apple die Sprachassistenz Siri weiterentwickeln. Es gibt Gerüchte über Tests bei Apple und neue Features von Siri. So könnte Siri Anrufe selbstständig beantworten oder Nachrichten vom Visual-Voice-Mail-Anrufbeantworter aus in Text überführen und als E-Mail verschicken. Und dennoch wäre es immer noch Lichtjahre entfernt vom Zwiegespräch mit der Maschine im Stil von HAL 9000 in „2001: Odyssee im Weltraum“.

Aber die Leute, die Siri schufen und 2010 an Apple verkauft haben, werkeln bereits an einem neuen persönlichen Assistenzsystem namens Viv. Dag Kittlaus und Adam Cheyer arbeiten weiterhin an ihrer Idee vom „intelligenten Interface“, das mit dem natürlichsten Kommunikationsmittel – unserer Sprache nämlich – bedient werden soll.

Damit sind sie nicht allein. An der University of Cambridge gibt es Forschungen und Entwicklungen an künftigen persönlichen Assistenz-Systemen, die eines Tages in der Lage sein werden, das grafische User-Interface des Computers vollständig abzulösen.

Siri Nachfolger: Sprache ist natürliche Interaktion

So abgedroschen es klingt, Sprache ist der natürlichste Weg der Kommunikation zwischen Menschen. Weil es so natürlich ist, wäre es für uns Menschen die natürlichste Art und Weise, mit dem Computer zu sprechen, statt – wie bisher – sich Methoden wie Tastatur und Maus anzueignen, weil es für den Computer einfacher ist. In den kommenden Jahrzehnten wird die Rechenleistung von Computern weiter steigen und damit wachsen auch die Fähigkeiten, große Datenbestände auszuwerten. Das Gespräch wird schlicht die schnellste Methode sein, mit dem Computer zu interagieren.

Seit drei Jahrzehnten forscht Steve Young als Professor an der University of Cambridge zum Thema Sprache. Bereits Mitte der 1990er-Jahre ging es um Wörterbuch-basierte Spracherkennung und Spracherzeugung in künstlichen neuronalen Netzen. Inzwischen ist man bei stochastischer Sprachsynthese für Dialoge durch gekoppelte neuronale Netze und Synthese von natürlicher Sprache in Dialogsystemen angelangt.

Während sich Viv.ai im Herbst vergangenen Jahres in einer dritten Runde mit frischem Kapital finanzierte, kaufte sich Apple in die Forschungen in Cambridge ein. Apple übernahm VocalIQ. Die Firma wird in Cambridge, England, bleiben und soll dort daran arbeiten, dass Siri längere Gespräche führen kann. Eventuell könnte die Technik zur Sprachsteuerung im Apple-Auto verwendet werden. Pikanterweise bezeichnete die Homepage von VocalIQ das Siri-System von Apple einst als Spielzeug.

Siri Nachfolger: Warum Apple noch nicht so weit ist

Nicht wenige nutzen Siri gar nicht, weil die Kommunikation mit Siri – wie man so sagt – nicht auf Augenhöhe stattfindet. Die Stimme aus der Maschine wird nicht als emanzipierter Partner angenommen. Noch kann man Siri nicht in ein Gespräch verwickeln. Schnell ist der Punkt erreicht, an dem Siri sich nicht sicher ist, ob die Frage richtig verstanden wurde und das System eine Web-Suche vorschlägt. Nun könnte Siri bereits im Web gesucht haben, denn Siri läuft ja nur bei bestehender Online-Verbindung. Doch das wäre nicht zielführend, denn die präsentierten Such-Ergebnisse könnten noch enttäuschender sein als das Eingeständnis der Schwäche.

Ab einem gewissen Grad der Komplexität steigt Siri einfach aus. Die Intelligenz von Siri basiert auf einigen Regeln und vorgegebenen Abläufen, die mit bestimmten Schlüsselwörtern angesprochen werden. Google Now und Microsoft Cortana unterscheiden sich nicht wesentlich. Unsere analoge Stimme wird digitalisiert und bei Siri an die Server von Apple übertragen. Dort werden Variablen erkannt und einem möglichen Ablauf zugeordnet.

Bestimmte Schlüsselwörter wie „Timer“, „Wecker“ und „Termin“ legen den Kontext fest und grenzen mögliche Interaktionen an. Komplizierter als die Fragen nach dem Wetter sind Auskünfte zu Sportergebnissen. Viele Verbesserungen fanden bereits bei der Erkennung von Schlüsselwörtern statt. Fans der Spielvereinigung Greuther Fürth benötigten einige Spielzeiten Geduld. Der Aufstieg in die erste Bundesliga 2012 war hilfreich. Zuvor wurde eine Web-Suche nach „Kräutertee“ vorgeschlagen. Sprachlich wissen wir – auch wenn wir die Mannschaft Greuther Fürth nicht kennen, dass „Kräutertee“ nicht in den Kontext „Fussball“ passt. Jedenfalls nicht in Fragen nach Ergebnissen.

Eigennamen und Begriffe, die je nach Kontext ihre Bedeutung ändern, stellen das Siri-Rechenzentrum von Apple vor eine schwierige Herausforderung. Denn Spracherkennung im Computer ist keineswegs Sprachverständnis. Wir Menschen verstehen Sprache, weil Sprache unserem Wesen entspricht. Philosophie und Wissenschaft erörtern die Frage, ob unser Bewusstsein ohne Sprache gedacht werden könnte. Die Psychologie will der Sprache keine Macht über das Bewusstsein zugestehen, aber unser Bewusstsein ist dennoch sprachlich überformt und sprachlich geschult. Zu unser kognitiven Leistungsfähigkeit gehört es auch, Sprache lebendig zu gebrauchen und weiterzuentwickeln, wenn wir neue Wörter brauchen. Wahlweise aus Zusammensetzung von mehreren Wörtern oder als Abkürzung, weil unsere Zeit so kostbar ist.

Siri Nachfolger: Sprache ist sozial

Das menschliche Sprachverständnis ist gelernt und sozial geprägt. Unser Sprachgebrauch ist zudem effektiv, pragmatisch und tolerant, und zwar solange wir unser kommunikatives Ziel erreichen können. Und wenn Siri in einem schwachen Moment eine Web-Suche vorschlägt, wo wir im Zwiegespräch eine Verständnisfrage erwarten, erfolgt der Medienbruch durch Siri: Web-Suche statt Antwort. Dabei könnte eine Nachfrage einfach sein: „Meinst Du dies oder das? X oder U?“

Die Spracherkennung im Computer findet ohne Bewusstsein statt. Es handelt sich um Wahrscheinlichkeiten, die vom Computer berechnet und bewertet werden: „X oder U“. Das kann der Computer, und zwar parallel für jeden Laut, den unser iPhone digitalisiert hat. Siri errechnet eine Wahrscheinlichkeit unserer Äußerung. Das Siri-Rechenzentrum grenzt die möglichen Wörter ein und kann gleichzeitig den ganzen Satz, einzelne Wörter und Silben mit gespeicherten Lexika und Katalogen vergleichen. Die Erkennung von Siri ist streng genommen nur geraten. Gut geraten. Abgesichert durch die höchste Wahrscheinlichkeit unter allen möglichen Treffern.

Noch steckt Siri in den Kinderschuhen, denn die Möglichkeiten der Kommunikation sind trotz richtig erkannter Schlüsselwörter begrenzt. Vorgegebene Szenarien sind schnell ausgereizt. Das Schlüsselwort „Filme“ schaut auf dem iPhone ins Kino-Programm der näheren Umgebung. Dabei könnte Apple über meine Apple-ID wissen, dass ich ein Apple TV habe und den iTunes Store mit seinem Katalog in die Suche einbeziehen. Oder wissen, dass ich einen vor zwei Wochen gekauften Film immer noch nicht gesehen habe. Mit diesem „Wissen“ könnte mir Siri eine andere Abendgestaltung vorschlagen.

Künftige Assistenz-Systeme wie Viv und VocalIQ wollen ein Teil unseres Lebens werden. Und dafür wird die persönlichen Assistenz unseren individuellen Sprachgebrauch erlernen. Die bei Siri gespeicherte Spitznamen sind erst der Anfang. Im Design von VocalIQ ist der eigenständige Spracherwerb der künstlichen Intelligenz angelegt. Ein mit VocalIQ ausgestattetes Siri wird von uns lernen, ein bisschen so wie ein Kind lernt. Aber trotzdem ganz anders, denn die in der Cloud vernetzten Computer können immer lernen. Zudem lernen sie schnell, weil sie nicht müde werden und sie noch viel mehr speichern könnten.

Wenn wir jetzt „Ich bin hungrig.“ zu Siri sagen, dann bekommen wir eine Liste mit Restaurants in der näheren Umgebung angezeigt. Künftig wird Siri jedoch in der Lage sein, längere Gespräche mit uns zu führen und sich natürlicher verhalten. Etwa mit einer Gegenfrage: „Was möchtest Du essen?“. Oder noch weiter entwickelt und mahnend: „Trink doch erst einmal ein Glas Wasser.“ Auf Basis der Gesundheitsdaten in Apple Health könnte Siri uns Empfehlungen geben, die uns helfen können, gesünder zu leben. Auf jeden Fall werden zukünftige Assistenz-Systeme unsere Angewohnheiten und unser Verhalten adaptieren und uns immer besser kennenlernen.

Siri Nachfolger: Apple wird lernen

In die selbe Richtung laufen auch die Apple-Übernahmen von Perceptio und Emotient. Letztere arbeiten im Bereich Gesichtserkennung und Gemütserkennung. Sie können in Gesichtern lesen und Stimmungen erkennen. Das ist wichtig für automatische Assistenz-Systeme und passt hervorragend zu der Übernahmen von Faceshift. Das sind Motion-Capture-Spezialisten aus der Schweiz. Ihre Software überträgt natürliche Geschichtsausdrücke auf Avartare und Kunstwesen. Diese Technik wurde im aktuellen Star-Wars-Film genutzt. Sie lässt sich übertragen auf KI und Mensch-Maschine-Interaktionen und dürfte als Plug-In die Apple-Profi-Software Final Cut Pro ergänzen.

Lernende und sich selbst optimierende Methoden werden auf jeden Fall die lexikalischen Systeme von Siri ergänzen. Noch schaut Siri bei Wikipedia, Google oder Bing nach. Doch bald verknüpft Siri unsere persönlichen Anfragen mit unser Umgebung, Herkunft und Zielen. Wiederholungen werden das neue Wissen über uns festigen – eben so wie Kinder lernen.

Der Zukauf von VocalIQ durch Apple belegt, dass wir uns bereits auf diesem Weg befinden. Apple und Google, aber auch Microsoft, Amazon und Facebook stecken Millionen-Beträge in die Grundlagen-Forschung an künstlicher Intelligenz. Sichtbar wurde dies beim Berlin-Besuch von Marc Zuckerberg. Der Facebook-Chef war nach dem Mobile World Congress in Barcelona nach Berlin weitergereist. Für den Chef des Bundeskanzleramtes hatte Zuckerberg ein Gastgeschenk dabei, und zwar in Form einer Forschungspartnerschaft im Bereich der künstlichen Intelligenz. In einem ersten Schritt dieser Initiative stellt Facebook ausgewählten Forschungsinstituten in Deutschland und Europa insgesamt 25 Hochleistungsserver zur Verfügung. Darüber hinaus werden Forscher des Facebook-eigenen Artificial Intelligence Research Lab – mit der Abkürzung: FAIR – die Institute bei ihrer laufenden Forschungsarbeit unterstützen. Der erste GPU-Hochleistungsserver geht an die Technische Universität Berlin (TU Berlin). Da Peter Altmaier von der CDU künstliche Intelligenz gut gebrauchen kann, nahm er dankend an.

Was Facebook im Konzept des Social Graph an Daten über uns erhebt, kann Apple im Prinzip an der Apple-ID speichern. Oder unter Maßgabe der Datenvermeidung in einem gesicherten Speicherbereich auf dem iPhone. Mit dem iPhone in der Hand und der Apple Watch am Handgelenk legen wir auf jeden Fall eine breite Datenspur, die Siri als unsere persönliche Assistenz in erster Linie auch für uns persönlich nutzbar machen soll.

Die Möglichkeiten der künstlichen Intelligenz stecken technisch betrachtet nämlich keineswegs in den Kinderschuhen. Vielmehr sind wir sozial noch nicht so weit, uns darauf einzulassen. Man muss Siri lediglich begreifen als die erste Inkarnation künstlicher Intelligenz aus der Cloud.

Amazon Echo

Sprachgesteuerte Suche spielt auch bei Amazon eine große Rolle, denn der Versender lebt davon, zu wissen, welche Produkte und Lösungen die Kunden suchen. In den USA kann man sich für 180 US-Dollar eine schwarze Lautsprechersäule von Amazon kaufen. Die Sprachassistenz von Amazon hört auf den Namen „Alexa“ und ist ständig aktiv. Die Echo-Säule kann mit Philips Hue verbunden werden, das Wetter ansagen oder Musik aus dem Angebot von Amazon abspielen. Also durchaus vergleichbar mit Siri und Siris Ambitionen in Richtung Haussteuerung über HomeKit.
Hinter Echo und Alexa steht die Software Evi, eine semantische Suchmaschine aus Cambridge in England. Evi wurde im Oktober 2012 von Amazon übernommen. Rund 26 Millionen US-Dollar sollen geflossen sein. Im Januar 2013 übernahm Amazon zusätzlich die polnische Spracherkennungssoftware Ivona.

IBM Watson

Neue Großrechner von IBM sind weiter als Deep Blue. Der IBM Watson ist ein künstliches Gehirn und mit kognitiven Fähigkeiten ausgestattet. Watson schafft es, in Echtzeit und sinnvoll mit Menschen und anderen Computern zu sprechen, zieht eigene Schlüsse und trifft Entscheidungen.

Watson kann enorme Mengen unstrukturierter Daten durchforsten, analysieren und gegeneinander abwägen, sie interpretieren und stetig dazulernen. Es gilt, aktuelle Daten zu nutzen, sie in Beziehung zu historischen Informationen zu setzen und damit möglicherweise noch bislang unbekannte Korrelationen zu entdecken.

In der modernen Arbeitswelt am Industriestandort Deutschland sollen Ingenieure den Kollegen Roboter mit Sprache steuern und programmieren. Zudem wird der lernende Computer bei IBM in München in Richtung Internet of Things weiter entwickelt.

Google Deep Mind

DeepMind wurde im Januar 2014 für vergleichsweise preiswerte 625 Millionen US-Dollar von Google übernommen und kaum beachtet. Denn im selben Monat kaufte Google die Haus-Automation-Firma Nest für 3,2 Milliarden US-Dollar. Anfang März 2016 bestritt Google mit der Software AlphaGo aus dem Deep-Mind-Programm eine besondere Herausforderung. In der DeepMind Challenge spielten der Google-Computer und der Koreaner Lee Sedol ein besonderes Turnier: Maschine gegen Mensch in Go. Lee Sedol gilt als der beste Spieler der vergangenen zehn Jahre. Die Go-Grundregeln sind recht einfach, aber der Spielverlauf ist kompliziert. Go ist sehr viel komplexer als Schach, weil es mehr mögliche Spielzüge und Spielverläufe gibt. Anders als beim Schach kann sich der Computer bei Go nicht auf die Fehler des Menschen verlassen, sondern muss eine eigene Strategie entwickeln und verfolgen.

Apple Siri

Siri war in iOS 5 ausschließlich für das iPhone 4s verfügbar. Ab iOS 6 wurde die Assistenz-Funktion auf weiteren Geräten nutzbar, darunter auf dem iPad 3G und dem iPod touch 5G. Inzwischen läuft Siri auf Apple Watch und Apple TV der 4. Generation. Ab Sommer 2016 könnte Siri mit der Beta-Version von OS X 10.12 auf neueren Macs zum Einsatz kommen.

Siri steht für „Speech Interpretation and Recognition Interface“, also eine Nutzerschnittstelle basierend auf Spracherkennung und Bedeutungsanalyse. Siri nutzt Spracherkennung von Nuance. Als Interface für Google Maps, OpenTable, MovieTickets und ein US-Taxiruf-System gab es Siri für kurze Zeit frei erhältlich im App Store. Im April 2010 wurde Siri von Apple übernommen.

Im vergangenen Jahr kaufte Apple dann noch VocalIQ aus dem englischen Cambridge hinzu. Als „künstliche Intelligenz“ wird Siri über sich hinaus wachsen.

Mehr zu diesen Themen:

Diskutiere mit!

Hier kannst du den Artikel "Siri war gestern: Diese Unternehmen fordern Apple heraus " kommentieren. Melde dich einfach mit deinem maclife.de-Account an oder fülle die unten stehenden Felder aus.

ich fass es nicth, siri ist 1 richtig guten erfindung und ich benuze jeden tag siri zum beinspiel für schertze mahcen :D

Du sollstest versuchen Deutsch mit Siri zu lernen!

hä mein siri kann deutsch ?! das kan man eimstellen bei sprahcen unter menüpuknt siri in einstelugnen.

Die Kommentare für diesen Artikel sind geschlossen.