Eine Kurzgeschichte der digitalen Sprachassistenten

Smarte Lautsprecher alla Amazon Echo, Google Home oder Apple Homepod machen die Welt verrückt. Das würden sie nicht tun können, wenn sie nicht dank digitaler Sprachassistenzsysteme wie Alexa, Google Assistant oder Siri sprechen könnten.

Der Grund für den Verkaufserfolg der smarten Lausprecher sind trotzdem nicht die sprechenden Serverdienste, sondern die Geräte selbst. Eine neue Gerätegattung bringt nicht nur neue Interaktionsmöglichkeiten mit der Technik mit, sondern damit auch neue Ideen in ihrer Verwendung und befriedigt damit die gewaltige Verrücktheit der Menschen nach digitalen Gadgets jeder Art.

Obwohl smarte Lautsprecher ihren Absatzhöhepunkt noch gar nicht erreicht haben, sind sie im Grunde dennoch schon bereits obsolete und so was von „2018“, da digitale Sprachassistenten immer stärker in alle erdenklichen Gerätegattung ihren Platz finden (z.B Fernseher, Microwellen, Auto, etc.), so das smarte Lautsprecher selbst in den nächsten Jahren keine Bedingung mehr sind um digitale Sprachassistenten zu verwenden.

Da die Entwicklung des Marktes und der Systeme selbst sich momentan primär auf die technischen Aspekte der Systeme stützt (Programmierung/Design), sind Eigenschaften und Wirkungen der Nutzung der Systeme noch eher im Hintertreffen des Verstehens und finden daher kaum Thema in den Medien. Dabei sind es doch genau die Eigenschaften und Wirkungen digitaler Sprachassistenten die nicht nur ihre Nutzung interessant machen, sondern auch den gesamten Markt an einigen Stellen teilweise sehr massiv umwälzen werden.

Auf medienwirksame Themen wie „Datenschutz“ braucht man dabei jedoch gar nicht erst eingehen, da Politik und Gesetzgebung im Sinne der traditionellen Konzernlobbies eh jegliche digitale Kompetenz komplett ablehnt, eine Strunzdummigkeit nach der anderen verbockt und erfolgreich aus Deutschland ein digitales Niemansland gemacht hat welches seinen Entwicklungsrückstand nie wieder korrigieren kann.
Dennoch bleibt der Fakt das digitale Sprachassistenten wissenschaftlich wie wirtschaftlich ein hoch interessantes Umfeld bieten und den Menschen und Unternehmen neue Möglichkeiten auf vielen Ebenen bieten. Auch wenn die meisten Bühnenprediger mit haltlosen Zahlen aus der Zukunft der Sprachassistenten um sich werfen, so bietet das Thema auch echt Fakten.

Dazu gehören vor allem die Grundlagen der Biologie und Physik in Nutzung von Stimme und Gehör. Diese auf solche Themen wie virtuelle Assistenz, Gerätesteuerung, Überwachung, Sicherheit, Marketing und und und … angewendet, ergeben einen gewaltig großen Markt- und Spielplatz.

„Smart Voice“ ist die Erweiterung der Stimme durch Technik. Das erfordert neue Ideen und die Bereitschaft zur Änderung etablierter Inhalte und Prozesse. Aus Auge, Bildschirm und Hände, wird nun Multimodalität von Voice Only zu Voice First.

Das Marketing steht dabei vor dem besonderen Anspruch aus einer Zielgruppe, eine Zielperson zu machen und diese auch noch auf emotionalste Art und Weise über die Stimme zu erreichen um beim Nutzer zum persönlichen „Punkt der Erfüllung“ zu werden ohne zu stören. Intent Marketing, Predictive Analytics und Headless CMS sind dabei die Werkzeug die es braucht um diesen Anspruch zu erfüllen und um überhaupt per Sprachassistent zum Touchpoint für den Nutzer zu werden. Erst dann, kann auch ein Voice Brand und Voice Search ihr weiteres Werk tun. Daher ist auch die Versprachlichung von Inhalten und Prozessen die primärste alle Aufgaben in der Eroberung des Smart Voice Marktsegments und die Gestaltung von Sprachanwendungen doch so eher die Letzte sobald man Smart Voice dann wirklich verstanden hat.

VUI Entwicklung zum Sattelpunkt

Die Entwicklung einer auf der Stimme basierenden Nutzerschnittstelle (Voice User Interface (=VUI) Design), ist keine so einfache Sache wie es gerne kommuniziert wird. In erster Linie weil die Menschen die Sprache aus dem Bauch heraus nutzen und damit (leider allzu oft), ohne darüber nachzudenken.

Ein Linguist hat da einen besseren Blick auf das was die Menschen so tonal von sich geben. Doch auch ein Linguist hat deswegen nicht zwingend den ultimativen Durchblick in der Gestaltung von Sprachschnittstellen zur Maschine. Dazu braucht es noch mehr!

Ebenso sind wir nun seit Dekaden den Bildschirm gewohnt. Sich da auf das Design einer Darstellung und Navigation per Stimme umzustellen, ist ebenso keine einfache Sache und wird aktuell nur von einer Handvoll Menschen verstanden. So sind die aktuell verfügbaren Anwendungen für Sprachassistenten neben den Einschränkungen der Systeme selbst, auch oft durch eine unzureichende Gestaltung noch weiter in ihrer Anwendbarkeit für den Nutzer eingeschränkt. Dies passiert in erster Linie weil versucht wird den einfachstes Weg zu nehmen und die Inhalte des Mediums Bildschirm einfach in den Sprachassistenten gequetscht wird, oder weil der Anwendungsfall mit Gewalt auf „Voice only“ gepresst wird. Dabei heisst die nötige Sichtweise und Richtlinie zur Gestaltung von Sprachschnittstellen „Voice First“ und eben nicht „Voice only“.
So gilt es in einem zu gestaltenden Prozess oder Anwendungsfall vor allem primär herauszufinden wo der Sattelpunkt erreicht ist, an der eine Bedienung per Sprache nicht mehr effizient ist und eventuell z.B ein Medienbruch her muss um die Informationen wieder effizient und vor allem „natürlich/menschlich“ transportieren zu können.

Als gutes Beispiel lässt sich dafür z.B ein Spiel in Form eines Quiz nutzen. Insofern der Sprachassistent der Moderator und damit Fragensteller ist, ist alleine schon aus dem Zwang einer effizienten Dialoggestaltung heraus vorhanden, das es nicht mehr als maximal 3 mögliche Antworten auf die Frage zur Auswahl geben darf. Sollten mehr als 3 abgefragt werden, muss ein weiteres Medium her, wie z.B ein Bildschirm damit der Mensch die Komplexität gut erfassen kann.

Ein weiteres Kriterium wäre die Form der vom Nutzer zu machenden Antworten. Für den Menschen ist es wesentlich natürlicher die eigentlich Antwort zu geben, als eine damit verbundene Variable wie z.B „Antwort A“, „Antwort B“, „Antwort C“. Das heißt ein Mensch würde Frage (=Antwort A) „Wie heisst Frau Merkel mit Vornamen“, eher mit „Angela“ antworten, als mit „A“ oder „Antwort A“. Entsprechend sollte der Sprachassistent dem Nutzer die Möglichkeiten geben mit „beiden“ Antwortmöglichkeiten zu antworten. So das der Nutzer entweder mit „A“ oder eben mit „Angela“ antworten kann. Ebenso mit den entsprechenden Variantenantworten wie z.B „Antwort A mit Angela“ oder auch „Die Antwort ist A, Angela“ und so weiter.

Sprache ist äußerst sensibel, daher ist das Ohr auch extremst schnell gelangweilt wenn so ein Spiel/Quiz dann auch immer nach dem gleichen Muster abläuft. Ein reines Frage/Antwort Quiz, dürfte entsprechend keine große Anhängerschaft finden bzw. schnell langweilig werden. Daher sollte neben einer unterhaltsamen Sprache, auch eine ausreichend große Variation im Spielemuster vorhanden sein.

Derweil gibt es einige Quizspiele die rein über die Stimme funktionieren. Auch wenn diese Spiele schon gut im Rahmen der Voice First Devise gestaltet sind, so merkt man schnell dass sie dennoch extremst schnell langweilig werden. Da hilft es auch wenig wenn die Spieler gegeneinander antreten. Der Grund dafür liegt dann schlicht in der fehlenden Variation in der Kommunikation. Sprich, der Moderator (=Sprachassistent) bringt nicht ausreichend Variation in der Sprache mit.