VUI Entwicklung zum Sattelpunkt

Die Entwicklung einer auf der Stimme basierenden Nutzerschnittstelle (Voice User Interface (=VUI) Design), ist keine so einfache Sache wie es gerne kommuniziert wird. In erster Linie weil die Menschen die Sprache aus dem Bauch heraus nutzen und damit (leider allzu oft), ohne darüber nachzudenken.

Ein Linguist hat da einen besseren Blick auf das was die Menschen so tonal von sich geben. Doch auch ein Linguist hat deswegen nicht zwingend den ultimativen Durchblick in der Gestaltung von Sprachschnittstellen zur Maschine. Dazu braucht es noch mehr!

Ebenso sind wir nun seit Dekaden den Bildschirm gewohnt. Sich da auf das Design einer Darstellung und Navigation per Stimme umzustellen, ist ebenso keine einfache Sache und wird aktuell nur von einer Handvoll Menschen verstanden. So sind die aktuell verfügbaren Anwendungen für Sprachassistenten neben den Einschränkungen der Systeme selbst, auch oft durch eine unzureichende Gestaltung noch weiter in ihrer Anwendbarkeit für den Nutzer eingeschränkt. Dies passiert in erster Linie weil versucht wird den einfachstes Weg zu nehmen und die Inhalte des Mediums Bildschirm einfach in den Sprachassistenten gequetscht wird, oder weil der Anwendungsfall mit Gewalt auf „Voice only“ gepresst wird. Dabei heisst die nötige Sichtweise und Richtlinie zur Gestaltung von Sprachschnittstellen „Voice First“ und eben nicht „Voice only“.
So gilt es in einem zu gestaltenden Prozess oder Anwendungsfall vor allem primär herauszufinden wo der Sattelpunkt erreicht ist, an der eine Bedienung per Sprache nicht mehr effizient ist und eventuell z.B ein Medienbruch her muss um die Informationen wieder effizient und vor allem „natürlich/menschlich“ transportieren zu können.

Als gutes Beispiel lässt sich dafür z.B ein Spiel in Form eines Quiz nutzen. Insofern der Sprachassistent der Moderator und damit Fragensteller ist, ist alleine schon aus dem Zwang einer effizienten Dialoggestaltung heraus vorhanden, das es nicht mehr als maximal 3 mögliche Antworten auf die Frage zur Auswahl geben darf. Sollten mehr als 3 abgefragt werden, muss ein weiteres Medium her, wie z.B ein Bildschirm damit der Mensch die Komplexität gut erfassen kann.

Ein weiteres Kriterium wäre die Form der vom Nutzer zu machenden Antworten. Für den Menschen ist es wesentlich natürlicher die eigentlich Antwort zu geben, als eine damit verbundene Variable wie z.B „Antwort A“, „Antwort B“, „Antwort C“. Das heißt ein Mensch würde Frage (=Antwort A) „Wie heisst Frau Merkel mit Vornamen“, eher mit „Angela“ antworten, als mit „A“ oder „Antwort A“. Entsprechend sollte der Sprachassistent dem Nutzer die Möglichkeiten geben mit „beiden“ Antwortmöglichkeiten zu antworten. So das der Nutzer entweder mit „A“ oder eben mit „Angela“ antworten kann. Ebenso mit den entsprechenden Variantenantworten wie z.B „Antwort A mit Angela“ oder auch „Die Antwort ist A, Angela“ und so weiter.

Sprache ist äußerst sensibel, daher ist das Ohr auch extremst schnell gelangweilt wenn so ein Spiel/Quiz dann auch immer nach dem gleichen Muster abläuft. Ein reines Frage/Antwort Quiz, dürfte entsprechend keine große Anhängerschaft finden bzw. schnell langweilig werden. Daher sollte neben einer unterhaltsamen Sprache, auch eine ausreichend große Variation im Spielemuster vorhanden sein.

Derweil gibt es einige Quizspiele die rein über die Stimme funktionieren. Auch wenn diese Spiele schon gut im Rahmen der Voice First Devise gestaltet sind, so merkt man schnell dass sie dennoch extremst schnell langweilig werden. Da hilft es auch wenig wenn die Spieler gegeneinander antreten. Der Grund dafür liegt dann schlicht in der fehlenden Variation in der Kommunikation. Sprich, der Moderator (=Sprachassistent) bringt nicht ausreichend Variation in der Sprache mit.