VUI Entwicklung zum Sattelpunkt

Die Entwicklung einer auf der Stimme basierenden Nutzerschnittstelle (Voice User Interface (=VUI) Design), ist keine so einfache Sache wie es gerne kommuniziert wird. In erster Linie weil die Menschen die Sprache aus dem Bauch heraus nutzen und damit (leider allzu oft), ohne darüber nachzudenken.

Ein Linguist hat da einen besseren Blick auf das was die Menschen so tonal von sich geben. Doch auch ein Linguist hat deswegen nicht zwingend den ultimativen Durchblick in der Gestaltung von Sprachschnittstellen zur Maschine. Dazu braucht es noch mehr!

Ebenso sind wir nun seit Dekaden den Bildschirm gewohnt. Sich da auf das Design einer Darstellung und Navigation per Stimme umzustellen, ist ebenso keine einfache Sache und wird aktuell nur von einer Handvoll Menschen verstanden. So sind die aktuell verfügbaren Anwendungen für Sprachassistenten neben den Einschränkungen der Systeme selbst, auch oft durch eine unzureichende Gestaltung noch weiter in ihrer Anwendbarkeit für den Nutzer eingeschränkt. Dies passiert in erster Linie weil versucht wird den einfachstes Weg zu nehmen und die Inhalte des Mediums Bildschirm einfach in den Sprachassistenten gequetscht wird, oder weil der Anwendungsfall mit Gewalt auf „Voice only“ gepresst wird. Dabei heisst die nötige Sichtweise und Richtlinie zur Gestaltung von Sprachschnittstellen „Voice First“ und eben nicht „Voice only“.
So gilt es in einem zu gestaltenden Prozess oder Anwendungsfall vor allem primär herauszufinden wo der Sattelpunkt erreicht ist, an der eine Bedienung per Sprache nicht mehr effizient ist und eventuell z.B ein Medienbruch her muss um die Informationen wieder effizient und vor allem „natürlich/menschlich“ transportieren zu können.

Als gutes Beispiel lässt sich dafür z.B ein Spiel in Form eines Quiz nutzen. Insofern der Sprachassistent der Moderator und damit Fragensteller ist, ist alleine schon aus dem Zwang einer effizienten Dialoggestaltung heraus vorhanden, das es nicht mehr als maximal 3 mögliche Antworten auf die Frage zur Auswahl geben darf. Sollten mehr als 3 abgefragt werden, muss ein weiteres Medium her, wie z.B ein Bildschirm damit der Mensch die Komplexität gut erfassen kann.

Ein weiteres Kriterium wäre die Form der vom Nutzer zu machenden Antworten. Für den Menschen ist es wesentlich natürlicher die eigentlich Antwort zu geben, als eine damit verbundene Variable wie z.B „Antwort A“, „Antwort B“, „Antwort C“. Das heißt ein Mensch würde Frage (=Antwort A) „Wie heisst Frau Merkel mit Vornamen“, eher mit „Angela“ antworten, als mit „A“ oder „Antwort A“. Entsprechend sollte der Sprachassistent dem Nutzer die Möglichkeiten geben mit „beiden“ Antwortmöglichkeiten zu antworten. So das der Nutzer entweder mit „A“ oder eben mit „Angela“ antworten kann. Ebenso mit den entsprechenden Variantenantworten wie z.B „Antwort A mit Angela“ oder auch „Die Antwort ist A, Angela“ und so weiter.

Sprache ist äußerst sensibel, daher ist das Ohr auch extremst schnell gelangweilt wenn so ein Spiel/Quiz dann auch immer nach dem gleichen Muster abläuft. Ein reines Frage/Antwort Quiz, dürfte entsprechend keine große Anhängerschaft finden bzw. schnell langweilig werden. Daher sollte neben einer unterhaltsamen Sprache, auch eine ausreichend große Variation im Spielemuster vorhanden sein.

Derweil gibt es einige Quizspiele die rein über die Stimme funktionieren. Auch wenn diese Spiele schon gut im Rahmen der Voice First Devise gestaltet sind, so merkt man schnell dass sie dennoch extremst schnell langweilig werden. Da hilft es auch wenig wenn die Spieler gegeneinander antreten. Der Grund dafür liegt dann schlicht in der fehlenden Variation in der Kommunikation. Sprich, der Moderator (=Sprachassistent) bringt nicht ausreichend Variation in der Sprache mit.

„Hey, Nutzer!“ – Aktive Ansprache besser gestalten

Es gibt Dinge, von denen lasse ich mich gerne wecken. Von der aufgehenden Morgensonne beispielsweise. Oder vom Geruch von frischem Kaffee.

Nicht so gerne werde ich von diesem Satz geweckt:
“BLUETOOTH-VERBINDUNG KONNTE NICHT HERGESTELLT WERDEN!”

Genau diesen Satz plärrte mein Amazon Echo in maximaler Lautstärke kürzlich nachts um halb 1 durch die Wohnung. Und das nicht nur ein mal, sondern mit etwa einer halben Minute Abstand immer wieder. Nachdem ich im Halbschlaf vergeblich versucht hatte, Alexa mit der Mobile-App zum Schweigen zu bringen musste ich am Ende doch aufstehen und den Netzstecker ziehen.

Weniger geduldige Zeitgenossen hätten den Echo möglicherweise direkt aus dem Fenster geworfen. Ich gebe zu, dass ich auch kurz darüber nachgedacht habe. Zum Glück bringe ich aber ein Interesse an Sprachassistenten mit (und habe eine tolerante Ehefrau).

Aus Fehlern lernen

Am nächsten Morgen nach einer Extra-Portion Koffein überlegte ich dann, was hier schief gelaufen ist – und was man daraus für die Entwicklung von Sprach-Anwendungen lernen kann.

Die technische Analyse ist in dem Fall nicht sonderlich schwierig: Ich hatte am Nachmittag zuvor meinen Echo mit einem Bluetooth-Transmitter verbunden. Ich wollte damit das Kabel-Gewirr meiner Musik-Anlage ein wenig übersichtlicher gestalten und den Echo zur Musik-Wiedergabe nutzen. Das klappte auch ganz gut – nur hatte ich den Bluetooth-Transmitter nach einigen Tests wieder vom Strom getrennt und damit anscheinend meinen Echo nachhaltig verwirrt.

Aktive Ansprache gestalten

Viel interessanter ist aber die Frage, was man daraus als Gestalter und Entwickler von Sprach-Anwendungen lernen kann.

Auf diesem Blog wurde schon einiges über die Gestaltung von Dialogen geschrieben. Das ist schon eine Fachdisziplin für sich und durchaus anspruchsvoll. In einem Fall wie diesem müssen wir noch einen weiteren Aspekt mit betrachten: Wann und wie darf mich ein Sprachassistent aktiv ansprechen?

Es gibt durchaus einige Situationen, in denen es Sinn macht, dass ein Sprachassistent nicht nur reagiert, sondern mich auch ohne direkte Aufforderung anspricht.

Beispiele:
– Ein Anruf kommt rein.
– Der Kuchen muss aus dem Ofen.
– Ich möchte an einen Termin erinnert werden.
– Eine Maschine droht zu überhitzen.

Sprache hat dabei den großen Vorteil, dass sie meine Aufmerksamkeit auch dann aktivieren kann, wenn ich gerade mit etwas anderem beschäftigt bin. Das kann in manchen Situationen genau richtig sein – aber manchmal eben auch total daneben.

Wenn ich also eine Sprach-Anwendungen entwickele, die eine aktive Ansprache des Nutzers vorsieht, dann sollte ich mir dabei einige Fragen stellen:
– Muss der Nutzer wirklich aktiv angesprochen werden?
– Wie dringend ist die Information, die der Nutzer bekommen soll? Was passiert, wenn er sie nicht sofort bekommt?
– Ist Sprache die beste Art, den Nutzer auf etwas hinzuweisen? Oder gibt es andere, weniger aufdringliche Wege? (z.B. eine SMS oder einen Kalender-Eintrag)
– Kann die Anwendungen prüfen, ob es gerade passt? (z.B. über die Uhrzeit oder über den Kalender)

Hätte der Designer der Bluetooth-Kopplungs-Funktion sich diese Fragen vorher gestellt, dann wäre mir (und bestimmt auch einigen anderen Alexa-Nutzern) ein nächtliches Erwachen vielleicht erspart geblieben.

Datenerfassungshilfe für Alexa-Entwickler von Internet of Voice

Schon lange nutzten wir ein Formular um bei Projektideen oder Aufträgen die Informationen des Kunden oder unsere eigenen Ideen besser erfassen zu können. Dies Dokument haben wir nun etwas Populärtauglicher gemacht und stellen es der Alexa-Entwicklergemeinde gerne zur Verfügung!

Hier habt ihrs: Internet_of_Voice-Alexa_Skill_Inhaltsdatenserfassung_v1.pdf

Trefft andere Alexa-Gleichgesinnte hier: https://www.facebook.com/groups/alexadeveloper/

Oder doch eher zu Google Assistant? Dann hier: https://www.facebook.com/groups/googleassistantdeveloper/

Hermann Scherer inspiriert über Amazon Alexa

Hermann Scherer ist erfolgreicher Speaker, Redner und Motivator. Nun hat Hermann Scherer seine Inspirationen mit dem Kölner Pionier in Sachen digitale Sprachassistenten; „Internet of Voice“ einen kostenlosen Amazon Alexa Skill https://amzn.to/2vXIN3J veröffentlicht, der sich auf alle Alexa-kompatiblen Geräte installieren lässt.

Der erneute Beweis das digitale Sprachassistenten über alle Bereiche in Leben und Arbeiten ihren Siegeszug antreten und das „Internet of Voice“ als Vorreiter ihre Evangelisierungsfunktion für alle Unternehmer und Menschen weiter mit großer Energie antreibt.

Digitale Sprachassistenten für Unternehmen – Programmierung reicht nicht

Digitale Sprachassistenten wie Amazon Alexa und Google Assistant werden von den großen Technologiekonzernen massiv in den Markt gedrückt. Entsprechend geht für keinen Marktteilnehmer ein Weg an diesen Produkten/Diensten/Technologien vorbei.

„Digitale Sprachassistenten für Unternehmen – Programmierung reicht nicht“ weiterlesen

VSMS – Das PHP-Framework für die Programmierung von digitalen Sprachassistenten

Das Internet of Voice – Voice Skill Management System (= VSMS) ist ein PHP-Framework, um effizient die Leistungsfähigkeit von digitalen Sprachassistenten zu erhöhen und deren Funktion auf Basis von Skills zu verbessern.

Das Internet of Voice – Voice Skill Management System (= VSMS) ist ein PHP-Framework, um effizient die Leistungsfähigkeit von digitalen Sprachassistenten zu erhöhen und deren Funktion auf Basis von Skills zu verbessern.

Das System ist nun in seiner ersten Version auf Github frei verfügbar und präsentiert somit einen weiteren großen Schritt der Entwicklung von digitalen Sprachassistenten und des Projekts Internet of Voice.

So wurde z. B. auch der Amazon Alexa Skill „BlutdruckDaten“ damit bereits umgesetzt!

Gerne nehmen wir Fragen, Kritik und Anregungen entgegen und entwickeln das Framework natürlich in jede sinnvolle Richtung weiter. Aktuell dient es noch ausschließlich der Gestaltung von Alexa Skills und soll in Zukunft auch weitere Systeme einschließen. Mailt uns: Internet of Voice

Viel Spaß und Erfolg damit…

Euer Team von Internet of Voice – Alexander, Sascha, Marius, Robert

Amazon Alexa Skill für blutdruckdaten.de

Sinnvolle Anwendungsfälle für digitale Sprachassistenten sind derzeit noch sehr rar. Doch nun hat die Welt des Amazon Echo und dessen Sprachassistenz-Service „Alexa“ einen Skill mehr, der besonders für betroffene Hyper- und Hypotoniker mehr als nützlich ist.

Sinnvolle Anwendungsfälle für digitale Sprachassistenten sind derzeit noch sehr rar. Doch nun hat die Welt des Amazon Echo und dessen Sprachassistenz-Service „Alexa“ einen Skill mehr, der besonders für betroffene Hyper- und Hypotoniker mehr als nützlich ist. Letztlich ist die Gesundheit das Wichtigste für den Menschen und so hat Internet of Voice den entsprechenden Skill zum Thema Blutdruck für das bekannte Internetportal „blutdruckdaten.de“ in den Amazon Skills Shop eingestellt.

Dieser Skill ist in der Lage, die vom Nutzer über die Internetseite oder App eingetragenen Werte abzurufen (Nutzerkonto bei blutdruckdaten.de wird benötigt) oder sich generell (auch ohne Nutzerkonto bei blutdruckdaten.de) über den Blutdruck zu informieren.

Dieser Skill wurde mit Hilfe des Internet of Voice PHP-Frameworks VSMS (Voice Skill Management System) erstellt, das aktuell in seiner ersten Version bei Github vorliegt und noch viele weitere Entwicklungen erfahren soll.