Das ultimative Buch zu digitalen Sprachassistenten! Wo bleibt es?

Bereits 2016 habe ich (Robert C. Mendez/Internet of Voice), damit angefangen ein Buch zu Smart Voice/Digitale Sprachassistenten zu bauen. Aktuell ist es zu 90% fertiggestellt und muss natürlich auch noch durch das Lektorat. Es ist an alle interessierten Unternehmen adressiert, die das Thema verstehen wollen um darin aktiv zu werden, bevor irgendwelche Budgets ihren Weg nehmen.

Stets habe ich alle möglichen Entwicklungen in der Smart Voice Branche sehr genau beobachtet und versucht daraus einen konstruktiven Schluss für das Buch zu ziehen. Letztendlich ist gut zu beobachten, das die Systemanbieter immer schön fleißig, die digitalen Sprachassistenten in ihrer Funktionsbreite massiv entwickeln, in ihrer Funktionstiefe aber kaum. Ebenso klebt die Smart Voice Branche selbst, noch immer an traditionellen Strategien und Methoden und spricht auch in 2021 im Grunde nur wenig anders als 2016. Auch wenn der Markt selbst, sich seit 2016 natürlich massiv in seiner Größe entwickelt hat.

Bisherige Bücher behandeln primär die Entwicklung von Sprachassistenten auf Codeebene, oder versuchen die Digitalen Sprachassistenten mit traditionellen Marketing zu vereinen. Beides ist nicht falsch, aber eben schlicht und einfach Vergangenheit und nicht Vorwärtsgerichtet. Trotzdem trotzt die Smart Voice Branche mit einer gewissen Hochnäsigkeit der aktuellen wirtschaftlichen Entwicklung durch die Corona-Pandemie und macht lauthals mit den doch eher alten Parolen weiter. Das ist eigentlich auch gut so, auch wenn ein wenig mehr Innovation bitter nötig wäre.

Digitale Sprachassistenten haben definitiv ihren Weg in die Unternehmen und auch Haushalte gefunden, beziehungsweise meistens nur bis vor dessen Haustür. Trotzdem ist diese Entwicklung noch ganz am Anfang und hat noch immer riesiges Potential, welches der Markt aktuell aber auch gar nicht abruft.

Digitale Sprachassistenten, sind aktuell nicht mehr als die „Steuerung per Stimme“ und werden es auf lange Sicht auch noch bleiben. Die Corona-Pandemie hat auch hier dem Smart-Voice Markt einen fetten Bremsklotz vors Mikrofon geworfen. Immer mehr Unternehmen stellen ihre Entwicklungen ein oder frieren sie ein. Selbst motivierte Unternehmen wie REWE die mit großen Einsatz im Smart Voice Segment gestartet sind, haben sich inzwischen gänzlich daraus verabschiedet. Das ist kein Geunke, sondern Realität und meiner Meinung nach eigentlich eh nötig, denn es haben sich auch viel zu viele Merkwürdigkeiten auf dem Markt blicken lassen, so wie zum Beispiel sehr fragwürdige/teure Ausbildungskurse zum „Voice Berater“ (Gesangslehrer?) mit entsprechenden Gehaltsversprechen. Eine Entwicklung, die der eh schwierigen Vertrauenslage der digitalen Sprachassistenten immens schadet.

Wie dem auch sei, dem Stand der Dinge nach zu urteilen, wird mein Buch, auch 2021 noch nicht seinen Weg in dem Markt finden, weil ich einfach das Gefühl habe, das es der aktuellen Marktsituation nicht passend ist. Dies bietet mir die Gelegenheit es weiter zu optimieren um es dann vielleicht 2022 veröffentlichen zu können. Ich sehe bei dem Stand der Entwicklung einfach keinen Sinn darin ein Buch zu einem Thema zu veröffentlichen, welches aktuell nicht ausreichend Interesse  bei den Unternehmen hat.

Also…. See you in 2022? Maybe 😉

Wie werde ich VUI Designer für digitale Sprachassistenten?

Die aktuelle Antwort dazu lautet: Wie immer du willst! Denn den VUI-Designer (VUI = Voice User Interface), gibt es als Ausbildungsberuf oder Titel „noch“ nicht. Dabei ist er aber für den aktuell schnell wachsenden Market der digitalen Sprachassistenten oder auch „virtueller Assistenzsysteme“ wie Amazon Alexa oder Google Assistant, bitter nötig.

„Medien für das Auge“ haben im Laufe ihrer Geschichte eine ganze Reihe an Berufen hervorgebracht. Ob es der „Drucker“ war der die Zeitung herstellt, oder bis heute der Screen Designer. Für hörbare Medien überließ man das Feld dann den Meistern der vielen Knöpfe im Tonstudio oder anderen kreativen Köpfen wie Linguisten, Sprechern, Sängern oder Journalisten.

Die Gestaltung des Mediums „Ton“ erfordert andere/weitere Kenntnisse als die des Mediums Bild. Die Gestaltung des Mediums „Sprache“, erfordert dann nochmals weitere Kenntnisse. Letztendlich auch weil die gesprochene Sprache das emotionalste und sensibelste Medium für den Menschen ist, so ist auch geschriebene Sprache nicht gesprochene Sprache, weil niemand schreibt wie er spricht oder umgekehrt.

Es braucht auch bei der Gestaltung der gesprochenen Sprache besondere Kenntnisse wie auch bei der Gestaltung einer möglichen Nutzerführung oder Nutzerschnittstelle per Sprache. Entsprechend wirkt sich dies alles schlussendlich dann auch auf die Nutzung von Anschlussmedien aus, wie z.B dem Bildschirm, oder auch auf die Form der Inhalte, so das zum Beispiel aus dem bisher Schlagworten basierten und identifizierenden Online Marketing, ein in natürlicher Sprache und auf Absichten basiertes Intent Marketing wird.

Smart Voice (natürliche gesprochene Sprache in der Mensch-Maschine Kommunikation), ist keine in sich geschlossene Blase, sondern ein Medium welches übergreifend über alle möglichen Systeme, Medien, Prozesse und/oder Inhalte funktioniert und diese verändert. Nicht mit einem Schlag wie viele Dampfplauderer es jetzt herbeireden, aber merklich immer mehr und in ein paar Jahren ist bei vielen Menschen Smart Voice fast unbemerkt in ihre Leben eingezogen, so wie es bisher jedes Medium getan hat.

Was gilt es also zu wissen/können um sich VUI-Designer nennen zu können/dürfen? Nun, wie zu Anfangs erwähnt, gibt es da keine feste Definition. Aber versuchen wir es trotzdem mal…


– Gestaltung von Bildschirmmedien

Warum das? Ganz einfach, weil „Smart Voice“ oder „Sprachassistenz“ nicht bei „nur Stimme aufhört“. Die meisten Anwendungsfälle sind sogar für „nur Stimme“ gar nicht vollumfänglich geeignet und brauchen entsprechende weiterführende Medien wie z.B einen Bildschirm. Daher gilt es den Bildschirm auf „Voice First“ hin zu gestalten und in den Anwendungsfällen den Sattelpunkt auszuloten wo „nur Stimme“ oder eben „Stimme und mehr“ herhalten muss. Daher ist das Wissen über Screen Design ein nötiges an dieser Stelle. Es sei denn das man wirklich nur Anwendungsfälle herstellt die zu 100% über nur Stimme abzufackeln sind. Was aber wohl doch eher selten der Fall sein wird.

– Gestaltung von Audiomedien

Logischerweise braucht ein Medium fürs Ohr auch das Wissen darüber wie man es gestaltet. Ob nun über Anweisungen wie SSML oder über die Manipulation in einem Editor für Audiodateien. Gesprochene Sprache muss stets gut klingen und dem Anwendungsfall, wie auch der Persönlichkeit des Nutzers oder des Anwendungsfalls entsprechen. Es wäre doch sehr merkwüdig wenn z.B eine Sprachassistent zum Motivieren eines Nutzers extrem langsam und langweilig klingen würde. Oder wenn eine Marke für Luxusartikel seinen Sprachassistenten mit Worten aus der Unterschicht auskleiden würde. Oft sind besonders bei der Stimme schon kleine Nuancen wichtig um die richtige Aussage zu treffen oder eben nicht zu treffen.

– Gestaltung von Sprache

Nicht nur grundlegend, sondern grundlegend grundlegend ist das Wissen über das Wesen der Sprache. Wer also z.B Linguist oder gar Computerlinguist ist, hat hier schon mal einen großen Vorteil. Eigentlich ist das Wissen über die Sprache der Ausgangspunkt für alles andere, denn ohne dies, braucht es den ganzen Rest nicht. Die Akzeptanz eines Mediums wie einem digitalen Sprachassistenten entscheidet sich stets an der Barrierefreiheit seiner Nutzungsmöglichkeit. Funktioniert die Benutzerschnittstelle nicht, funktioniert der ganze Rest auch nicht, egal wie toll alles „dahinter“ auch sein mag. Ergo: Ohne Wissen über Sprache, kein VUI-Design.

– Gestaltung von Nutzerführung

„Customer Journey“ und „User Experience“ gehören zum unbedingten Wortschatz eines jeden Bullshit Bingos im Medienbereich. Nicht nur weil es Spaß macht, sondern weil es in der Tat nicht unwichtig ist wie man den Nutzer leitet. Insofern die Sprache mit dem Nutzer funktioniert, muss die Nutzerführung dafür sorgen dass der Nutzer nun nicht wieder verloren geht. Anderseits gibt es Millionen von Beispielen bei denen die Nutzerführung eine echte Katastrophe ist, die Nutzer es aber dennoch „erlernt“ haben und am trotzdem Ball bleiben. So ist die Gestaltung der Nutzerführung also eine Gradwanderung zwischen „voll wichtig“ und „völliger Quark“. Ein versierter „UXler“ hat zwar ein besseres Auge für die Wünsche des Nutzers, kommt aber in der Regel vom Bildschirm und muss daher seine Grundlagen umstellen, was in der Regel mehr als schwer fällt. Ein Unternehmen welches sich also aufstellt um auch für Smart Voice zu entwickeln und dabei seine bereits vorhandene „UX“ Abteilung als Plusfunkt anführt, hat daran vorbeigeschossen. Es braucht viel mehr als das!

– Psychologie & Didaktik

Kein Medium ist so nah am Menschen, so emotional und so sensibel wie die gesprochene Sprache. Wer hier mit einem völlig unpersonalierten Phrasenhammer kommt, wird grandios scheitern. Der digitale Sprachassistent ist der „persönliche Assistent“ seines Nutzers und entsprechend muss eben genau diese Personalisierung die Grundlage für die Methodik und Gestaltung der Sprache zum Nutzer hin sein. Sensibilität ist oberstes Gebot um ins Ohr des Nutzers zu kommen und sein Vertrauen zu gewinnen. Dazu bedarf es Wissen rund um das menschliche Wesen und seiner Denk- und Sprechweise. Der Mensch denkt und spricht in „Absichten“ (Intents). Diese Absichten zu erfüllen und den Nutzer so stark wie nur möglich zu personalisieren muss stets das primäre Ziel des VUI-Designers sein. Psychologie und Didaktik sind untrennbar mit dem Wissen über die Gestaltung von Sprache und auch die Gestaltung von Personas und Charaktären verbunden und daher genauso grundlegend grundlegend!

– Informatik & Prozessgestaltung

Um das gedachte für alle Menschen verständlich zu machen, braucht es eine „Formalisierung“. Jeder VUI-Designer der seine noch so genialen Einfälle nicht kommunizieren kann (Was ein Wiederspruch in sich ist!), dürfte am Ende in der Umsetzung seiner Gedanken ein großes Problem haben. Daher ist die Informatik die Wissenschaft die es braucht um die VUI-Ideen auf den kleinsten gemeinsamen Nenner zwischen Menschen und Menschen und zwischen Menschen und Maschinen zu bringen. Wer im Informatik Unterricht aufgepasst hat, dem werden spätestens jetzt „Graphen & Diagramme“ wieder schmerzvoll in den Kopf kommen.

Letztendlich bildet die Informatik dann auch die Brücke hin zur Programmierung. Um dies zu gestalten braucht es Verfahren die so flexibel wie nur möglich sind, so wie die Sprache es ja auch ist. Die erste Wahl dazu dürften „Design Patterns“ sein, da nur sie die in entsprechend vielen Varianten die Anwendungsfälle abbilden können. Einfach nur mit den beliebten Ablaufdiagrammen oder gar Bäumen zu hantieren, wäre viel zu kurz gedacht. Daher sind auch die momentan viel entwickelten graphischen Nutzeroberflächen für die Entwicklung von Alexa-Skills nur ein kleiner Teil des Kuchens die auch nur einfach Anwendungsfälle mit weniger Intelligenz abdecken können und werden. Viel Teig macht halt noch immer keinen guten Kuchen.


Was noch? Nun, das wird sich im Laufe der Zeit zeigen. Noch ist die Branche jung und es braucht noch viele Ideen, Entwicklungen, Standards und Mut damit man Smart Voice und damit auch den VUI-Designer überhaupt beschreiben kann. So wie der Screen-Designer seinen Weg als Berufsbild gefunden hat, so wird auch der Smart Voice/VUI-Designer seinen Weg finden, das ist sicher.

Und was ist jetzt mit „Programmierung“? Was soll damit sein? Ein Architekt baut seine Häuser schließlich ja auch nicht selbst. Wer meint ein guter VUI-Designer zu sein, wird kein guter Programmierer sein und umgekehrt. Die Welt der Medien und auch des Smart Voice Segments ist viel zu komplex als dann ein Mensch alleine dieses Wissen innehaben könnte. Es braucht viele Köpfe um Kompetent in allem zu sein. Letztendlich schadet es nicht auch Programmieren zu können um die Grenzen der Systeme und die Realisierbarkeit der Ideen besser abschätzen zu können. Wer jedoch bei der Projektentwicklung eines Smart Voice Projekt den Programmierer nicht eh von vorneherein mit an Bord hat, ist selbst schuld.

Auch wenn die Programmierung das kleinste Todo am Ende der Prozesskette ist, so sollte sie zwingend einen Platz in der Projektentwicklung haben um beratend einzugreifen. Ein Programmierer sollte jedoch, niemals der Kopf eines Smart Voice Projekts sein, ebenso wenig wie ein Marketer, ein Grafiker oder ein BWLer *Zwinckersmile*.
In diesem Sinne, auf auf und werde VUI-Designer. Es wird dein Schaden nicht sein! Hast du noch Ideen um das Berufsbild des VUI-Designers zu deifnieren? Schreib uns: info@internet-of-voice.de