Hallo Ivo und danke, dass du dir die Zeit genommen hast. Auf der Internet of Things Conference 2018 sprichst du über das Voice User Interface (VUI), das angetreten ist, um GUI und MUI zu ersetzen. Hältst du es für möglich, dass wir Geräte künftig nur noch über die Stimme steuern?
Ivo Wessel: Das Character Mode Interface der Siebziger Jahre ist sicher für die allermeisten Menschen vom GUI der Achtziger vollständig ersetzt worden – wenn sie es überhaupt je erlebt haben. Aber Web Interfaces, die in den Neunzigern eingeführt wurden sowie Mobile Interfaces, die es erst seit diesem Jahrtausend gibt, werden natürlich nicht durch VUI abgelöst. Wer will schon immer und überall zuhören müssen? Es gibt aber Situationen – übrigens auch im Alltagsleben –, in denen Sprache das ideale und optimale Kommunikationsmittel ist. Situationen, in denen man beispielsweise auch nicht mal mehr zu einem Gerät greifen möchte. Situationen, in denen selbst ein Smartphone zu viel Device wäre. Genau diese Situationen gilt es für Skill-Entwickler zu finden oder abzubilden. Es ergibt wenig Sinn, das jeweils vorherige Interface einfach nur zu portieren. Eine App ist idealerweise auch nicht nur eine mobile Webseite; und eine Webseite nicht nur ein elektronischer Prospekt.
Amazons Alexa erfreut sich wachsender Beliebtheit und immer mehr Entwickler beschäftigen sich mit dem erstellen von Skills. Kannst du vielleicht kurz zusammenfassen, was der Entwickler von Heute braucht, um solche Skills zu entwickeln? Welche Tools / Frameworks gibt es, die einem das Leben erleichtern können?
Es gibt Situationen, in denen selbst ein Smartphone zu viel Device wäre. Genau diese Situationen gilt es für Skill-Entwickler zu finden.
Ivo Wessel: Skills – also die Apps für Alexa-Geräte – leben in der Cloud, da sie nicht auf einem Gerät installiert werden, sondern auf sämtlichen Devices laufen, bei denen ein Benutzer angemeldet sein kann. Naturgemäß werden Daten daher auch nicht lokal, sondern in der Cloud, also einer Web-Datenbank gespeichert. Daher sind Werkzeuge eher Web-basiert, und auch Programme laufen auf einem Server. Für den Entwickler ergibt sich der Vorteil, dass er sich um das Hosting auch von Quellcode nur dann Gedanken machen muss, wenn er das selber übernehmen möchte. Was etwa bei der Benutzung von eigenen Web-Services und MySQL-Datenbanken zusätzliche Vorteile bietet. Ansonsten liegen Programme und Daten in einer Amazon Cloud. Vom Hosting verstehen die ja auch was. Und einen Skill Store haben die ja auch sofort auf die Beine gestellt, damit man seine Skills weltweit vertreiben kann.
Warum setzt man gerade auf Node.js – welche Vor- und Nachteile ergeben sich daraus?
Ivo Wessel: Programme laufen auf einem Web-Server. JavaScript ist eine im Vergleich etwa zu Objective-C, Swift, C# oder C++ überschaubare Sprache, die man schnell erlernen kann – wenn man sie ohnehin nicht schon halbwegs fließend spricht. Alexa Skills lassen sich dank eines Command Line Interfaces aber auch außerhalb eines Web-Browsers editieren und deployen. Das Alexa CLI hat dann übrigens lustigerweise wieder eine Art Character Mode Interface. Programmieren kann jeder aber natürlich in seinem oder ihrem Lieblingseditor. Man muss dazu dann allerdings nicht online sein. Neben der Programmierung von Reaktionen auf Gesprochenes gilt es aber auch, das Sprachinterface selber zu implementieren und mögliche Dialoge zu entwerfen. Das läuft dann eher mit Papier & Bleistift ab.
GUI, MUI, VUI…was wird deiner Meinung nach der nächste Schritt in der Evolution der Bedienung sein?
Der nächste Interface-Schritt sind vermutlich denkgesteuerte Prozesse. Vorher wird es mehr in Richtung Raten und Schlussfolgern gehen.
Ivo Wessel: Für die Entwicklung eines funktionierenden Sprachinterfaces ist die Zeit eben erst reif geworden – nicht nur in technischer Hinsicht. Natürlich ist das auch eine Folge der weltweiten politischen Situation – ich kenne noch Zeiten, in denen man eine Spracherkennung individuell trainieren musste. Sie war dann auf die eine Person hin zugeschnitten. Möchte man Personen abhören, muss das natürlich anders implementiert sein. Auch der Umgang mit Daten hat sich seitdem stark verändert. Der nächste Interface-Schritt wären dann vermutlich denkgesteuerte Prozesse. Das ist aber eine Musik, die hoffentlich jenseits der näheren Zukunft spielt. Vorher wird es mehr in Richtung Raten und Schlussfolgern gehen. Unter Einbeziehung von Big Data, Gewohnheiten und kontextabhängigen Situationen lassen sich intelligente User Interfaces konstruieren, die Zusammenhänge und Logiken bewerten können und mit hoher Wahrscheinlichkeit richtig reagieren, ohne dass der Benutzer einen Knopf drücken oder ein Kommando sprechen muss. „Predictive User Interfaces“ – das wäre dann wirklich „smart“.
Was soll jeder Besucher deiner Keynote in jedem Fall mit nach Hause nehmen?
Ivo Wessel: Die Entwicklung von Skills macht Spass und ist vergleichsweise unaufwendig. Die Werkzeuge sind gratis und laufen im Web-Browser. Es gibt sogar einen Echo-Simulator, aber einen Echo Dot für um die 50 Euro sollte man sich schon anschaffen. Dann kann man ganz wunderbar in die neue Welt der Voice User Interfaces eintauchen. Natürlich stehen wir erst am Anfang, und naturgemäß gibt es gerade jetzt noch viele Irrwege und Sackgassen. Nicht jede Anwendung leuchtet so ein wie etwa Haussteuerung – und auch da gibt es bekanntlich viel Unsinn. Der Besucher meiner Session ist ja ausdrücklich eingeladen, Sinn und Unsinn, das Machbare und die Grenzen zu erkennen, um dann vielleicht eigene Killer Applications entwickeln zu können, die man dann sofort auf dem Echo Dot laufen lassen und testen kann. Es ist toll, dass man mit so wenig Einsatz schon jetzt dabei sein kann.
Interviewt von: Dominik Mohilo
Dominik Mohilo studierte Germanistik und Soziologie an der Goethe-Universität in Frankfurt. Seit 2015 ist er Redakteur bei S&S-Media.
IoT Conference 2020 – Program
● Deep Learning for IoT Devices
● Real Time Analytics on the Edge and in the Cloud with Azure IoT