Smart Speaker & Voice Control: The next big thing?

Mann und Frau vor einem Voice Speaker mit mehreren Symbolen - HEUTE UND MORGEN

Juli 17, 2019

Digitale Sprachtechnologien und sprachgesteuerte Devices – allen voran die derzeit boomenden Smart Speaker – erobern zunehmend den Alltag. Welche Möglichkeiten, Veränderungen, Chancen und Potenziale ergeben sich daraus für Wirtschaft und Verbraucher? Fragen, die sich derzeit viele stellen, längst nicht mehr nur Entwickler, Innovatoren oder Technologiefreaks.

Doch zunächst ein kurzer Blick auf die menschliche Entwicklung: Denn hier steht das Sprechen (und verstehende Hören) zunächst an erster Stelle, phylogenetisch wie ontogenetisch. Die mündliche Sprache erlaubt uns, schon sehr früh mit anderen in Kontakt zu treten, wirksam zu werden, uns der Welt zu bemächtigen. Später nimmt die Bedeutung der schriftlichen Sprache sukzessive zu, gewinnt in manchen Lebensbereichen sogar führenden Charakter, etwa bei der Aneignung von Wissen oder in formalisierten Kommunikationskontexten. Mehr noch: Seit dem Siegeszug von PC, Smartphone und Internet hat die schriftliche Sprache die orale bisweilen sogar verdrängt, ihr den Rang abgelaufen:
Wir tippen, texten, mailen, posten, chatten etc. mittlerweile was das Zeug hält – auch in Zusammenhängen, in denen früher ganz selbstverständlich von Angesicht zu Angesicht oder telefonisch miteinander gesprochen wurde. Dies hat unter anderem mit dem Verhältnis von Nähe und Distanz zu unserem kommunikativen Gegenüber zu tun – raumzeitlich wie auch emotional. Fest steht zudem: Das „Tippen“ auf allerlei haptischen und virtuellen „Tastaturen“ mit Buchstaben, Symbolen und Befehlen ist im digitalen Alltag zu einem zentralen Lebens-Steuerungsmodus geworden. Wird das dauerhaft so bleiben?

Auf dem Weg in einen sprachgesteuerten digitalen Alltag

Oder kehrt mit der digitalen Sprachsteuerung – und insbesondere mit Smart Speakern und digitalen Sprachassistenten wie Alexa, Siri oder Google Assistant – das relative „Primat“ der gesprochenen Sprache in den digitalen Alltag zurück?

Einiges spricht dafür: Trotz aller Datenschutzbedenken bevölkern hierzulande immer mehr Smart Speaker und andere sprachgesteuerte Devices unsere Wohnungen. Rund jeder fünfte Haushalt nutzt sie schon. Bisher meist zum Abspielen bestimmter Musik, zur Ansage von Wetterberichten oder Nachrichten, zum Fragenstellen, bisweilen auch für die Erledigung einfacher Aufgaben und als sprachassistierter Terminplaner und Reminder. Jung und Alt, Männer wie Frauen, Gebildetere und Ungebildetere sind hier gleichermaßen aktiv – längst nicht mehr nur die „Early Adopter“ oder „Techies“.

Vorreiter Apple brachte „Siri“ bereits 2011 auf das Smartphone, den richtigen Schub und Durchbruch hat das Thema Voice-Control aber erst durch die Smart Speaker wie Amazons Echo Dot (hierzulande aktuell Marktführer), Apples HomePod oder Google Home (Marktführer in den USA) erhalten.

Smart Speaker und deren Sprachassistenten können – erweitert um sogenannte „Skills“ oder „Actions“, die ähnlich wie „Apps“ auf dem Smartphone funktionieren – sogar bereits weit mehr, als vielen bekannt ist:
Es lässt sich damit spielen, im Internet suchen, Sprachen lernen, einkaufen, sogar schon kleinere Geldbeträge überweisen (aktuell teils wieder gestoppt) oder auch einfache Verträge bei Versicherern abschließen. Wohlgemerkt: Alles sprachgesteuert, ohne zu „tippen“ und zu „texten“.

Großes Potenzial für Unternehmen aus allen Branchen

All dies ist natürlich den Unternehmen und der Werbewirtschaft nicht verborgen geblieben. Die Chancen von Sprachassistenten und Voice-Control für Marketing, Vertrieb und Service erscheinen gewaltig, werden derzeit intensiv ausgelotet und es wird viel damit experimentiert. Auch in Recruiting-Prozessen arbeitet man damit. Neue Voice-Begriffe haben nicht lang auf sich warten lassen: „V-Commerce, „V-Marketing“, „V-Branding“ etc. – neue Audio-Berufsbilder sind im Entstehen.

Was aber davon ist Hype, was hat Substanz und echtes Potenzial? Wie schnell und nachhaltig werden sich die Konsumenten an neue sprachgesteuerte Mensch-Maschine-Interaktionsformen gewöhnen und sie anderen digitalen Steuerungsformen vorziehen? Wie lassen sich insbesondere in Deutschland und anderen europäischen Ländern weit verbreitete Datenschutzbedenken ausräumen (die an sich nicht neu sind, beim zunehmenden Eindringen digitaler Geräte und sprachlicher digitaler Aufzeichnungen in den häuslichen Lebensraum aber noch einmal bewusster werden)? Wird die digitale Sprachsteuerung das „Tippen“ und „Texten“ ergänzen oder zunehmend sogar verdrängen? Werden Smart Speaker den Verbraucheralltag noch viel schneller erobern als seinerzeit die Smartphones? Die übergreifende Frage lautet also: Ist mit Smart Speakern (und damit gekoppelten Smartphones und anderen technischen Voice-Geräten) schon das „Next Big Thing“ gefunden?

Entwicklung meist noch in den Kinderschuhen

Betrachtet man beispielsweise das derzeit stark wachsende Angebot an Skills (Voice-Apps) für Amazon Echo & Co., zeigt sich hierzulande noch sehr vieles im Experimentalstadium und in den Kinderschuhen. Manches mutet banal, unausgereift oder sogar eher lächerlich an – teils rein technisch, vor allem aber auf der Ebene der Inhalte.
Vieles ist aktuell noch weit entfernt von überzeugendem Content, von eigenständigen Mehrwerten und auch weit weg von strukturierten und zugleich flexiblen Dialogen. Manch eine Voice-Anwendung wäre besser zunächst noch in der Experimentierstube verlieben. Und „Alexa“ selbst hilft sich selbst bei einfach erscheinenden Anweisungen und Fragen oft noch mit der Antwort: „Das weiß ich nicht.“ Mancher verzeiht das, mancher ist davon genervt, stellt sich unter „Künstlicher Intelligenz“ etwas anderes vor. Wirklich genutzt werden Voice-Skills nur selten. Daran sind aber nicht nur die noch geringe Qualität und Attraktivität der Voice-Angebote Schuld. Auch die schlechte Auffindbarkeit und die mangelnde Kommunikation in relevanten Zielgruppen tragen dazu bei.

Ähnliche Kinderkrankheiten gab es anfänglich auch bei den „Apps“ (aus deren Flut sich später dann nur ein Teil in nennenswertem Maße durchgesetzt hat) oder dem Online-Einkauf, deren Anwendung heute völlig selbstverständlich ist.

Grundsätzlich wird das die weitere Entwicklung der Sprachtechnologien, von hochwertigem Voice-Content und von dialoghaften, interaktiven Prozessen in V-Marketing, V-Vertrieb und V-Service nicht aufhalten.
Im Gegenteil: Das Feld ist offen für überzeugende Angebote, gerade auch im Skill-Bereich. Interesse an guten, smarten und innovativen Anwendungen ist in der rasch wachsenden Gruppe der Smart-Speaker-Nutzer in hohem Maße vorhanden. Manches funktioniert hier auch bereits erstaunlich gut. Und experimentelle Alltagsanwendungen der Sprachtechnologien – wie beispielsweise „Google Duplex“ oder das noch viel breiter angelegte KI-Entwicklungsprogramm „Deep Mind“ – zeigen, wohin die weitere Reise geht und gehen kann.

Erfolgsentscheidend werden vor allem gut strukturierte, mehrwertschaffende, vereinfachende und begeisternde sprachgesteuerte Prozesse sein. Reine Spielereien und Experimente mögen am Anfang stehen, auf Dauer reichen diese natürlich nicht. Die Zeit, in der es beispielsweise heißt: „Alexa, Google, Siri … kauf mir Produkt xyz“, „Mach mir für nächsten Monat einen Termin mit meinem Arzt“, „Wo kann ich am Wochenende besonders günstig in Berlin übernachten? … Buche mir dort ein Zimmer“ oder „Wer bietet mir aktuell das günstigste Angebot für eine Kfz-Versicherung?“ und so weiter…, erscheint aber nicht mehr so fern.

Wichtige Fragen

Darauf, und auf weitere Entwicklungen im Voice-Sektor, sollten Unternehmen vorbereitet sein. Wer jetzt oder in naher Zukunft stärker in den Bereich der Sprachsteuerung einsteigen will, kann oder muss, dem stellen sich eine ganze Reihe von Fragen (die sich je nach Branche und Entwicklungshorizont sehr deutlich voneinander unterscheiden können). Beispielsweise:

Was wollen wir mit Voice-Control-Anwendungen überhaupt erreichen? Welche konkreten Ziele verbinden wir damit – welche speziell für das Marketing, für den Vertrieb, für den Service?
Welche Voice-Strategien eignen sich für uns am besten zur Erreichung der Ziele?
Was wissen wir von den Erwartungen und Wünsche der aktuellen und zukünftigen Nutzer von Smart Speakern und Sprachassistenten – und nicht zuletzt speziell auch von denen, die unsere Kunden bzw. Zielgruppen sind?
Welche unserer Leistungen und Prozesse haben das Potenzial, sinnvoll und integriert im Voice-Kanal umgesetzt zu werden? Welche nicht? Welche neuen Entwicklungsmöglichkeiten ergeben sich?
Welche Prozesse können / müssen wir in welcher Weise noch vereinfachen, damit diese digital – und speziell sprachgesteuert – transformierbar sind? Welche investitionsrelevanten und welche technischen Aspekte müssen geklärt werden?
Wie lassen sich bereits bestehende oder gerade in der Entwicklung befindliche sprachgesteuerte Anwendungen – wie etwa Skills – noch besser bei den Kunden vermitteln und kommunizieren?
Mit welchen Anwendungen – im derzeit noch recht überschaubaren und längst noch nicht überzeugenden Skill-Angebot – können wir unsere Kunden auf dem Voice-Kanal begeistern?
Welche relevanten Plattformen und welche Devices wollen wir mit Voice-Anwendungen fokussieren? Welche passen am besten zu unseren Zielen und Zielgruppen?
Welche ganz eigenen (plattformunabhängigen) Entwicklungen in der Anwendung von Sprachtechnologien wollen wir innerhalb unserer Kommunikationskanäle vorantreiben?
Welche Richtlinien – plattformbezogen wie auch unternehmensintern – gilt es, bei Voice-Strategien und einzelnen Voice-Anwendungen zu berücksichtigen (Compliance, Datenschutz etc.)?
Wie schaffen wir es, uns von den Voice-Angeboten der Konkurrenz abzuheben, generell echte Mehrwerte zu liefern und Begeisterung zu stiften, statt nur mehr oder minder gut gemachte Voice-Spielereien zu liefern?
Was machen neue digitale Kanäle – hier der Voice-Kanal – mit unserer Marke und unseren Kundenbeziehungen? Wie lassen sich diese mit anderen Interaktionsformen und Touch-Points überzeugend integrieren?
Welche möglicherweise völlig neuen Leistungen und Geschäftsmodelle ergeben sich durch Voice-Control in unserem Markt?

Generell gefragt in der eigenen Entwicklung sind Mut und Kreativität, zugleich aber auch notwendige Strategie und Strukturiertheit. Und nicht zuletzt auch ein gesundes Maß an Skepsis gegenüber Hypes, die eher nur medialer Aufmerksamkeit oder einfach primär den Interessen von Tech-Riesen, Plattformen und damit verbundenen Dienstleister-Heeren dienen. Substanziellen Entwicklungen in der Sprachsteuerung und den Smart-Voice-Devices gehört aber recht sicher die Zukunft. Viele Chancen und Potenziale ergeben sich bei intelligenter Umsetzung daraus.
Dies bedeutet freilich keineswegs, dass „Tastatursteuerung“, „Tippen“ und „Texten“ aus unserem digitalen Alltag wieder verschwinden werden. Zukunft entwickelt sich bekanntermaßen selten linear, selten einseitig, auch nicht über Nacht. Sie hat, wenn man sie wahrnimmt, aber immer schon längst begonnen…

Weitere Informationen zum Thema Voice-Control und dessen Anwendungen finden Sie auch hier:

Interview mit Tanja Höllger, Geschäftsführerin bei HEUTE UND MORGEN

https://www.cash-online.de/berater/2019/unsere-ergebnisse-zeigen-dass-die-skill-angebote-auf-hohes-interesse-stossen/473306

Presseberichterstattung zu unserer aktuellen Skill-Trendstudie

https://www.it-finanzmagazin.de/studie-versicherer-krankenkassen-smart-speaker-91876/

Für Weiteres sprechen Sie uns gerne an!

E-Mail an die Redaktion