Die Zukunft von Alexa: Generative KI und Gesprächs-KI-Fähigkeiten

Mit generativer KI, die unser Leitstern für Alexa in greifbare Nähe rückt, präsentieren wir ein neues großes Sprachmodell und eine Reihe von Gesprächs-KI-Fähigkeiten, die dazu beitragen werden, Alexa noch intuitiver, intelligenter und nützlicher zu gestalten. In den letzten Jahren haben wir oft darüber gesprochen, dass wir in einem goldenen Zeitalter der künstlichen Intelligenz (KI) leben. Ideen, die vor nicht allzu langer Zeit wie Science-Fiction erschienen, sind jetzt Realität – und es gibt kein besseres Beispiel dafür als Alexa. Was als Skizze auf einer Tafel begann, hat sich zu einem völlig neuen Computing-Paradigma entwickelt – einem, das grundlegend verändert hat, wie Menschen auf der ganzen Welt mit Technologie in ihren Häusern interagieren.

Die Zukunft von Alexa: Generative KI und Gesprächs-KI-Fähigkeiten
Die Zukunft von Alexa: Generative KI und Gesprächs-KI-Fähigkeiten. ©Amazon

Die Evolution eines Familienmitglieds – Wie generative KI die Zukunft der Sprachinteraktion neu gestaltet

Mit über einer halben Milliarde verkauften Geräten und zig Millionen Interaktionen pro Stunde ist Alexa in Millionen von Haushalten zu einem Familienmitglied geworden. Wir haben Alexa immer als einen sich entwickelnden Dienst betrachtet und ihn seit dem Tag, an dem wir ihn 2014 eingeführt haben, kontinuierlich verbessert. Eine langjährige Mission war es, ein Gespräch so natürlich wie ein Gespräch mit einem anderen Menschen zu gestalten, und mit der schnellen Entwicklung der generativen KI ist das, was wir uns vorgestellt haben, jetzt gut erreichbar. Heute freuen wir uns, eine erste Vorschau darauf zu geben, wie die Zukunft aussieht.

Dies ist ein erster Blick auf eine klügere und gesprächigere Alexa, angetrieben durch generative KI. Sie basiert auf einem neuen großen Sprachmodell (LLM), das speziell für Sprachinteraktionen optimiert wurde, und den Dingen, die wir wissen, dass unsere Kunden lieben – Echtzeitinformationen, effiziente Steuerung des Smart Homes und Maximierung ihrer Heimunterhaltung. Wir glauben, dass dies die Zukunft antreiben wird und es uns ermöglichen wird, fünf grundlegende Fähigkeiten zu verbessern.

5 Grundlegende Möglichkeiten von Alexa

Konversation

Wir haben in den letzten Jahren viel über Konversation gelernt, und wir wissen, dass Gesprächigkeit über Worte hinausgeht. In jeder Unterhaltung verarbeiten wir eine Menge zusätzlicher Informationen, wie Körpersprache, Kenntnisse über die Person, mit der wir sprechen, und Augenkontakt. Um das zu ermöglichen, haben wir die Eingabe von den Sensoren in einem Echo – der Kamera, der Spracheingabe, seiner Fähigkeit, Anwesenheit zu erkennen – mit KI-Modellen verschmolzen, die diese nonverbalen Hinweise verstehen können.

Wir haben uns auch darauf konzentriert, die Latenz zu reduzieren, damit Gespräche natürlich fließen, ohne Pause, und die Antworten die richtige Länge für die Sprache haben – nicht das Äquivalent des Zuhörens von Absatz für Absatz, der laut vorgelesen wird. Wenn Sie nach den neuesten Informationen zu einer Trendnachricht fragen, erhalten Sie eine prägnante Antwort mit nur den relevantesten Informationen. Wenn Sie mehr wissen möchten, können Sie nachfragen.

Praktischer Nutzen in der realen Welt

Um wirklich nützlich zu sein, muss Alexa in der Lage sein, in der realen Welt Maßnahmen zu ergreifen, was eine der ungelösten Herausforderungen bei LLMs war – wie man APIs im großen Maßstab integriert und sie zuverlässig aufruft, um die richtigen Maßnahmen zu ergreifen. Dieses neue Alexa LLM wird mit Hunderttausenden von realen Geräten und Diensten über APIs verbunden sein. Es verbessert auch Alexas Fähigkeit, Nuancen und Mehrdeutigkeiten zu verarbeiten – ähnlich wie eine Person – und intelligent zu handeln.

Zum Beispiel gibt Ihnen das LLM die Möglichkeit, komplexe Routinen vollständig per Sprache zu programmieren – Kunden können einfach sagen: „Jeden Wochentag um 21 Uhr eine Ankündigung machen, dass es Schlafenszeit für die Kinder ist, die Lichter im Obergeschoss dimmen, das Veranda-Licht einschalten und den Ventilator im Schlafzimmer einschalten.“ Alexa wird dann automatisch diese Reihe von Aktionen programmieren, die jeden Abend um 21 Uhr stattfinden werden.

Personalisierung und Kontext

Ein LLM für das Zuhause muss auf Sie und Ihre Familie zugeschnitten sein. Genau wie ein Gespräch mit einer anderen Person durch den Kontext geprägt wäre – wie Ihre vorherigen Gespräche oder der situative Kontext – muss Alexa dasselbe tun. Die nächste Generation wird in der Lage sein, einzigartige Erfahrungen auf der Grundlage der von Ihnen geteilten Vorlieben, der Dienste, mit denen Sie interagiert haben, und Informationen über Ihre Umgebung zu liefern. Alexa überträgt auch relevanten Kontext während der Gespräche, so wie es Menschen die ganze Zeit tun. Menschen verwenden Pronomen, Schlagworte und bauen den Kontext der Orte, Zeiten oder Szenen auf, über die wir sprechen. Fragen Sie eine Frage über ein Museum, und Sie können eine Reihe von Folgefragen zu seinen Öffnungszeiten, Ausstellungen und Standort stellen, ohne einen der vorherigen Kontexte, wie den Namen oder den Tag, an dem Sie gehen möchten, erneut angeben zu müssen.

Persönlichkeit

Kunden haben uns immer wieder gesagt, dass sie Alexas Persönlichkeit lieben. Sie wollen keinen langweiligen, roboterhaften Begleiter in Ihrem Zuhause, und ich würde argumentieren, dass Alexas Persönlichkeit einer der größten Gründe für die breite Akzeptanz ist. Wie wir immer gesagt haben, ist die langweiligste Dinnerparty eine, bei der niemand eine Meinung hat – und mit diesem neuen LLM wird Alexa eine Meinung haben, was Gespräche interessanter macht und kann Ihnen sagen, welche Filme einen Oscar gewonnen haben sollten, sich mit Ihnen freuen, wenn Sie eine Quizfrage richtig beantworten, oder eine begeisterte Notiz für Sie schreiben, um einem Freund zu seinem kürzlichen Abschluss zu gratulieren.

Vertrauen

Es sollte keinen Kompromiss zwischen Vertrauenswürdigkeit und Leistung geben. Kunden auf der ganzen Welt haben Alexa in ihr Zuhause aufgenommen, und um wirklich nützlich im täglichen Leben zu sein, müssen wir weiterhin Erfahrungen schaffen, die sie lieben und denen sie vertrauen. Während die Integration der generativen KI unendlich viele neue Möglichkeiten bietet, wird unser Engagement, das Vertrauen unserer Kunden zu verdienen, nicht nachlassen. Wie bei all unseren Produkten werden wir Erfahrungen gestalten, um die Privatsphäre und Sicherheit unserer Kunden zu schützen und ihnen Kontrolle und Transparenz zu geben.

Download 4 1
©Amazon

Dies ist die größte Integration eines LLM, Echtzeitdiensten und einer Reihe von Geräten, die wir kennen – und sie ist nicht auf einen Tab in einem Browser beschränkt. Und wir fangen gerade erst an – mit generativer KI können wir auch eine Reihe von Kernkomponenten des Alexa-Erlebnisses verbessern.

Neue Technologien für eine natürlichere Interaktion

Einer dieser Komponenten ist, wie Kunden eine Interaktion mit Alexa beginnen. Dies wird auf der Erfahrung aufbauen, die heute existiert, indem Kunden, die sich für Visual ID anmelden, ein Gespräch einfach beginnen können, indem sie den Bildschirm auf einem Echo Show ansehen – kein Weckwort erforderlich. Das Ergebnis ist die natürlichste Gesprächserfahrung, die wir je geschaffen haben. Zweitens haben wir einen ganz neuen gesprächigen Spracherkennungsmotor (CSR) mit großen Modellen entwickelt. Als Menschen machen wir oft Pausen während des Gesprächs, um unsere Gedanken zu sammeln oder einen Punkt zu betonen, und diese Hinweise zu identifizieren, ist für eine KI unglaublich schwierig. Dieser neue CSR-Motor ist in der Lage, sich an diese häufigen natürlichen Pausen und Zögern anzupassen – was ein flüssigeres, natürlicheres Gespräch ermöglicht. Schließlich hat uns die generative KI ermöglicht, unsere Text-to-Speech-Technologie zu verbessern, indem wir ein großes Transformer-Modell verwenden, um Alexa viel ausdrucksstärker und auf Gesprächshinweise abgestimmt zu machen.

Was das bedeutet, ist, dass Alexa sich an Ihre Hinweise anpassen und ihre Antwort und ihren Ton ähnlich wie menschliche Gespräche modulieren wird. Fragen Sie, ob Ihr Team gewonnen hat, und die Antwort wird in einer fröhlichen Stimme erfolgen, wenn ja; wenn sie verloren haben, ist die Antwort empathischer. Fragen Sie nach einer Meinung, und die Antwort wird begeisterter sein, als wäre es ein Freund, der einen Standpunkt teilt.

Um zu demonstrieren, wie weit wir gekommen sind, hier eine Erinnerung daran, wie Alexa klang, als wir sie zum ersten Mal starteten:

Und hier ist, wie Alexa Anfang nächsten Jahres klingen wird:

Alexa 2.0: Der Beginn einer neuen Ära für KI-gesteuerte Sprachassistenten

In Kombination werden diese Verbesserungen das, was bereits die weltweit beste persönliche KI ist, noch besser machen. Ich habe diese neuen Fähigkeiten in den letzten Monaten genutzt, und es fühlt sich genauso transformativ an wie das erste Mal, als ich das Erlebnis hatte, mit Alexa vor etwa einem Jahrzehnt zu sprechen. Das heißt nicht, dass es perfekt sein wird – Alexa wird Fehler machen – aber wie immer wird die Erfahrung im Laufe der Zeit weiter verbessert.

Wir stehen am Anfang einer Reise – einer Grundlage, von der wir glauben, dass sie zu einer neuen Version von Alexa führen wird, die von generativer KI angetrieben wird. Wir werden weiterhin entwickeln und mehr Fähigkeiten als Teil einer kostenlosen Vorschau hinzufügen, die bald für Alexa-Kunden in den USA verfügbar sein wird. Wir wissen, dass die Kunden viel Feedback haben werden, und wir können es kaum erwarten, es zu hören.

Bleiben Sie dran für mehr. In der Zwischenzeit hier ein erster Blick auf Alexas neue Fähigkeiten.

Amazon