Alibaba Cloud startet Open-Source-Modelle zur Bildinhaltsanalyse

Alibaba Cloud, die Cloud-Computing-Sparte des chinesischen Technologiegiganten Alibaba, hat kürzlich zwei bahnbrechende Open-Source-Modelle für die Sprach- und Bildverarbeitung vorgestellt. Diese Modelle, bekannt als Qwen-VL und Qwen-VL-Chat, sind darauf ausgelegt, sowohl Bild- als auch Texteingaben zu verstehen und darauf zu reagieren. Sie sind auf der AI-Modell-Community-Plattform von Alibaba Cloud, ModelScope, sowie auf der kollaborativen AI-Plattform Hugging Face verfügbar.

Alibaba Cloud startet Open-Source-Modelle zur Bildinhaltsanalyse
Alibaba Cloud startet Open-Source-Modelle zur Bildinhaltsanalyse. ©Depositphotos

Technologische Durchbrüche bei der Alibaba Cloud

Die beiden Modelle sind ein Meilenstein in der Entwicklung von KI-Technologien, die sowohl Text- als auch Bildinhalte verstehen können. Sie basieren auf einer 7-Milliarden-Parameter-Version des großen Sprachmodells Qwen-7B, das Alibaba Cloud bereits zuvor Open Source gemacht hat. Im Vergleich zu anderen Open-Source-Modellen können Qwen-VL und Qwen-VL-Chat Bilder in höherer Auflösung verstehen, was zu einer besseren Bilderkennung und -verständnis führt.

Vielseitige Anwendungsmöglichkeiten

Die Modelle sind nicht nur in der Lage, einfache Aufgaben wie die Generierung von Bildunterschriften oder die Beantwortung offener Fragen auf der Grundlage von Bildern zu erfüllen. Qwen-VL-Chat geht noch einen Schritt weiter und kann komplexere Aufgaben wie mathematische Berechnungen durchführen und sogar Geschichten auf der Grundlage mehrerer Bilder erstellen.

Auswirkungen auf die Industrie und Gesellschaft

Die Einführung dieser Modelle hat das Potenzial, die Interaktion der Benutzer mit visuellen Inhalten grundlegend zu verändern. Sie könnten beispielsweise in der Medienindustrie eingesetzt werden, um automatisch Bildunterschriften für Nachrichtenartikel zu generieren. Darüber hinaus könnten sie dazu verwendet werden, die Barrierefreiheit für blinde und sehbehinderte Menschen zu verbessern, indem sie es ermöglichen, Fragen zu Bildinhalten zu stellen und darauf Antworten zu erhalten.

Mit der Einführung dieser Modelle setzt Alibaba Cloud seine Bemühungen fort, fortschrittliche multimodale Fähigkeiten für seine großen Sprachmodelle zu entwickeln. Dies öffnet die Tür für neue Anwendungen, die über Text hinausgehen und auch Bilder und Audiodaten umfassen könnten.