Alibaba Cloud startet Open-Source-Modelle zur Bildinhaltsanalyse

Veröffentlicht am 13. September 202313. September 2023 von Frank

Alibaba Cloud, die Cloud-Computing-Sparte des chinesischen Technologiegiganten Alibaba, hat kürzlich zwei bahnbrechende Open-Source-Modelle für die Sprach- und Bildverarbeitung vorgestellt. Diese Modelle, bekannt als Qwen-VL und Qwen-VL-Chat, sind darauf ausgelegt, sowohl Bild- als auch Texteingaben zu verstehen und darauf zu reagieren. Sie sind auf der AI-Modell-Community-Plattform von Alibaba Cloud, ModelScope, sowie auf der kollaborativen AI-Plattform Hugging Face verfügbar.

Alibaba Cloud startet Open-Source-Modelle zur Bildinhaltsanalyse. ©Depositphotos

Alibaba Cloud startet Open-Source-Modelle zur Bildinhaltsanalyse. ©Depositphotos

Technologische Durchbrüche bei der Alibaba Cloud

Die beiden Modelle sind ein Meilenstein in der Entwicklung von KI-Technologien, die sowohl Text- als auch Bildinhalte verstehen können. Sie basieren auf einer 7-Milliarden-Parameter-Version des großen Sprachmodells Qwen-7B, das Alibaba Cloud bereits zuvor Open Source gemacht hat. Im Vergleich zu anderen Open-Source-Modellen können Qwen-VL und Qwen-VL-Chat Bilder in höherer Auflösung verstehen, was zu einer besseren Bilderkennung und -verständnis führt.

Vielseitige Anwendungsmöglichkeiten

Die Modelle sind nicht nur in der Lage, einfache Aufgaben wie die Generierung von Bildunterschriften oder die Beantwortung offener Fragen auf der Grundlage von Bildern zu erfüllen. Qwen-VL-Chat geht noch einen Schritt weiter und kann komplexere Aufgaben wie mathematische Berechnungen durchführen und sogar Geschichten auf der Grundlage mehrerer Bilder erstellen.

Auswirkungen auf die Industrie und Gesellschaft

Die Einführung dieser Modelle hat das Potenzial, die Interaktion der Benutzer mit visuellen Inhalten grundlegend zu verändern. Sie könnten beispielsweise in der Medienindustrie eingesetzt werden, um automatisch Bildunterschriften für Nachrichtenartikel zu generieren. Darüber hinaus könnten sie dazu verwendet werden, die Barrierefreiheit für blinde und sehbehinderte Menschen zu verbessern, indem sie es ermöglichen, Fragen zu Bildinhalten zu stellen und darauf Antworten zu erhalten.

Mehr zum Thema

Fragen und Antworten: Alibaba Clouds CTO über die Schaffung der größten KI-Modell-Community Chinas

Alibaba Cloud senkt Preise für internationale Kunden deutlich

Alibaba Cloud investiert 1 Milliarde Dollar in Partner-Innovation und geht Partnerschaft mit IBM zur…

Alibaba Cloud startet KI-Modell für generative KI-Text-zu-Bild-Konvertierung

Mit der Einführung dieser Modelle setzt Alibaba Cloud seine Bemühungen fort, fortschrittliche multimodale Fähigkeiten für seine großen Sprachmodelle zu entwickeln. Dies öffnet die Tür für neue Anwendungen, die über Text hinausgehen und auch Bilder und Audiodaten umfassen könnten.

Über
Letzte Artikel

Frank

Frank Weyermann ist seit 1999 Betreiber der Seite onlinemarktplatz.de, dem Portal zum Thema E-Commerce und Handel: Wir bieten täglich die neuesten Nachrichten, praktische Tipps und Tricks, innovative Tools, aufschlussreiche Podcasts und Empfehlungen zu relevanten Veranstaltungen – alles, was Sie zum Thema E-Commerce wissen müssen.

Letzte Artikel von Frank (Alle anzeigen)

Galeria Karstadt Kaufhof schließt 16 Filialen - 26. April 2024
Joyful by Nature: Kneipps Kampf ums Markenrecht - 26. April 2024
Zando: Südafrikanischer Moderiese nimmt den Kampf gegen internationale Giganten wie Temu und Shein auf - 26. April 2024

Alibaba Cloud startet Open-Source-Modelle zur Bildinhaltsanalyse

Technologische Durchbrüche bei der Alibaba Cloud

Vielseitige Anwendungsmöglichkeiten

Auswirkungen auf die Industrie und Gesellschaft

Beitrag teilen

Termine

Aktuelle Podcasts