Vom Wort zum Video: Wie sich mit Foundation-Modellen aus Text Bewegtbild erzeugen lässt
Große Sprachmodelle besitzen ein immenses Transformationspotenzial. Sogenannte Foundation-Modelle können mittlerweile nicht nur die Bedeutung von Texten und Bildern erfassen und selbst erzeugen, sondern sind auch auf Videos anwendbar.