Klar ist: in wenigen Jahren wird das Internet mit am Rechner generierten “Fotos” geflutet werden. Die größte Befürchtung ist, dass wir zwischen Fakes und realen Fotos nicht mehr unterscheiden können. Schon heute können Programme wie Midjourney in wenigen Sekunden täuschend echte Bilder von Rennradfahrern erstellen. Wir wollen in diesem Artikel schauen, welche Vorstellungen die KI (Künstliche Intelligenz) von Rennrädern, Rennradfahrern, Radrennen und anderen Themen rund um die schmalen Reifen hat und wie man gute Bilder bekommt. Fangen wir mit einem einfachen Auftrag an: “Mache ein realistisches Foto von einem typischen Rennradfahrer auf einer Landstraße”.
Die App gibt vier Varianten aus und man sieht sofort: die KI vermischt Rennrad und Motorrad. Das deutet auf die Doppeldeutigkeit des Begriffs “bike” im Englischen hin. Deshalb versuchen wir es mit einer detaillierteren Beschreibung: “Radfahrer Rennrad kleine Straße von vorne realistisches Foto Tageslicht”
Von vorne hat die KI nicht verstanden und es sind nur zwei Rennräder in der Auswahl. Wer viele Bilder mit Midjourney erstellt, bekommt oft ein Ergebnis, dass nach Sonnenaufgang aussieht. Vielleicht waren viele Frühaufsteher-Fotos in den Trainingsdaten für die Rennrad KI? Aus Interesse versuchen wir, ob das Ergebnis auf Englisch (”cyclist roadbike small road friontal view realistic photo normal daylight”) besser ausfällt.
Das Ergebnis ist viel besser und es sind nur Rennräder zu sehen. Der Stil wechselt zwischen Fotorealismus und Kunst - das ist eine Frage der Einstellung bzw. des formulierten Auftrags an die KI. Weil wir die Webversion von Midjourney benutzen, sind wir hinsichtlich der Einstellungen eingeschränkt. Auffallend ist die teils schlechte Straße. KI braucht klare Anweisungen - darum erstellen wir einen Prompt (so nennt man die Befehle an ChatGpt & Co.), der viele Details nennt: “Group of cyclists on small paved road in Austria in the Alps. background high mountains normal daylight open landscape. Realistic photo Nikon style.”
Das Ergebnis der Rennrad KI ist auf den ersten Blick gar nicht schlecht - deshalb haben wir die vier Varianten einzeln vergrößern lassen. Die Berge schauen imposant aus und die schmale Straße scheint autofrei - also perfekt geeignet zum Rennradfahren. Auffällig ist, dass viele Rennradfahrer mit Rucksack fahren und es dominieren die Männer. Schaut man genauer hin, entdeckt man aber einige Fehler:
Die Rechnerleistung wird bei Midjourney auf den Vordergrund konzentriert- dort sind die Bilder detailliert. Der Hintergrund wird oft verschwommen dargestellt oder enthält Fehler. Die Vergrößerung der Bilder zeigt ein paar Auffälligkeiten: fehlende oder krumme Beine, bizarre Pedale und komische Gepäcktaschen. In der kleinen Vorschau sind die Bilder von Midjourney aber schon ganz gut. Wer genau hinschaut, erkennt dass es keine echten Fotos sind. Es stellt sich die zentrale Frage: wie denkt sich die Software die Bilder aus?
Lassen wir KI die Antwort geben: das sagt LibreChat zur Funktionsweise der Software:
Programme wie Midjourney verwenden ein Verfahren namens Generative Adversarial Networks (GANs), um künstliche Bilder zu erzeugen. GANs sind eine Art von künstlichen Intelligenz, die darauf abzielen, Daten zu erzeugen, die nicht von realen Daten unterscheidbar sind. GANs bestehen aus zwei Teilen: einem Generator und einem Diskriminator. Der Generator versucht, Daten zu erzeugen, die real aussehen, während der Diskriminator versucht, zwischen den vom Generator erzeugten Daten und echten Daten zu unterscheiden. Der Generator wird während des Trainings immer besser darin, Daten zu erzeugen, die echten Daten ähnlich sehen, während der Diskriminator immer bessere Fähigkeiten entwickelt, um echte von gefälschten Daten zu unterscheiden. Im Falle von Midjourney bedeuten die “Daten” in diesem Kontext Bilder. Die KI wird mit vielen echten Bildern, wie z.B. Landschaften oder Porträts, trainiert. Der Generator lernt dann, Bilder zu erzeugen, die wie echte Bilder aussehen, während der Diskriminator lernt, diese von echten Bildern zu unterscheiden. Schließlich erhält man eine KI, die neue, überzeugende Bilder von z.B. Landschaften oder Gesichtern erzeugen kann, die sie noch nie zuvor gesehen hat. Es ist wichtig zu beachten, dass die generierten Bilder zwar den Eindruck erwecken können, echte Motive darzustellen, tatsächlich aber komplett aus der “Phantasie” der KI stammen und keiner realen Vorlage entsprechen.
Der Blick auf die Proportionen und die Details offenbart immer noch Schwächen. Ganz entscheidend ist auch, wie der Prompt formuliert ist. Nimmt man das obige Beispiel, würde man versuchen die unrealistische Straße noch einmal neu zu erstellen.
Generative KI wird in rasantem Tempo besser. Und es ist zu erwarten, dass eine Spezialisierung auf bestimmte Bereiche stattfindet - z.B. auf Bilder rund um Menschen in der Natur. In wenigen Jahren wird es vermutlich schwerfallen Fotos und KI generierte Bilder auseinanderzuhalten. Heute reicht ein Blick auf die Details, um viele Fehler zu finden. Der Bildgenerator Leonardo AI gehört beim Thema Rennrad nicht zu den besten. Der Mittelstreifen wandert an den Rand, das linke Rennrad hat keinen Sattel und beim rechten ist der ganze Rahmen krumm. Besonders schwer fällt KI die Generierung von Übergängen - gut sichtbar ist das beim rechten Bein des Fahrers im weißen Trikot.
Fazit: zum Glück können wir bei TOUR weiterhin auf Fotos von professionellen Fotografen bauen!