In meinem Leben ist es immer wieder passiert, dass ich von neuer Technologie beeindruckt wurde. Wer meinen vorherigen Blog gelesen hat, weiss, dass ich ein Nintendo-Narr bin. Mit jeder neuen Hardware-Generation war ich entzückt vom Sprung, den man zusammen mit dem ikonischen Nintendo-Maskottchen Mario gemacht hat.
Doch auch in anderen Bereichen spüre ich auch heute noch den steten Fortschritt. Mein neuer Honda Civic e:HEV beeindruckt mich beispielsweise mit cleveren technischen Lösungen, welche für mich vor 20 Jahren unvorstellbar gewesen wären. Diese Technologie bringt mehr Komfort und Sicherheit auf die Strasse und ermöglicht, dass ein sportliches Auto mit einem Durchschnittsverbrauch von unter 5 Litern gefahren werden kann. Und auch der Fahrspass kommt nicht zu kurz. Als ich mit meinem älteren Bruder vor fast 20 Jahren den ersten Toyota Prius getestet habe, war das für mich unvorstellbar.
Chat GPT 4 Turbo ist da!
Unvorstellbar ist ein gutes Stichwort. Was wir im Moment mit den Consumer-Versionen von Large Language Models wie ChatGPT erleben, ist schon fast unheimlich. Schon alleine die Möglichkeit, Texte zusammenzufassen, Captions für Social Media Posts zu schreiben oder Bilder zu generieren hätten in meiner Jugend wie Science Fiction angemutet. Seit kurzer Zeit ist nun die neueste Version von ChatGPT zugänglich für die breite Masse - ChatGPT 4 Turbo. Und die hat es in sich!
Als erstes fiel mir in der vergangen Woche natürlich auf, dass die Applikation über längere Dauer nicht erreichbar war. Als ich am vergangenen Freitag dann endlich wieder darauf zugreifen konnte, fand ich das User Interface leicht verändert vor. Naiv wie ich bin, habe ich einfach mal herumprobiert. Eine der grossen Stärken von ChatGPT ist meines Erachtens nämlich, dass man gar nicht viel wissen muss, um mit damit zu arbeiten. Man kann dieses Tool eigentlich ganz einfach wie einen persönlichen Assistenten behandeln (ja, man darf sogar mit einem LLM höflich sein im Umgang). Natürlich ist mir sofort die Büroklammer neben dem Prompt-Feld aufgefallen. Also mal eben ein Bild vom Laptop hochgeladen und einen kurzen Prompt formuliert.
"Was siehst du auf diesem Bild?" fragte ich und lud das folgende Bild hoch:
Folgende Antwort erhielt ich in Windeseile:
"Auf diesem Bild ist ein Motorrad zu sehen, anscheinend ein Adventure- oder Dual-Sport-Modell, das in einem höhlenartigen Tunnel geparkt ist. Das Motorrad ist mit einer hohen Windschutzscheibe, Handschützern und einem Gepäckträger ausgestattet, was darauf hindeutet, dass es für Langstreckenfahrten und abwechslungsreiches Gelände ausgelegt ist. Die Szenerie suggeriert einen rauen oder abgelegenen Ort, der zu einem Abenteuermotorrad passt. Im Hintergrund sind ausserdem Bau- oder Strasseninstandhaltungsmaterialien zu sehen, die den industriellen Eindruck der Umgebung noch verstärken. Der Scheinwerfer des Motorrads ist ausgeschaltet und steht prominent im Vordergrund, was darauf hindeutet, dass das Motorrad und seine Bereitschaft zum Abenteuer im Mittelpunkt des Fotos stehen."
Selbst der grösste Skeptiker wird erkennen, dass diese Beschreibung ziemlich beeindruckend ist, besonders wenn man bedenkt, dass das Bild keine Meta Tags hat und mein Prompt nicht besonders ausgefeilt war. Mit weiteren Detaillierungen konnte das LLM sogar die richtige Marke und das richtige Motorrad erahnen - obwohl bei meiner Ténéré sehr viel individuelles Zubehör angebracht war.
Zurück nach Schottland
Um euch Lesern zu zeigen, wie unglaublich beeindruckend diese neuen Funktionen sind, wage ich eine kurze Reise zurück zu meinem Ferienziel 2022 - Schottland. In mehreren Etappen fuhren wir mit unseren Motorrädern in den Norden, wo wir dann unter anderem die North Coast 500 gefahren sind. Zuerst ging es aber mal nach Rotterdam, wo wir mitsamt unseren Motorrädern an Bord einer Fähre gingen. Dieses Selfie habe ich kurz vor dem "Boarding" gemacht:
Folgendes habe ich ChatGPT gefragt: "Beschreibe dieses Bild und sage mir, worauf es hindeuten könnte"
Und diese Antwort habe ich erhalten:
"Auf dem Bild ist ein Mann zu sehen, der einen Motorradhelm trägt und in die Kamera lächelt. Seine Geste mit der Hand deutet auf etwas im Hintergrund hin, das aber aufgrund der Bildperspektive nicht vollständig sichtbar ist. Es scheint ein Teil eines Schiffes oder einer Fähre zu sein, die hinter ihm parkende Autos überragt. Der Mann trägt Motorradbekleidung, was darauf hindeutet, dass er eine Motorradfahrt unternimmt oder gerade auf einer Pause ist.
Die Szene könnte auf eine Fährüberfahrt hinweisen, möglicherweise am Anfang oder Ende einer Motorradtour. Solche Fährverbindungen sind häufig in Küstengebieten oder zwischen Inseln und dem Festland zu finden. Die parkenden Autos im Hintergrund und die sichtbare Struktur, auf die er deutet, könnten Teil eines Fährhafens sein, wo Reisende auf die Abfahrt ihrer Fähre warten."
Einmal mehr liegt ChatGPT richtig damit. Ich würde mal behaupten, dass es ein geübtes Auge und viel Aufmerksam braucht, damit man eine dermassen genaue Beschreibung abgeben kann. Oder hättest du das Bild auch genau so interpretiert ohne meine vorgängige Beschreibung?
Extrakalorien und Livekonzerte im Marvel-Universum
Wir fuhren mit der Fähre dann von Hull nach Edinburgh. Das war (zum Glück) auch der einzige Tag, an dem wir richtig Pech hatten mit dem Wetter. Es war kalt und regnerisch, wie man es so kennt aus Überlieferungen von Schottland. Wir gönnten uns eine Pause, um etwas aufzuwärmen inkl. einem leckeren Snack.
Mal schauen, was uns ChatGPT darüber erzählen kann. Ich wollte wissen: "Was für ein Essen siehst du auf dem Bild? Kannst du schätzen, wie viele Kalorien dieses Essen hat?"
Und das war die Antwort:
"Auf dem Bild ist ein Stück Pizza zu sehen, das mit verschiedenen Gemüsesorten belegt ist. Zu den sichtbaren Belägen gehören Tomaten, Frühlingszwiebeln und Pilze. Die Pizza scheint frisch gebacken zu sein, mit einem knusprigen Rand und geschmolzenem Käse.
Die Kalorienanzahl eines Pizzastücks kann stark variieren, je nach Art der Zutaten und Grösse des Stücks. Im Durchschnitt hat ein Standardstück Gemüsepizza aus einer mittelgrossen Pizza etwa 200 bis 250 Kalorien. Da dieses Stück jedoch gross und reichlich belegt aussieht, könnte es leicht mehr Kalorien enthalten. Ohne genauere Angaben zu den Zutaten und der Grösse des Pizzastücks ist es schwierig, eine präzise Kalorienanzahl anzugeben."
Ich kann nicht genau sagen, wie genau die Angabe mit den Kalorien ist, aber es war sicherlich genug, um gestärkt die Weiterfahrt aufzunehmen. Es dauerte nicht lange, bis wir in Edinburgh eintrafen. Und weil wir die Stadt auch erleben wollten, bezogen wir kurzum unser Bed and Breakfast und machten uns auf den Weg in die Stadt. Nach einem leckeren Abendessen fanden wir uns an einem Konzert wieder. Hier ein kleiner Schnappschuss davon:
Was zeigt dieses Bild und wo könnte es aufgenommen worden sein? Was denkst du?
Hier kommt die Antwort von ChatGPT:
"Das Bild zeigt einen Innenraum, vermutlich in einer Bar oder einem Musikclub, mit einem Fokus auf eine Bühne, wo Musiker gerade live auftreten. Im Vordergrund sieht man ein Stofftier, das auf die Bühne gerichtet ist, und ein Glas mit einer klaren Flüssigkeit, möglicherweise Bier oder Cider. Der Name "STRONGBOW" leuchtet in neonlila Buchstaben im Hintergrund auf der Bühne, was auf das Sponsoring durch die bekannte Cider-Marke hindeutet.
Das Bild könnte in einem der zahlreichen Live-Musik-Venues in Edinburgh aufgenommen worden sein, zum Beispiel im "Stramash", welcher für seine Live-Musik bekannt ist und sich in der Cowgate befindet, einem Teil der Altstadt von Edinburgh. Der Name "STRONGBOW" auf der Bühne ist hier wahrscheinlich Teil des Bühnendesigns oder der Dekoration, nicht der Name des Veranstaltungsortes selbst."
In der Tat waren wir an diesem Abend im Stramash. Die Marke Strongbow taucht im Bild zwar nicht auf, die Annahme, dass sie präsent sein könnte, ist aber nicht ganz aus der Luft gegriffen und das Foto ist auch nicht sonderlich scharf. Ich wollte aber noch etwas mehr zum Stofftier wissen, da es unser kleiner "Travel Companion" ist und fragte: "Kannst du mir mehr über das Stofftier sagen?"
"Das Stofftier im Bild scheint eine Plüschfigur von "Groot" zu sein, einer Figur aus dem Marvel Cinematic Universe, insbesondere bekannt aus den Filmen der "Guardians of the Galaxy"-Reihe. Groot ist ein baumähnliches Wesen, das bekannt für seinen Satz "I am Groot" ist, und wird wegen seiner einzigartigen Persönlichkeit und seiner Fähigkeit, sich zu regenerieren und zu wachsen, von Fans geliebt. Diese spezielle Plüschversion stellt Groot als Baby oder "Baby Groot" dar, eine Form, die er im Verlauf der Filmreihe annimmt. Baby Groot ist für seine neugierige und verspielte Art bekannt und ist ein beliebtes Motiv für Spielzeug und Merchandise."
Tatsächlich ist Baby Groot oder "Grootli", wie wir ihn nennen, auf vielen unserer Motorradreisen dabei gewesen. Spontan wollte ich wissen, wie die Szene in einem Marvel Comic aussehen würde, also gab ich den folgenden Prompt ein: "Erstelle einen Sketch aus dieser Szene für ein Marvel Comic".
Das Resultat liess keine Minute auf sich warten und sieht so aus:
Den "Alt-Text" für die Suchmaschinenoptimierung liess ich auch gleich von ChatGPT erstellen, was mir viel Zeit sparte. Man darf dieses Resultat durchaus mit Erstaunen betrachten.
Die Reise geht weiter
Am nächsten Morgen war es schon wieder Zeit, die Hauptstadt zu verlassen. Natürlich wollten wir noch einen letzten Ausblick auf Edinburgh geniessen. Für das folgende Bild wollte ich wissen: "Beschreibe dieses Bild und sage mir, wo es aufgenommen wurde".
"Das Bild zeigt zwei Motorräder, die am Strassenrand geparkt sind, mit einem Blick auf eine Stadt im Hintergrund. Eine Person in voller Motorradmontur und Helm steht daneben und blickt auf die Stadt. Die Motorräder sind mit Reisegepäck ausgestattet, was darauf hindeutet, dass es sich um eine Motorradtour handelt.
Im Hintergrund ist eine Panoramaansicht einer Stadt mit auffälligen historischen Gebäuden und einer Festung auf einem Hügel, die über die Stadt thront. Dieses markante Wahrzeichen, zusammen mit der Hügellandschaft und der Bauweise der Stadt, lässt darauf schliessen, dass das Bild in Edinburgh, Schottland, aufgenommen wurde. Die Festung auf dem Hügel ist sehr wahrscheinlich das Edinburgh Castle, ein ikonisches Symbol der Stadt und Schottlands."
Und natürlich lag die AI genau richtig. Nur ein Tag bevor ich das hier schrieb, hat ein Freund gemeint, dass es noch lange dauern wird, bis die AI genaue Standorte erkennen kann anhand von Bildern.
Ich möchte nicht auf die ganze Reise eingehen, sonst wird dieser Beitrag viel zu lang. Aber ein paar Beispiele helfen sicherlich, um den Nutzen von dieser unglaublichen Bilderkennung aufzuzeigen. Wir fuhren an wunderschönen Küsten entlang weiter Richtung Norden und kamen irgendwann in der folgenden Ortschaft an.
Mittlerweile habe ich grosses Vertrauen in die Fähigkeiten von ChatGPT und frage ganz einfach: "Was kannst du mir über diesen Ort sagen? Ich möchte etwas über die Geschichte erfahren."
Die Antwort sieht folgendermassen aus:
"Das Bild zeigt einen Wegweiser mit Entfernungsangaben zu verschiedenen Orten: Edinburgh, Lands End, Orkney und Shetland. Im Hintergrund ist ein traditionelles weisses Haus mit einem schiefergedeckten Dach zu sehen, das typisch für ländliche Gebiete in Schottland ist. Der Blick auf das Meer und die Art des Wegweisers lassen darauf schliessen, dass dieser Ort möglicherweise in Schottland ist, in der Nähe der Küste.
Die Inseln Orkney und Shetland liegen nördlich des schottischen Festlandes und haben eine reiche Geschichte, die bis in die Steinzeit zurückreicht. Beide Inselgruppen waren wichtige Zentren während der Nordischen Eisenzeit und spielten eine bedeutende Rolle in der Wikingerzeit, als sie Teil des Nordischen Reiches wurden. Die strategische Lage der Inseln machte sie im Laufe der Jahrhunderte zu wichtigen Handels- und Machtpunkten.
Orte mit solchen Wegweisern sind oft von historischer Bedeutung oder bieten malerische Aussichten und dienen oft als Orientierungspunkte für Reisende. Um mehr über die spezifische Geschichte dieses Ortes zu erfahren, müsste man lokale Quellen oder historische Aufzeichnungen konsultieren, die Informationen über die Gegend, das Haus im Hintergrund und seine Rolle in der lokalen Geschichte liefern."
So ganz zufrieden bin ich mit der Antwort noch nicht. Ich wollte eine genauere Ortsangabe dazu haben und lade das folgende Bild hoch mit dem Prompt "Hier ein weiteres Bild, das bei der Bestimmung des Orts helfen könnte":
"Das Bild zeigt vier Flaschen Single Malt Scotch Whisky der Marke "Wolfburn", die vor einem Hintergrund mit aufeinandergestapelten Steinen und dem Meer bei Sonnenuntergang präsentiert werden. Die Namen der Whiskys – "Langskip", "Morven", "Aurora" und "Northland" – weisen auf nordische bzw. schottische Themen hin.
Wolfburn ist eine Whiskybrennerei in Thurso, Caithness, im äussersten Norden des schottischen Festlandes. Caithness ist für seine Küstenlandschaft und historischen Verbindungen zu den Nordischen Ländern bekannt. Die Brennerei wurde 2013 in der Nähe der Ruinen der ursprünglichen Wolfburn-Brennerei, die 1821 gegründet wurde, wiedereröffnet und ist die nördlichste Brennerei auf dem schottischen Festland.
Die aufeinandergestapelten Steine im Bild könnten als ein Cairn interpretiert werden, eine traditionelle schottische Markierung, die oft auf Wanderwegen oder an Küstenlinien zu finden ist. Die Kombination der Whisky-Flaschen und der Cairns deutet stark darauf hin, dass das Bild in oder in der Nähe von Caithness, Schottland, aufgenommen wurde, womöglich sogar in der Nähe der Wolfburn-Brennerei selbst."
Auch wenn ich die gewünschte Antwort "John o'Groats" nicht erhalten habe, habe ich sogar etwas gelernt. Man sieht an diesem Beispiel aber auch, dass die AI natürlich noch nicht perfekt ist und wahrscheinlich nicht genügend Bildmaterial von dieser Ortschaft beim Anlernen des Sprachmodells eingeflossen ist. Vielleicht war die AI aber auch einfach etwas verwirrt, da die Wolfburn-Brennerei etwas weiter südlich liegt.
Ein Zebra in Schottland?
Zum Abschluss dieses Posts hatte ich eine witzige Idee. In der Nähe von Glasgow habe ich ein Bild eines Pferds gemacht, welches eine Decke im Zebra-Muster trug. Ich wollte schauen, ob sich ChatGPT davon täuschen lassen würde. Hier ist das Bild:
Meine Frage: "Was ist das für ein Tier und wo kann ich es antreffen?"
Und die Antwort von ChatGPT:
"Das Tier auf dem Bild ist ein Pferd, das eine Fliegendecke mit Zebra-Muster und eine Gesichtsmaske trägt. Solche Decken werden oft verwendet, um Pferde vor Insekten zu schützen, und die Maske dient dem gleichen Zweck für den Kopfbereich, insbesondere um Augen und Ohren des Pferdes zu schützen.
Pferde wie dieses können weltweit in vielen verschiedenen Umgebungen angetroffen werden, von Bauernhöfen und ländlichen Gegenden bis hin zu spezialisierten Reitställen und Pferderennbahnen. Die ländliche Szenerie im Hintergrund des Bildes lässt darauf schliessen, dass es sich um eine Weide in einer eher ländlichen oder abgeschiedenen Gegend handelt. Um ähnliche Pferde zu sehen, könnte man Bauernhöfe, Reitvereine oder ländliche Gebiete besuchen, in denen Pferdehaltung betrieben wird."
Einmal mehr konnte sich die AI also beweisen und mir eine befriedigende Antwort geben. Ich bin abermals beeindruckt!
Wo soll die Reise noch hin führen?
Wenn man sich anschaut, welche Fähigkeiten ein Large Language Model wie ChatGPT schon heute hat, muss man sich zwangsläufig fragen, wo die Reise noch hinführen soll. Im Moment kann die AI zum Beispiel noch keine Video- oder Audioinhalte analysieren und verarbeiten. Bei der rasanten Entwicklung kann man sich vorstellen, dass es nur eine Frage der Zeit ist, bis sich das ändert.
Wo lässt das uns als Menschen stehen? Ich bin der festen Überzeugung, dass AI grosse gesellschaftliche Veränderungen hervorbringen wird. Es ist blauäugig zu denken, dass sich nichts ändern wird. Die Produktivitätssprünge, welche mit diesen Tools möglich sind, sind ganz einfach zu gross, um sie zu ignorieren.
Ich für meinen Teil geniesse die Entwicklung für den Moment. Für einen Blogpost wie diesen hier hätte ich vormals ein ganzes Wochenende gebraucht. Wahrscheinlich hätte ich ihn deswegen gar nicht geschrieben. Jetzt waren es vielleicht drei Stunden. Und ich habe ein gutes Gefühl, weil ich mich mit einer aktuellen Entwicklung etwas vertiefter auseinandersetzen konnte.
Doch wie sieht das für dich aus? Was denkst du über AI und hat dieser Beitrag deine Meinung beeinflusst?
Comments