Kochfreunde.com

Kochfreunde.com ist das kulinarisches Magazin von Oliver Wagner. Hier dreht sich alles rund um die beinahe schönste Sache der Welt: Gutes Essen. Dabei reicht der Fokus von Berichten über spannende Restaurants bis hin zu Rezepten aus der eigenen Küche, Kochbücher und kulinarische Gadgets.

Wie AI-generierte Bilder und Texte die Gastronomie und Kulinarik verändern können

Ein Experiment mit aktuelle KI Tools rund um die Visualisierung von Gerichten und Konzepten

Es sind schreiende Headlines wie diese, denen man aktuell kaum entgehen kann. Gleichzeitig ist der praktische Nutzen von auf Künstlicher Intelligenz basierten Tools wie ChatGPT, DALL-E  oder Midjourney noch recht weit entfernt; eher eine theoretische Option, vielleicht ein entferntes Zukunftsszenario. Oder ist das alles doch schon konkret anwendbar – vor allem mit Fokus auf die Kulinarik und die Entwicklung neuer Ideen und Konzepte?

Ich habe mich einen langen Winterabend mit diesen Tools und eben dieser Fragestellung auseinandergesetzt. Die Aufgabe war klar: Appetitlich aussehende Food-Fotos sollen generiert werden, teilweise auf Basis eigener Bilder aus meinem Fundus (testweise auch unter Verwendung fremder Bilder aus dem Internet), teilweise aber auch nur durch reine Texteingabe und weitere Verfeinerung.

Mit ein paar einfachen Tricks (und einer gesunden Spur von technikbegeisterter FSimpsons-Porträtsantasie) lässt sich Midjourney womöglich in einem für die Gastronomie recht spannenden Kontext einsetzen, so meine Annahme. Denn schließlich können die Tools viel mehr als Memes, Simpsons-Portraits, dystopische Blade Runner-Szenen oder lustige Weltraummonster kreieren (wobei sie das tatsächlich ziemlich gut können).

Rinderfilet im Mantel an Pilzen und Rinderjus | Midjourney

Was sind DALL-E und Midjourney denn genau?

Doch zunächst ein kleiner Blick auf den aktuellen Status Quo. Neben Tools wie Stable Diffusion oder Imagen von Google, sind aktuell vor allem Midjourney und Dall-E die derzeit geläufigsten Text-zu-Bild-Programme. Allen gemein ist, dass sie über eine einfache Eingabemaske Bilder aus Texten erstellen können. Für das oben gezeigte Bild begann mein Prozess mit einer ganz einfachen Eingabe im Stil von imagine/rinderfilet im mantel an pilzen und rinderjus.

Um diese Ergebnisse errechnen zu können, nutzen die Tools ganz unterschiedliche Ausprägungen von künstlichen neuronalen Netzwerken und viele Jahre des Trainings auf Basis riesiger, größtenteils frei verfügbarer Daten aus dem Internet.

Durch zusätzliche Eingaben und Interaktionen mit dem Interface lassen sich die eigenen Werke in zahllose künstlerische Stilrichtungen bringen und mit einem Mausklick immer weiter variieren, verfeinern, remixen, vergrößern oder mit unterschiedlichen Berechnungsalgorithmen immer wieder neu erzeugen.

Es gibt allerdings auch Features, die nicht ganz so offensichtlich sind. Features, die einen Graubereich in Fragen des Copyrights mindestens berühren, vielleicht sogar überschreiten. Denn neben den eigenen Prompts (also den Texteingaben), lassen sich die Systeme auch mit externen Informationen füttern. Links auf Websites zum Beispiel, die dann für die nächste Berechnung stilgebend wirken. Oder sie nutzen vom Nutzer hochgeladene Bilder als grobe Marschrichtung für den gewünschten Look oder Content. Manchmal übrigens gar nicht so grob, sondern erschreckend konkret und nah an der Vorlage. So wird statt einer textlich beschriebenen Stilrichtung nun auf einmal die fotografische Auffassung eines Fotografen oder einer Filmemacherin als gestalterische Leitplanke verwendet – und deren Stil mitunter sehr authentisch imitiert (sehr oft geht das natürlich auch grandios daneben). Genauso kann das Bild eines Innenraumes, also einer realen Location, als (natürlich verfremdete) Kulisse für ein KI-generiertes Motiv dienen. Noch sind die Maschinen da etwas grobmotorisch unterwegs, die Tendenz ist aber klar.

Steinbutt, Sommergemüse, Beurre blanc | Midjourney

Praktischer Nutzen von Midjourney & Co für die Gastronomie?

Interessant wird es nun, wenn man statt High-End Bilder zu referenzieren, eigene Fotos als Basis nimmt und diese um potenzielle Defizite in der Fotografie ergänzt.Gutes Licht zum Beispiel. Oder das Spiel mit Schärfe und Unschärfe. Auf diese Weise könnte man Fotos von authentischen Gerichten aus dem eigenen Restaurant als Grundlage wählen, dann aber einzelne Zutaten, Garmethoden, Komponenten oder das Plating via Sprachbefehl austauschen lassen. Oder einfach nur den Look in die Richtung eines anderen Fotos bringen, den Inhalt aber beibehalten.

Das sieht in vielen Fällen zunächst nicht so richtig gut aus. Mit ein paar ergänzenden Befehlen, der ein oder anderen Variation – und etwas Glück können allerdings Bilder entstehen, die sich zumindest hinter schlecht gemachten Foodfotos nicht verstecken müssen.

Goldbrasse, Kaviar und Champagnersauce | Midjourney

Was diesen generierten Motiven fehlt, ist dann natürlich zunächst jede Form von Authentizität. Also gerade der Komponente, die in Social Media im allgemeinen und in der Gastro-Kommunikation im besonderen so wichtig ist. Allerdings lässt sich dieses Manko zumindest etwas reduzieren, indem man in seinen Befehl auch echte und professionell gemachte Bilder der eigenen Location ergänzt und dem Social-Media-Gast zumindest ein bekanntes Ambiente rund um den dargestellten Teller anbietet. Übrigens kann man natürlich auch das eigene Geschirr referenzieren, um hier weitere individuelle Anknüpfungspunkte zu schaffen.

Penne mit Salsiccia, Kräutern und Parmesan | Midjourney

In der Theorie ist also schon vieles möglich. Und vieles davon wird sicherlich zukünftig auch einen noch praktischeren Nutzen haben. Was aber an meinen zahlreichen Beispielbildern auch direkt auffällt ist die Tatsache, dass die KI´s leider selten aus ihren klimatisierten Kellern herauskommen und vor allem von Farben, Texturen und Proportionen dann doch noch keine rechte Idee haben. Am Ende machen aber genau diese Details ein Bild aus, das Appetit macht. Und klar, ein Rinderfilet mit Rosmarin macht ist eine sinnvolle und klassische Zusammenstellung – eine Kombination mit extrem vielen und unförmigen, deutlich zu groß geratenen Oliven, dann doch eher weniger . Ein weiterer offensichtlicher Schwachpunkt ist die Texture des Untergrundes, konkret des Tisches die auf dem folgenden, aber auch auf dem vorherigen Bild auf der linken Seite eher aus Stein, rechts dann eher aus Holz zu bestehen scheint.

Übrigens war meine Intention hier kein Rinderfilet, eigentlich hatte die die Maschine mit einem Prompt für ein Pastagericht gefüttert. Normalerweise hätte man das von hier an noch weiter verfeinern und die Richtung wieder korrigieren können – ich fand aber auch dieses Ergebnis recht eindrucksvoll und wir haben uns hier etwas treiben lassen. Der Prompt dazu für Midjourney sah dann übrigens so aus:

imagine/ Braised lamb, torn olives, pecorino, Champignons, Food photo, On a table of a modern upscale restaurant, Stockholm :: photorealistic, ultra realistic, foreground focus, 8k, volumetric light, filmic, fuji velvia, leica look, ultra detailed 

Die allerersten Vorschläge waren dabei weit weniger beeindruckend. Erst als ich meine Vorstellung schrittweise präzisiert habe, kamen wir der Sache näher. Dazu kann man in Midjourney eine der vier Varianten wählen und ausgehend von dieser wiederum vier neue Vorschläge erzeugen. Rinse and repeat.

Die ersten vier Vorschläge für mein Rinderfilet. Spannend der Fisch (?) unten links, serviert direkt in der Fingerschale…

Der Aufwand, der in die Erstellung dieser wenigen Beispielbilder geflossen ist, sollte allerdings auch nicht unterschätzt werden – und ich konnte mein kleines Experiment auch noch sehr ergebnisoffen angehen. Das ist in einem realen Szenario natürlich anders. Dennoch ist der Aufwand deutlich geringer, als bei jedem echten Shooting – zu vernachlässigen ist er allerdings auch nicht. Um wirklich intensiv experimentieren zu können, reichen dann auch die kostenlosen Versionen der Tools nicht wirklich aus. Erst durch die Verfeinerung, durch das Ausschließen von falschen Abzweigungen oder die Ergänzung wichtiger Keywords können sinnvolle Resultate entstehen.

So oder so deutet sich hier eine hochspannende, neue technische Möglichkeit an, die bereits jetzt in vielen Branchen und Bereichen enorme Potenziale hat. Eigentlich in allen Branchen in denen zeitnah erste Skizzen oder Visualisierungen hilfreich sind. Speziell in diesem Fall schließe ich die Kulinarik dann doch wieder explizit ein: Denn eine erste visuelle Idee, ein erster Eindruck für ein neues Gericht, ein Moodboard oder eine Kombination von Produkten, kann auf diesem Weg (und mit all den Einschränkungen und Problemen, die es hier noch gibt) schnell gerendert werden. Auf Basis einer solchen Skizze können dann weitere Überlegungen angestellt und diskutiert werden. Auf welchem Teller könnte die neue Idee angerichtet werden? Wie wirkt welche Platzierung und welche Proportion? Klar, das am Ende ganz andere Fragen entscheiden, zu aller erst der Geschmack – aber als erste Idee sehr hilfreich.

Das folgende Bild ist übrigens nur vier Klicks von dem eben gezeigte ersten Entwurf entfernt. Hier bin ich bei Nummer 2, als dem Vorschlag oben rechts abgebogen. Man erkennt noch die Konturen des Bildes, das zunächst auf dem Tisch stand. Mittlerweile ist daraus ein Lichthof geworden. Immer noch sind wir weit weg von einem realen Gericht – aber die Idee mit dem erhabenen und strukturierte Teller ist neu, auch der Vorschlag eine dunkle Jus und ein Kräuteröl anzugießen ist nicht verkehrt, die Blüten ganz hübsch – nur über die Bananenchips müssen wir noch sprechen…

Neben diesen eher grafisch ausgerichteten Tools stehen auch neue textgenerierende Tools wie ChtGPT in den Startlöchern, das Web zu erobern und nachhaltig zu verändern. Die möglichen Ausgabeideen sind vielfältig. ChatGPT kann Social Media Posts erzeugen, E-Mails oder Blogbeiträge schreiben, Einleitungen für den nächsten Newsletter generieren, Stichworte für Google Ads Kampagnen geben – oder auch Rezepte schreiben.

Erste Experimente zeigen allerdings auch hier: in kulinarischen Belangen sind wir sicherlich noch auf keinem belastbaren Stand angekommen. Zwar generieren die Maschinen auf den ersten Blick lesbare und der formalen Norm entsprechende Rezepttexte – schaut man genauer hin, möchte man diese sicherlich aber nicht zubereiten und vermisst natürlich alle Details, die ein menschlicher Koch mit auf den Weg gegeben hätte. Man sieht ganz klar, auf welcher Basis trainiert wurde und dass der Fokus zunächst auf den absoluten und minimalen Basics lag. In diesem Zusammenhang möchte ich Euch dann auch nicht das Rezept für das zuvor generierte Bild 😉

Rezept für geschmortes Lamm mit Oliven und Champignons (by OpenAI – auf eigene Gefahr)

Zutaten:
-500g Lammfleisch, in kleine Würfel geschnitten
-2 EL Olivenöl
-3 mittelgroße Zwiebeln, in dünne Scheiben geschnitten
-2 Knoblauchzehen, fein gehackt
-200g Champignons, in Scheiben geschnitten
-1 EL Tomatenmark
-300ml Gemüsebrühe
-Salz und Pfeffer
-2 EL frischer Thymian, gehackt
-4 EL Oliven, gehackt
-1 EL frischer Oregano, gehackt

Zubereitung:
1. In einer großen Pfanne das Olivenöl erhitzen.
2. Lammwürfel hinzufügen und bei mittlerer Hitze anbraten, bis sie an der Oberfläche leicht braun sind.
3. Zwiebeln und Knoblauch hinzufügen und weitere 3-4 Minuten braten.
4. Champignons und Tomatenmark hinzufügen und weitere 2-3 Minuten braten.
5. Gemüsebrühe hinzufügen und alles gut vermischen. Hitze reduzieren und alles 8-10 Minuten köcheln lassen.
6. Salz, Pfeffer, Thymian und Oregano hinzufügen und alles gut vermischen.
7. Die Oliven hinzufügen und weitere 5-10 Minuten köcheln lassen.
8. Warm servieren.

Total
0
Shares
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Prev
Imperial Fine Beluga, Steinbutt und Blumenkohl

Imperial Fine Beluga, Steinbutt und Blumenkohl

You May Also Like