Will Artificial Intelligence take artists' jobs in 2023?
Robert Nagy, MBA, ITIL4-MP, CEH
Technology Executive || Leadership is my way | Transformation is my drive | Strategy is my point of view | Security is my strength | Inspiration is my method | Safety culture is my field | AI is my passion
It is amazing to see the progress that machine-learning imaging methods based on various diffusion models have made in the past year. For simplicity's sake, let's call it AI. When I started the Cyber-Synesthesia experiment, it was much more crude and simple in the way it visualized the results. Within a year, with the emergence of easy-to-use solutions (MidJourney, Stable Diffusion), the progress leapt and has not lost momentum yet. As the volume of images generated and the number of users increased by exponential orders of magnitude, the evaluation of results and further training of diffusion models can now be done with these outputs, so the quality of the final result - essentially the pleasingness index to the human eye - has also skyrocketed.
How does this work anyway?
You may be familiar with the concept of super-resolution. From movies at least. We see a surveillance camera footage and our hacker protagonist can generate a high-resolution image from it. Let's translate this into whether it is possible to train a deep learning model to detail an input image, thereby transforming it into a higher-resolution version. Our model does not do this by recovering the information missing from a noisy, low-resolution input image, since it does not exist. The model uses the data it collects during its training to hallucinate for us the visual details that would be most likely to be visible in the input image.?
Taking this idea to its extreme, one might ask, what if such a model were run with only pure diffuse noise? Through infinite steps, the result could be anything. That's the trick of the whole technology, which is why it can be used to create imaginary things. The model then " denoises the noise" and hallucinates a brand-new image. By repeating the process several times, an artificial image of a noisy blur is obtained with increasing clarity and resolution.
Noise reduction diffusion
A key method is needed to leap diffusion, collected in latent space and trained on millions of images, to a system that creates an image from text. The visual content generated needs to be controlled by something, in this case, keywords, or other images, or some combination of these. To put it simply, we can explain this conditioning by using another model, where a text encoder is already trained with image and image explanation pairs to associate a vector representing a piece of text with our noise patch, so we have images of many different flowers - this kind of flower, that kind of flower tables, which our neural network can use to condition our denoising algorithm and end up putting things or something like that on the image that we want.
The experiment
When I started the experiment, my basic idea was to take a poem and explore how the available tech can be used to create an image of what the poem is about, based on the style of a painter. Using today's fashionable terminology, we would call it a poetry2painting transformation. Essentially, I have used the text2image solution, using only the given poem as input and various images or pre-drawings to guide the composition. I used these as conditioning criteria.
So I took a poem, not incidentally one that I know well, and because I grew up where the poet lived, the real lake and forest provide me with additional inspiration for the lyricism of the Vaal forest and the Reedy Lake. Of course, this would not have been necessary, but it meant I was working on something I already loved and could easily add different associations.?
The poem is János Vajda: On reedy lake, and the painter, whose style I used as a model, was Mihály Munkácsy.
On reedy lake - poem extract:
"Up in the sky, sun is shining.?
Mirror of lake, that's glistering,
Like a shadow, boat is swinging.
..."
First I made an English translation of the poem. I ended up doing versions where I had already translated it with AI, so I got the machine involved much earlier. In addition, the transformation was now done in two dimensions with the aid of the machine.
I made studies with countless input parameters, images, and drawings, guiding the machine's further work based on the visuals. Selected elements of many hours of human and machine work were shown on FB and LinkedIn at an already evaluable stage of the work, to see what kind of hits would be received for the given image and poem. There were some good guesses or ones that might as well have been the poem of choice.?
From the early images, many people were more likely to associate it with Pál Szinyei Merse, Károly Ferency or other impressionists. I had a rough idea of what the response would be, and my expectations were fulfilled because the early paintings were very different from my model painter.
But the selection of my painter was not a coincidence, that was what the experiment was about. I wanted to capture the vision and visions of the poem in the painting, but along the way, instead of being a romantic realist, the painting became impressionistic in many cases. Although impressionism appeared in his early paintings, such as the well-known Dusty Road, he otherwise stayed with realism.
From impressionism to romantic realism
There was a point where I found where to go next. I used the best images I'd taken so far as input, controlling the elements of the composition I'd already established.?
Then here was my input image itself, which I worked on further, bringing the style and the textual "prompts" translated with the AI or translated according to my own ideas. At this point, I also changed the MI model and produced variations, which eventually produced the results you see here.?
The point is not whether a particular painter would paint it this way or not. Or you have to keep trying to get the results you want. What is more important is the conclusion that can be drawn from the experiment.?
Conclusion
No, machine learning image generation solutions have not taken the work of artists in 2022 and will not in 2023. And, I believe, will not do so later. Art remains for artists!??
Of course, the quality of the images produced depends to a considerable degree on the state of the technology, and it has improved by leaps and bounds. This can be seen in the course my pictures have taken in the last six months. But it is also clear that I have used the technology as a toolkit. For it is capable of displaying the painter's style based on the images I have trained on if I support it from many directions (input images, expressions that classify the style and at the same time control the elements in the image). The images themselves can be imposed on the elements given, or at least roughly controlled. Today we can do much more than that, we can achieve spectacular results much faster. My experiment was all about learning. The time that has passed in between has also changed the technology available.
So in the end, I was the one who chose the images that met my expectations and it took a lot of trial and error to get to a stage in the creative process. The initial conceptual task of transforming the poem into an image that looks like a particular painting style can be achieved by a generative AI process based on diffusion. Very beautiful, spectacular images can be created.?
I am mesmerized by the creative process and the endless possibilities it offers. Anyone who loves visuality is easily captivated. But still, the AI itself does not create a work of art.
Cyber-brush
If we drop a few words of a poem into a well-known AI model, will it generate a beautiful image in a given style? Undoubtedly it does. With a help of a certain amount of experimentation and a good artistic sense. Will it be what we want? Only if we are skilled and trained and persistent in our efforts. So what AI created is a work of art? Not in itself, I think. A work of art becomes what one commits to controlling the input images or composition, by choosing which one is good, and then rehearsing, starting over, thus striving to show something that the artist wants. What one ends up creating may already contain what the creator wants to show. And here we are talking about the human being doing the artwork, and the AI is the toolkit, the cyber-brush. But it is a wonderful toolbox with infinite variations, and we must look for good applications.
Future
And this means for the future, we will need people who understand both worlds well. For example, to create a painting, people who have already made paintings, who know the ins and outs of hard and soft, light and shadow, composition, and can articulate what they want to depict, can sketch it out, add to it and choose the right iterations. The machine has not become an artist! AI has become a very good tool. I don't think AI will take away our work, but it will change a lot of things, even make them easier!?
Notice
But what we need to pay serious attention to, not only in the future but today. The ethical and legal aspects. Those who are rightly concerned that their carefully crafted artwork may appear redrawn on an AI-generated image, without anyone working with AI being able to paint one on their own. Since these models are trained with millions of artworks, they are essentially used to generate the images. Of course, in the past digital imaging has given us many tools that have made it easier to copy artwork, to map styles, but the power and speed of this have now increased exponentially, so we need to be very serious about getting the possibilities under control properly.
And here we come to 2023 and how ChatGPT and similar language models are beginning to transform the way we create text... But that's another story.
---- magyar változat / hungarian version ---
领英推荐
Elveszi a m?vészek munkáját a mesterséges intelligencia (MI) 2023-ban?
Elképeszt?, hogy milyen pályát futottak be az elmúlt évben a kül?nféle diffúziós modelleken alapuló gépi tanulási képalkotási módszerek. Most az egyszer?ség kedvéért hívjuk MI-nek. Amikor a Cyber-szineztézia kísérletet elkezdtem, még sokkal nyersebb volt és egyszer?bb a megjelenített eredmény. Egy éven belül a megjelen? egyszer?en használható megoldásokkal (MidJourney, Stable Diffusion) a fejl?dés ugrásszer? volt és most sem vesztette lendületét. Mivel a generált képek mennyisége és? a felhasználók száma nagyságrendekkel n?tt, az eredmények kiértékelése és a modellek további trénelése már ezekkel t?rténhet, így a végeredmény min?sége, ami lényegében az emberi szemnek való tetszési index - szintén megugrott.?
Hogy is m?k?dik ez egyébként?
Talán ismer?s lehet a szuperfelbontás koncepciója. Filmekb?l legalább. Látunk egy biztonsági kamera felvételt és a hekker f?h?sünk képes abból egy nagy felbontású képet generálni. Fordítsuk ezt le úgy, hogy lehetséges-e egy mély tanulási modellt betanítani egy bemeneti kép denzitálására,? ezáltal egy magasabb felbontású változattá alakítani azt. Modellünk ezt nem úgy teszi, hogy visszanyeri a zajos, alacsony felbontású bemeneti képb?l hiányzó információt, hiszen az nem létezik. A modell a képzése (trénelése) során ?sszegy?jt?tt adatokat arra használja, hogy hallucinálja helyettünk azokat a vizuális részleteket, amelyek a bemeneti képet tekintve a legvalószín?bbek lennének.?
Ha ezt az ?tletet a végs?kig feszegetjük, felmerülhet a kérdés, mi lenne, ha egy ilyen modellt csak tiszta diffúz zajjal futtatnánk? Végtelen lépésen keresztül a végeredmény bármi lehetne. Az egész technológia trükkje is ebben van, ezért lehet alkalmazni elképzelt dolgok létrehozására.A modell ilyenkor "zajmentesíti a zajt", és egy vadonatúj képet hallucinál. A folyamat t?bbsz?ri megismétlésével egy zajos foltból egyre tisztább és nagyobb felbontású mesterséges képet kapunk.
Zajmentesít? diffúzió
Ahhoz, hogy a látens térben ?sszegy?jt?tt, millió képen tanított diffúzióról ugorjunk egy sz?vegb?l képet alkotó rendszerre, kell egy kulcsfontosságú módszer. A generált vizuális tartalmat valamivel irányítanunk kell, ez esetben kulcsszavakkal, vagy más képekkel, vagy ezek valamilyen kombinációjával. Egyszer?sítve úgy lehet elmagyarázni, hogy ezt a kondícionálást egy másik modellel hajtjuk végre, ahol egy sz?veg enkóder már fel van tanítva kép és képmagyarázat párokkal hogy a zajfoltunkhoz egy sz?vegdarabot reprezentáló vektort kapcsolunk, tehát sokféle virág képe - ilyen virág, olyan virág táblázataink vannak, ami alapján a neurális hálózatunk képes kondícionálni a zajmentesít? algoritmusunkat és a végén olyan dolgokat, vagy hasonlót tenni a képre, amit mi is szeretnénk.
A kísérlet
(A kezdetekr?l szóló cikkem a LinkedIn-en elérhet?)?
A kísérlet kezdetekor az alap?tletem az volt, hogy vegyünk egy verset és vizsgáljuk meg, hogyan lehet a rendelkezésre álló tecnhológia segítségével egy fest?m?vész stílusa alapján képet készíteni arról, amir?l a vers szól. Mai divatos terminilogiát használva nevezzük poetry2painting transzformációnak. Lényegében a text2image megoldásokat használtam fel, csupán a bemenetként adott verset használtam fel továbbá kül?nféle képeket, vagy a kompozíciót irányító el?rajzolást. Ezeket használtam kondícionáló feltételekként.
Vettem tehát egy verset, nem mellékesen egy olyat, amit jól ismerek. Mivel ott n?ttem fel, ahol a k?lt?, a vaáli erd? és a nádas tó lírájához számomra a valós tó és erd? nyújt további inspirációt. Ez ?nmagában persze nem lett volna szükséges, de így olyanon dolgoztam, amit már eleve szerettem és k?nny? volt hozzá tennem további asszociációkat.?
A vers Vajda János: Nádas tavon, a fest?, akinek a stílusát modellnek állítottam, Munkácsy Mihály volt.
Nádas tavon, vers részlet:
“F?nn az égen ragyogó nap.
Csillanó tükrén a tónak,
Mint az árnyék, leng a csónak.
...”
El?sz?r elkészítettem a vers angol fordítását. Végül csináltam olyan verziókat is, ahol már eleve MI-vel fordítottam, így már sokkal el?bb bevontam a gépet az alkotásba. Ráadásul a transzformáció így már két dimenzióban is a gép segítségével t?rtént.?
Készítettem számtalan bemen? paraméterrel, képpel és rajzzal tanulmányokat, a látvány alapján terelgetve a gép további munkáját. Rengeteg óra emberi és gépi munka válogatott elemeit mutattam meg a munka egy már értékelhet? szakaszában a FB-on és a LinkedIn-en is, hogy vajon milyen visszajelzések érkeznek az adott kép és vers kapcsán. Voltak jó találatok, vagy olyanok, amik akár lehettek volna a választott vers.?
A korai képek alapján sokan asszociáltak inkább Színyeire, Ferencyre vagy más impresszionistára. Nagyjából sejtettem, hogy milyen visszajelzések fognak érkezni, be is váltak a várakozásaim, mert a példa fest?mt?l a képek er?sen eltértek.
A fest?m választása viszont nem volt véletlen, a kísérlet err?l szólt. Szerettem volna a vers látomását, vízióit megjeleníteni a képben, viszont útk?zben a romantikus realista helyett a kép sok esetben impresszionista lett. Bár a korai képein, például a jól ismert Poros út c. képén megjelent az impresszionizmus, de egyébként maradt a realista ábrázolásnál.
Impresszionizmusból romantikus realista
Volt egy pont, ahol aztán megtaláltam, hogy merre érdemes folytatni. Felhasználtam bemen? képnek az eddigi legjobb képeket, ezzel kontrolláltam a már kialakult kompozíció elemeit.?
Aztán Itt már maga a bemen? képem, amin tovább dolgoztam, hozta a stílust és az MI-vel fordított, vagy saját elképzelésem szerint transzlált sz?veges “prompt” a t?bbi elemet. Ezen a ponton MI modellt is váltottam és variációkat gyártottam, amib?l végül megszülettek az itt látható eredmények.?
Nem az a lényeg, hogy adott fest? így festené-e ezt, vagy nem. Ha ez lenne a cél, még tovább kell próbálkozni, hogy elérjük a kívánt eredményt. Sokkal lényegesebb a kísérletb?l levonható k?vetkeztetés.?
Konklúzió
Nem, a gépi tanulással operáló képgeneráló megoldások nem vették el a m?vészek munkáját 2022-ben és 2023-ban sem fogják. Szerintem kés?bb sem. A m?vészet a m?vészeké marad!??
A készített képek min?sége persze nagyban függ a technológia adott állapotától is és ez ugrásszer?en fejl?d?tt. Ez látszik azon a pályán, amit fél év alatt az általam készített képek bejártak. De az is pontosan látszik, hogy egy eszk?zkészletként használtam a technológiát. Ugyanis arra képes, hogy a trénelt képek alapján a fest? stílusát megjelenítse, ha sok irányból (bemen? képpel, a stílust klasszifikáló kifejezéssel és egyben a képen szerepl? elemek kontrollálásával) támasztom meg. Magukra a képekre is ráteszi a megadott elemeket, vagy legalábbis nagyjából kontrollálható. Valójában ma már ennél sokkal egysz?bb dolgunk van, sokkal gyorsabban elérhetünk látványos eredményt. A kísérletem a tanulásról szólt. A k?zben eltelt id?szak er?sen megváltoztatta a rendelkezésre álló technológiát is.
Az elvárásomnak megfelel? képeket végülis az alkotás folyamán én választottam ki és sok próbálkozással jutottam el a az alkotási folyamat egy állapotába. A kezdeti koncepció során megcélzott feladat, a vers transzformálása adott festészeti stílusúnak látszó képpé a diffúziós eljáráson alapuló gépi generatív eljárással megvalósítható. Nagyon szép, látványos képeket lehet vele alkotni.?
Az alkotási folyamat, az abban rejl? végtelen lehet?ség elvarázsol. Aki szereti a vizualitást, k?nnyen magával ragadja. De ett?l még, maga az MI nem hoz létre m?alkotást.
Kiber ecset
Ha beleszórjuk egy vers néhány szavát egy jól ismert MI modellbe, fog nekünk szép képet generálni adott stílusban? Kétségtelenül fog. Bizonyos mennyiség? kísérletezés és jó m?vészi érzék esetén. Ez olyan lesz, amilyet akarunk? Csak akkor, ha gyakorlottak és képzettek vagyunk és kitartóan próbálkozunk. Az, amit létrehoz, végül is m?alkotás? Szerintem ?nmagában nem. A m?alkotás az lesz, amit az ember k?vet el, a bemen? képek, vagy kompozíció kontrollálásakor, azzal, hogy kiválasztja, melyik jó, majd próbálkozik, újrakezd, tehát t?rekszik valamit megmutatni, amit ? szeretne. Amit az ember a? végén létrehoz, abban már benne lehet az, amit az alkotó szeretne mutatni. Itt pedig már arról beszélünk, hogy a m?alkotást az ember végzi, az MI pedig az eszk?zkészlet, a cyber-ecset. Viszont csodálatos és végtelen variációkat rejt? eszk?zkészlet, aminek meg kell találni a további jó alkalmazási lehet?ségeit.
A j?v?
Ez pedig azt jelenti a j?v?re vetítve, hogy szükség lesz majd olyanokra, akik jól értik mindkét világot. Például egy kép alkotásánál olyanokra, akik eddig is képeket alkottak, ismerik a kemény-lágy, a fény-árnyék, a kompozíció csínját-bínját és jól meg tudják fogalmazni, mit szeretnének ábrázolni, képesek el?rajzolni, kiegészíteni és ki tudják választani az iterációk k?zül azt, ami jó. A gép nem vált m?vésszé! Az MI viszont egy nagyon jó eszk?zzé vált. Szerintem az MI nem fogja elvenni a munkánkat, de nagyon sok mindent fog még megváltoztatni, akár k?nnyebbé tenni.?
Figyelemfelhívás
Amire viszont komolyan figyelni kell, nem csak a j?v?ben, hanem már most. Az etikai és jogi aspektus. Joggal aggódnak azok, hogy az ? gonddal elkészített m?alkotásuk újrarajzolva jelenhet meg az MI által generált képen, a nélkül, hogy aki MI-vel dolgozik, ?nmagától képes lenne olyat festeni. Mivel ezeket a modelleket sok millió m?alkotással tanítják, ezért lényegében azokat használja fel a képek generálásakor. Persze korábban a digitális képalkotás már számos olyan eszk?zt adott, ami k?nnyebbé tette az alkotások másolását, stílusok leképezését, de ennek az ereje és sebessége most hatványozódott, így nagyon komolyan kell foglalkoznunk a lehet?ségek megfelel? kordába terelésével.
Itt pedig elérkeztünk 2023-hoz és ahhoz, hogy a ChatGPT és hasonló nyelvi modellek milyen módon kezdik átalakítani a sz?vegalkotást…
De ez már egy másik t?rténet.
Senior Controller / Business Analyst - Reporting of Capex, Power Grid Constructing/Investments
2 年Will AI take IT experts' (programming) jobs as well?