KI og bildeskaping

I denne videoen sitter Gro Røsland og Jon Hoem på Teams, og diskuterer hvordan de kan bruke KI-bilder i et undervisningsopplegg om livsmestring og psykisk helse.

Videoen ble laget til HVL-konferansen 2024. Tema er høyere utdanning i framtiden – kunstig intelligens.

 

Bruk av KI,  kan gi flotte, men samtidig merkelige resultater. Å komme frem til brukbare tekster og bilder krever derfor at vi kritisk vurderer resultatene. I så tilfelle kan KI være et svært godt verktøy i alle fag.
Nedenfor ser vi nærmere på bildene som vi kom frem til og diskuterer i denne videoen. Bildene kommer dels ut fra tidligere forsøk med å illustrere dikt ved hjelp av KI.


Diskusjonen tar utgangspunkt i at vi er på jakt etter noe som kan sette i gang en diskusjon omkring temaet livsmestring og psykisk helse ....

Edvard Munch, «Aske II», 1899. Litografi trykket i sort. Håndkolorert med vannfarger i rødt, blått, grønt, gult og oransje. 

Her er utgangspunktet Edvard Munch sitt bilde, "Aske". Vi ber Chat-GPT om å beskrive dette bildet:

Den sentrale figuren er en kvinne med langt, flytende hår. Hun holder hodet med begge hender, albuene strukket utover. Hun har på seg en hvit kjole med et detaljert, floral design i midtpartiet. Hennes holdning og uttrykk antyder en stemning av fortvilelse eller nød. Til høyre for henne ser det ut til å være en annen figur, mørk og bøyd, som kan representere tristhet eller en annen person i en tilstand av sorg. Bakgrunnen antyder en skog eller en lund med høye, mørke trær og en lys sti eller lysning som står i kontrast til trærnes mørke. Stilen på kunstverket er stemningsfull og uttrykksfull, med dristige linjer og en begrenset fargepalett.

Her kan vi stille spørsmål ved tolkningen. Det er liten tvil om at skikkelen nede til høyre uttrykker noe som kan oppfattes som "fortvilelse og nød", men det er langt fra like klart at dette gjelder kvinneskikkelsen til venstre

Gitt mer tid kunne vi gjerne diskutert og justert beskrivelsen, slik at den ble enda mer i tråd med det behovet vi ser for oss. For eksempelets del går vi imidlertid videre med den verbale beskrivelsen gitt av Chat-GPT, og ber om å få generert et bilde ut fra denne beskrivelsen.

Her ser vi at ulike KI-verktøy, eller i og for seg flere forsøk med samme verktøy, gir svært ulike resultater.

Vi er ikke så fornøyde med disse forslagene og ber derfor om å få et visuelt uttrykk som ligger tettere opp mot oriignalen, som er et litografi:

"Den litografiske trykkmetoden ble utviklet av dramatikeren og komponisten Alois Senefelder mellom 1796 og 1799 som en effektiv og rimelig måte å mangfoldiggjøre tekster og noteblader på. Hans arbeid resulterte i en lærebok i litografiteknikken, Vollständiges Lehrbuch der Steindruckerey, utgitt i 1818."

Bildet vi ser til venstre bærer tydelig preg av at mange av de litografiene som KIen er trent på, nok stammer fra sent på 1800-tallet. Bildet vi har fått her viser i alle fall tydelige trekk fra stilretningen Art Nouveau – passende nok "ny kunst". 

Bildet gir oss kanskje et lite innblikk i treningsdatene, samtidig som vi tydelig ser de visuelle referansene til originalen, representert i den verbaltekstlige beskrivelsen.

Vi er imidlertid ikke fornøyde. Bildet er visuelt slående, men vi er på jakt etter et annet uttrykk. En vei videre kan være å vise til en annen type trykketeknikk, tresnitt:

Her får vi først et forslag i direkte visuell forlengelse av forrige bilde. Vi ber om å få forenklet dette ytterligere, og ender opp med fet uttrykk vi liker. Her er vi fornøyd med motivet, selv om det fremdeles er noen mindre ting som ikke er helt bra, som enkelte detaljer og proporsjoner.

Vi konkluderer med at det nok ikke er bildet i seg selv som er viktigst. Det å komme frem til et resultat, i dialog med KI, er en prosess som både vi og studentene skal jobbe med. 

Vi kommer til at studentene kan få i oppgave å beskrive noe verbalt, med sikte på å komme frem til et bilde som formidler noe om temaet de arbeider med. 

Et eksempel her er 3-års studenter som arbeidet med å lage KI-bilder i sammenheng med estetiske læringsprosesser.

Vi enes også om at en alltid må se på detaljene, og som oftest justere manuelt. Det å generere bilder er på denne måten sammenlignbart med å bruke KI for å generere verbaltekst: Hvis en kun tar første versjon kan det skje mye rart .

Slik KI-tjenestene er per i dag (våren 2024) kommer en ikke utenom noe manuelt arbeid. En må guide KIen, lese korrektur og redigere visuell informasjon.