Om datorer är bra på nånting så är det att utföra uppgifter som för människor annars är både tidskrävande och svåra. En av de främsta anledningarna att datorer blev allt vanligare fram till 80-talet var just att de var bra på att räkna, göra samma sak om och om igen, och hantera stora mängder data . På senare tid har datorer och programmering även blivit ett uttryck för konstnärligt skapande, kreativitet och underhållning. ”Tänkande maskiner”, eller artificiell inteligens, har sedan datorernas begynnelse varit ett stort och betydande område för utveckling och forskning.
Under de senaste åren har intresset kring artificiell intelligens ökat lavinartat, mycket beroende på stora tekniska framsteg som dels har gjort AI-verktygen mycket mer kraftfulla, dels allmänt tillgängliga för en mycket bredare publik. Tröskeln för att utveckla och använda kraftfulla AI-tjänster har sänkts markant. Att AI har blivit både bättre och mer tillgängligt innebär att nya nyttor för allt fler uppstår. AI-modeller har inte bara blivit bättre på att bearbeta stora mängder data, men även att skapa helt nya typer av resultat och svar till användaren.
Denna typ av AI kallas för ”generativ AI”. Traditionellt har artificiell intelligens använts för att hitta samband och mönster i data vilket används i allt från att känna igen innehållet i bilder eller handskrift, förutspå händelser på aktiemarknaden, styra karaktärer i spelvärdar, hålla en bil på vägen, eller förstå vädermönster. För att klara av de här uppgifterna krävs en upptränad statistisk modell för att kunna hitta sammanhang eller förutsäga vad som kan tänkas hända härnäst. Generativ AI skiljer sig här genom att istället för att kategorisera eller förutsäga något enligt ett statistiskt troligt resultat, så är resultatet något helt nytt som AI-modellen själv hittar på, alltså något som inte fanns innan. Ber vi en generativ AI att avbilda en häst så använder den en upptränad språkmodell för att förstå vad vi ber den om, och sedan en modell tränad på bilder för att ge sin version av vad en häst är och hur den ser ut, och skapar sedan en ny bild som inte har existerat tidigare. I likhet med andra former av AI så bygger även detta på statistik, dvs att en genererad häst har en stor statistisk likhet med andra bilder på hästar. Men medan många tidigare AI-modeller var tränade på en mindre mängd specifik typ av data så är många av dagens generativa AI-modeller tränade på en stor del av alla den data som finns tillgängligt på Internet. För att träna dessa modeller krävs effektiva algoritmer, snabba datorer och extremt energikrävande data-center, något som inte funnits tillgängligt förrän idag. Resultet vad som ofta kallas ”stora språkmodeller”, på engelska ”large language model” eller LLM, eller djupa neurala nätverk om det gäller andra typer av data.
I det här inlägget beskrivs hur stora språkmodeller och generativ AI har använts i projektets tidiga faser. AI har använts som del i processen av att både hantera och skapa utifrån material som samlats in under ett antal workshops som genomförts i syfte att hitta möjligheter och vägar framåt för digital plats- och destinationsutveckling inom projektet Besöksnäring 2.0.
Lyssna och tolka
Som en del av workshopparna har deltagarna arbetat i grupper för att producera material för att ge oss i arbetsgruppen en djupare förståelse, platsspecifik information, och idéer för vidare utveckling. Bland annat har deltagarna fått dela med sig av sina egna historier kopplade till platsen. Med upp till 16 deltagare vid en workshop så resulterar detta i en stor mängd material. För att inte förlora några detaljer filmades allt grupparbete, och alla samtal spelades in. Alla dessa inspelningar bidrar till mängden data som måste hanteras i efterhand. Bland annat måste ljudet från inspelningarna transkriberas, dvs skrivas ner i text, så att samtalen blir tillgängliga för analys och sökning. Att transkribera inspelat tal kan vara en tidskrävande och kostsam process där det kan krävas en till fyra timmar att skriva ner det som sägs under en inspelad halvtimme.
Sedan några år tillbaka finns däremot allt bättre AI-modeller som kan översätta inspelade konversationer till text. OpenAI, som bland annat ligger bakom tjänster som ChatGPT, har språkmodeller och chat-bottar tagit fram andra tjänster och modeller som går att nyttja för att tolka tal. OpenAIs modell Whisper används för att tolka tal och omvandla tal till text. Modellen och kod för att använda Whisper finns gratis att installera och använda. Whisper användes därför för att transkribera allt inspelat material från våra workshops. Exempel på transkribering från workshopen i Edsleskog nedan:
[00:00.000 –> 00:06.000] Jag tänkte faktiskt på tre olika historier, varav Käppesjön var en.
[00:06.000 –> 00:13.000] Så jag kan ju lite snabbt bara, också, för det är en historia som jag har hört sedan jag var liten.
[00:13.000 –> 00:23.000] Och den har också berättats av åtminstone en, två, tre, fyra generationer tillbaka.
[00:23.000 –> 00:35.000] Det vet väl du också, tänker jag. Och det stämmer att namnet kommer från just Käppesjön och att de har hittat käppar där i.
[00:35.000 –> 00:44.000] Men jag vet ju att mamma och pappa hörde det, och jag hörde det av de som var i min mormor och morfars ålder,
[00:44.000 –> 00:52.000] som i sin tur sa att de hade hört från sina mor- och farföräldrar. Så det är någonting som har berättats under lång tid.
– Inspelning från workshop i Edsleskog, oktober 2023
AI kan på så vis användas för att spara en stor mängd tid och konstader från processer som annars kan äta upp en stor del av ett projekts resurser.
Skriva och sammanfatta
Styrkan hos många nyare AI-modeller och tjänster är framförallt att förstå text. Dessa har tränats på en stor del av den text som finns på Internet, vilket inte bara ger en förståelse för det skrivna språket utan även sammanhangen och ämnena som diskuteras. Många språkmodeller kan idag förstå och ge svar på en mängd språk, svara på frågor i nästan alla ämnen, programmera, och mycket annat. Förståelsen för språk och sammanhang gör även att AI:n kan ge välformulerade svar tillbaka på specifika frågor, speciellt om den ges data om ämnet tillsammans med frågan.
För att sammanställa materialet från workshopparna användes OpenAIs tjänst ChatGPT där den fick den transkriberade dialogen som indata och en begäran att sammanfatta materialet under specifika kategorier. En del av instruktionen löd –
Presentera innehållet från dialogen och historien som de vill förmedla under rubrikerna ”Berättelsen de vill förmedla”, ”Målet med berättelsen”, ”Framställning av berättelsen”, och ”Sammanfattning”. Avsluta med att presentera berättelsen i en berättande form utifrån den fakta som texten ger i en form som passar att läsas av andra.
Förutom sammanfattningen under de olika kategorierna gavs detta svar när den matades med dialogen om Käppesjön, trots det att den enbart fått en enklare summarad beskrivning och enstaka fakta kring legenden:
En gång för länge sedan, vandrade en grupp pilgrimer från det avlägsna Persien till det pittoreska Edsleskog. Dessa resenärer, som bar på käppar för att stödja sina trötta kroppar, sökte helande vid den mystiska St. Nikolauskällan. Legenden säger att vattnet i denna källa hade magiska egenskaper, och de som drack det skulle återfå sin hälsa och styrka.
När pilgrimerna nådde källan, tog de försiktigt sippar av det klara, kalla vattnet. En känsla av förnyelse och vitalitet strömmade genom deras kroppar, och de kunde plötsligt gå utan sina käppar. I ren glädje och tacksamhet kastade de sina käppar i en närliggande sjö, som sedan dess har kallats Käppesjön.
Åren gick, och en dag hittades några mynt i jorden nära Edsleskog. Dessa var inte vilka mynt som helst, utan gamla persiska mynt. Denna upptäckt spred sig i bygden och gav nytt liv åt den gamla berättelsen om de persiska pilgrimerna och deras mirakulösa helande vid St. Nikolauskällan.
Så, nästa gång du besöker Edsleskog och ser den glittrande Käppesjön, kom ihåg de modiga pilgrimerna och det magiska vattnet som gav dem nytt liv och hopp. För i varje saga, i varje berättelse, finns en strimma av sanning som väntar på att upptäckas av den som är villig att lyssna och tro.
Texten ovan är resultatet av en generativ AI som utifrån data som presenterats har skapat ett nytt innehåll baserat på frågan/uppgiften som den bad utföras. Delar är den fakta som presenterats, och delar är utfyllnad och en berättande ton som används för att omsätta fakta till en historia som går att återberätta. Så stora språkmodeller kan användas för en mängd olika uppgifter, allt från att tyda och tolka tal, till att sammanfatta, kategorisera och tolka stora mängder text, samt för att generera ny text.
Illustrationer och konstnärligt skapande
Men dagens AI-tjänster och modeller klarar inte bara av att generera text utan även grafik som bilder, 3d-modeller och video. Det vanligaste användningsfallet är att en person ger en ”prompt”, eller instruktion i text utav vad bilden ska föreställa, och tjänsten ger en bild tillbaka. Om jag till exempel ber OpenAIs tjänst DALL·E om en bild enligt instruktionen – ”Ge mig en bild av gammal tegelkyrka från 1200-talet, stor men enkel, som står i en svenskt landskap”, så blir restultatet:
Bilden är kanske fin i sig, men den har lite att göra med den gamla kyrkan i Edsleskog som vi arbetar med. Utmaningen är att AI-modellen har ”drömt ihop” vad kyrkan skulle kunna se ut som eftersom den inte vet vad vi är ute efter. Däremot kan detta ”drömmande” vara till nytta när vi inte vet vad vi är ute efter. Så om vi till exempel vill skapa en illustration för historien om Käppesjön i Edsleskog kan vi be DALL·E – ”Ge mig en bild av medeltida persiska pilgrimmer som kastar sina vandringskäppar i en svensk skogssjö”, och få resultatet:
Vissa AI-modeller är däremot bättre på att tolka och använda bilder som del av inputen och frågeställningen. Stable Diffusion är en text-till-bild modell tränad på 5 miljarder bilder. En fördel med Stable Diffusion är att den även hanterar bild-till-bild och att förändringar till bilden kan beskrivas med text. Detta kan användas för att ta en bild och lägga till en stil, en kreativ ”touch”, eller addera objekt. I exemplet nedan visas en bild till vänster där Stable Diffusion ombetts använda bilden till höger (3d-modell av Edsleskog gamla kyrka) och med en illustrativ stil, samt att lägga till pilgrimmer som äntligen kommer fram till kyrkan efter en lång pilgrimsfärd.
Generativ AI kan således användas som ett kreativt verktyg för att skapa bilder och illustrera det vi vill ha berättat, för att komma på idéer, eller för att snabbt och enkelt förändra något. Svårigheten är ofta att få ut det resultat som eftersöks, om det finns en speciell idé eller tanke om resultatet. Det är ofta svårt att styra mer exakt vad resultatet blir, och det är inte ovanligt att konstiga detaljer blir en del av resultatet.
Sammanfattning
Vad AI-modellen ”drömmer ihop” kan vara svår att styra, och ibland kan även de mest tydliga instruktionerna misstolkas eller ignoreras. Olika modeller och tjänster har olika styrkor, men med rätt typ av användning kan de vara till stor nytta. Möjligheten att tolka, summera och svara på frågor kring stora mängder text eller annan data kan spara stora mängder tid, likväl möjligheten att transkribera eller översätta tal och text. Att genera bilder kan vara en viktig del av en kreativ process, samt överbrygga kompetenser och färdigheter som kan ta lång tid att träna upp. Däremot bör dessa tjänster och modeller användas med försiktighet. Även de bästa språkmodellerna kan misstolka eller missuppfatta både uppgift och underlag. I värsta fall kan de till och med drömma ihop helt egna svar som saknar koppling till det faktaunderlag den har, eller presentera svar som förstärker stereotyper och bias som den tränats på via data från internet. Likväl är det viktigt att veta vad för data som vi delar med oss till de företag som driver vissa av tjänsterna, vad vi får och kan göra, och vem som äger resultatet.