- HAIK - Hela AI-Köret
- Posts
- AI möter SD 🔎
AI möter SD 🔎
Och: modellkollaps, en klädlös läkare, Galileo (igen!).
HAIK fortsätter att växa starkt. Välkomna alla nya till det enda du behöver läsa om AI!
Först en ändring i tablån under sommaren. Hela juli är jag sommarvikarie på ledarsidan i Upsala Nya Tidning. I augusti skriver jag för VLT i Västerås. Därför går HAIK från två till en servering i veckan.
Denna sista dallrande heta juniutgåva tillagades till tonerna av Ted Gärdestads samlingsalbum. Kom ge mig solen, kom ge mig AI! 🎶
Här kommer tre huvudrätter, två plusmenyer, en förödande god munsbit om Galileo och en digestif à la Ebba Grön!
Smaklig spis, trevlig helg och glad sommar!
/Dagens meny 🥘
AI vs SD 🔎
Syntetisk data och den hotande modellkollapsen 🤯
Den nya läkaren har inga sjukhuskläder 🩺
/Plusmeny 🍺
Artificiell Artificiell Artificiell Intelligens 🧪
En ung möbeldesigners praktikant 🪑
/ Aftonbladet granskar SD med AI 🔎
Äntligen lite AI-driven journalistik om något viktigt!
Aftonbladet har använt Whisper, GPT4 och Twitter-roBERTa-base för att se vad Sverigedemokraternas helägda propagandaorgan Riks pratar om/hatar på.
Tidigare ledaren för Centerpartiet Annie Lööf omnämns fyra gånger så ofta som SD:s partiledare Jimmie Åkesson. Och det är inte för att Riks gillar liberaler…
Riks pratar mer om Annie Lööf än kriminalitet och elpriser, två väldigt viktiga frågor för många väljare.
För den som gillar SD och Riks borde det kännas som en besvikelse att så mycket tid går till enskilda personer före sakfrågor och politiska förslag. Kanske är det därför som partiet bestämt sig för att sälja mediekanalen (utan att ange till vem eller när).
En sådan här omfattande granskning hade tekniskt sett gått att göra. En reporter kan lyssna på massor av poddar eller titta på klipp från Youtube och sedan skriva om det. Men det hade inte gått att få fast storheterna i olika ämnen, hur de relaterar till varandra, eller vilka ord och uttryck som oftast förekommer.
Det är alltid vanskligt att kategorisera och analysera tal med hjälp av digitala verktyg. Vår kommunikation är oftast mer subtil än sju kategorier av stämningar, som vissa modeller presenterar.
Det behöver varje journalist och publicist vara öppen med. Aftonbladet har skrivit en föredömlig metodisk genomgång av granskningen. Kudos!
Men öppenhet är ett tvåsidigt mynt.
Det finns reella och konkreta källor av politisk-journalistiskt råmaterial som AI-tjänster kan hjälpa journalister att borra i.
Förhoppningsvis kan fler journalister och medier acceptera tekniken som både ett verktyg och en kollega, samtidigt som man inte går för långt i sin tillit till kod och statistik som Den Riktiga Sanningen. The data is the limit!
Public service-hörnan: Eftersom jag inte tillhör SVT eller SR behöver jag inte förklara vad SD och Riks tycker om granskningen. Men det går att läsa här.
/ Syntetisk data föder en modellkollaps 🤯
Jag pratade nyligen med en person som arbetar med stora opinionsundersökningar i Sverige. De funderar på hur AI kan hjälpa dem att hitta mer relevant information i den data de får in, såväl som ny data.
Den uppenbara tillämpningen är att AI kan bistå i analysen av de enkätsvar som kommer in.
Det finns en rad steg att ta däromkring, och bortom det. Men det som intresserade mig mest var tanken på syntetiska undersökningar.
För tydlighetens skull: Det här är ingenting de utvecklar, säljer eller genomför i dag. Och jag har inte hört att andra opinionsinstitut gör det.
Men det finns någonting i det som kittlar såväl den epistemologiska som den ekonomiska nerven i mig.
Låt säga att någon har 10 000 datapunkter. Det går att göra hyfsat tillförlitliga prognoser från ett såpass stort urval. Det görs regelbundet inom exempelvis politiken och meteorologin med enkätsvar respektive temperaturobservationer.
Men från de här svaren går det också att skapa nya svar på frågor som inte ställts. Det kallas för syntetisk data.
Det är ny data som genererats av en modell som tränats för att härma “äldre” data.
När man sedan bearbetar den nya och den gamla datan statistiskt så kommer de att uppvisa ungefär samma fördelning, struktur och egenskaper.
Det är så stora språkmodeller tränas i dag. Det är ungefär hundra gånger billigare än att köpa och klassa egen data.
På ren svenska: Har du frågat tio tusen personer vad de tycker om statsminister Ulf Kristersson kan du med hög pålitlighet besvara vad de tycker om oppositionsledaren Magdalena Andersson, eller om regeringens senaste förslag.
Det här är bra på vissa sätt:
Man får en svarsfrekvens på 100 procent (om vi inte får medveten AI som är tillräckligt god för att vägra skapa syntetiska svar).
Det går snabbt att göra “nya” undersökningar bland “folk”.
Det går att öka anonymiteten i olika dataset genom att simulera svar och egenskaper utan att behöva behålla namn och annan känslig data.
Låter det läskigt att AI hittar på vad vi tycker? Sluta använd ChatGPT.
Alla språkmodeller bygger på ursprunglig data – drösvis av mänskligt skriven text som finns på internet eller i böcker – om hur ord (datapunkter) hänger ihop, för att förstå hur de borde hänga ihop i framtiden.
Varje språklig relation mellan ord går att lära sig och reproducera. Varje svar från ChatGPT är syntetisk data.
Det kan även göra att en modell börjar hallucinera. Det vill inget seriöst opinionsinstitut råka ut för. Så det är en bit kvar till simulerade respondenter.
Det som ligger närmare till hands är en syntetisk intervjuare som ställer frågor till riktiga människor.
En person kan inte genomföra intervjuer med 100 respondenter samtidigt, och heller inte bearbeta all insamlad data särskilt snabbt. Men en AI-modell kan göra det. Problemet är, som många upptäckt, att chatbotar inte är lika konversanta som folk. Det kan grumla den information man får in.
Det kan verka effektivt med syntetiska intervjuare. Men är det samma kunskap som en människa hade skapat? Jag sa ju att den epistemologiska nerven skulle kittlas…
Public service-hörnan
Ny forskning från universiteten i Oxford, Cambridge, Toronto och London visar att träningen av modeller med hjälp av syntetisk data försämrar modellen. Jag antar att man kan sammanfatta det som felens rundgång. Vi kommer behöva snacka om AAAI (smakprov i dagens plusmeny!)
The Peking Perspective
Felens rundgång syns redan i språkmodeller. NewsGuard fann i våras att ChatGPT-3.5 genererar mer desinformation på kinesiska än engelska eftersom den kinesiskspråkiga träningsdatan på internet har en större andel officiell propaganda från kommunistpartiet. Äg det digitala narrativet, äg språkmodellerna!
Blast from the past
Jag antar att syntetisk data är lika omskakande som när syntarna kom in i musikbranschen… Men vad vore vi utan Giorgio Moroder?
/ Den nya läkaren har inga sjukhuskläder 🩺
Bland läkarna på Mammografimottagningen vid S:t Görans sjukhus finns sedan 27 juni en ny kollega.
Kollegan heter officiellt Alna, men kallas Lunit av de andra läkarna, och arbetar helt utan de träskor, pösiga byxor, skrivbord och skärm som många röntgenläkare använder dagligdags.
Lunit bär inte ett stetoskop och spritar inte händerna, utan sitter bara “nere i källaren” som en av läkarna beskriver det.
Algoritmer tar väldigt lite fysisk plats på ett kontor. Men deras närvaro kan ändå vara stor.
Jag stack in huvudet på S:t Göran dagen efter att Lunit började jobba. I två rum, ett större och ett lite mindre, granskade läkarna röntgenbilder som de alltid gjort. Men efter varje granskning fick de medhåll eller mothugg av algoritmen, som redan gjort sin bedömning.
Det var ingenting de fokuserade på. De kunde göra massa annat i stället.
Förut kunde en läkare tröska igenom mellan 500 och 800 bilder per dag. Det gör de fortfarande. Men i stället för att vänta på att en kollega får tid över att kolla på det man gått igenom, så kallad dubbelgranskning, så skickas friskbrev ut automatiskt tack vare algoritmen.
Den tar rollen som förste granskare, läkaren som andre granskare. När det andra ledet “friskar” en patient är jobbet gjort. Förut fick de skjuta sådant till slutet av dagen eftersom fysiska personer intog vardera roll. Och det går inte att dubbelgranska sig själv.
I måndags, dagen före algoritmen klev in på kontoret, behövde en läkare gå igenom 900 bilder som låg på hög. I torsdags eftermiddag var de nere på noll i varje hög, och då är en av läkarna inte i tjänst torsdagar och fredagar.
“Vi har hittat ett gäng cancrar där algoritmen flaggat men vi inte ser något”, var summeringen av tre arbetsdagar med Lunit.
Ett cancerbesked är förstås brutalt att ta emot. Men som Cancerfonden skriver: “Prognosen är bättre ju tidigare sjukdomen upptäcks. I dag lever över 85 procent av kvinnorna 10 år efter bröstcancerdiagnos.”
Upptäckt är bättre än ovisshet. Allt är dock inte guld och gröna skogar.
Många, inklusive jag själv, tänker att en algoritm eller modell kan jämföra historisk data med ny data. Men Lunit är inte byggd för att kolla bakåt – än så länge.
Den är tränad på tiotusentals anonyma röntgenbilder för att upptäcka avvikande eller förändrade mönster inuti bröst. Den har ingen koll på en enskild patients historik.
En person som gått på regelbundna undersökningar kan ha haft samma förtätning i årtionden för att hen är skapt så. Läkaren förstår det och blir inte orolig när det dyker upp på bilden från senaste undersökningen. Lunit har dock ingen aning, och flaggar en misstanke.
Det leder till att fler patienter behöver diskuteras läkarna sinsemellan före de kan friskförklara dem. Men det betyder också att varje diskussion är relativt lätt när en läkare kan kolla några bilder bakåt och se att det alltid sett ut på ett visst sätt.
Full patte: Västmanland, Sörmland och Östergötland har anslutit sig till en plattform som heter VAI-B. Där kan de utvärdera hur algoritmer inom screening för bröstcancer presterar. De kan använda egen data och se hur AI-system från tre bolag – Vara från Tyskland, Lunit från Sydkorea och Therapixel från Frankrike – lyckas på just deras patienter. (Under utveckling är plattformarna VAI-P för prostatacancer samt VAI-S för stroke.)
Att mäta hur bra en algoritm är för att hitta bröstcancer är svårt. De flesta tänker nog att träffsäkerhet är ett bra sätt. Men enbart 0,5 procent av alla som undersöks i Sverige får en diagnos.
Skulle algoritmen bedöma varje patient som negativ, alltså frisk, skulle träffsäkerheten ligga på 99,5 procent. Det låter bra, men informationen tillför inget värde för vården.
Dessutom gör äldre bilder med sämre kvalitet saken svårare. Det finns alltså ett modernitetsbias som nu byggs in i AI-driven screening för bröstcancer.
/Plusmeny 🍺
#1 🧪
Mellan en tredjedel och hälften av de som arbetar på Amazons plattform MTurk med att bearbeta och klassificera textdata använder språkmodeller i sitt dagliga jobb. (Den lilla studien gick igenom hur databehandlare summerar en medicinsk artikel.)
MTurk och liknande plattformar som Fiverrr och Upwork hjälper företag att lägga ut repetitiva och tidskrävande uppgifter som att transkribera intervjuer, klassificera bilder eller bistå vid träning av språkmodeller.
Varför är det dåligt att använda en språkmodell för att hantera data? Det ger mer opålitliga svar. Förut har forskare och företag vetat att människor bemöter och returnerar information.
MTurk har kunnat ta betalt för att alltid leverera mänskligt producerade och granskade resultat.
Nu vet man inte om de eller en språkmodell producerat texter, annoteringar eller dylikt. Det ifrågasätter validiteten i hela dataset.
Forskarna uppmanar plattformar, andra forskare och databehandlare att “hitta nya sätt att säkerställa att mänsklig data förblir mänsklig”.
The Good Life: Det här lär göra dataset skapade före AI-revolutionen väldigt värdefulla.
#2 🪑
På The Cowgirl Gallery i Malmö ställer Ebba Lindgren ut sin design. Tillsammans med ChatGPT och Midjourney har hon skapat en lampa som hänger från taket, till skillnad från övriga utställares verk som finns längs väggarna.
Det var en idé från ChatGPT som instruerades att generera förslag till Lindgrens kollektion Really Rococo.
Det låter inte så kreativt, vilket kan lugna konstnärer av alla slag. Samtidigt var det en respons på bra prompts och en historik av dialoger att luta sig mot.
Det måste inte bli kärnvapenkrig av AI. Det kan också bli bättre upplysta vardagsrum.
/Prat 🦜
/Tänkvärdheter från någon jag har pratat med eller lyssnat på.
För några veckor skrev jag om forskarvärldens inställning till AI utifrån ett citat som ofta tillskrivs Galileo Galilei: Eppur si muove. Och likväl rör hon sig.
Som jag också skrev då är det inte säkert att han ska ha uttryckt detta.
Men det beskrivs som ett citat från 1633 och den romerska inkvisitionen, den kyrkliga rättegång som hölls när någon utmanade kyrkliga dogman och doktriner.
Att solen rörde sig runt jorden höll inte Galileo med om. För det blev han åtalad och tvungen att dra tillbaka sitt påstående. Det är kärnan i all framstående forskning: Att söka och hitta sanning när alla andra har fel.
Rättegången, och Galileos skuld, dök upp som ett tankeexperiment i en podcast med techentreprenören och AI-debattören Marc Andreessen.
Vad hade hänt om dagens stora språkmodeller fanns 1633, och de fick frågan om Galileo hade rätt eller fel i sitt påstående att jorden rör sig runt solen?
Han har fel, för att den överväldigande majoriteten av mänskligheten vid tidpunkten ansåg det.
Förut hade kyrkan och kungar monopol på det sanna och det rätta. Så är det inte i dag.
Men det många människor tycker i dag, och därmed skriver i böcker och på internet, motsvarar samma form av majoritetsåsikt som rådde när Galileo ifrågasatte världsordningen. Och den majoritetsåsikten är den träningsdata som går in i stora språkmodeller.
Modellerna bygger kunskap utifrån kollektivets kunskap. Modellerna har inte tränats på en sanning, eller att söka den, utan på vår konsensus.
En gång i tiden var konsensus att jorden stod still i universums mitt. Och att vissa människor var värda mer än andra.
Vad gör dagens konsensus med den kunskap och de svar som språkmodeller ger oss? Och vad gör det med oss?
/Läsbart 📚️
/Det här har jag tyckt om att dyka ner i på senaste och tror att du också kan göra det.
/En yta för fri reflektion om något av det jag har läst 🤓
#3. AI-båten.
Regeringen tänker skicka in 500 miljoner per år i programmet för avancerad digitalisering, från och med nästa år och i tre år framåt.
Då kommer ABB, Ericsson, Saab och Teknikföretagen enligt en överenskommelse att matcha det krona för krona. En miljard per år, således.
Men att det skulle röra sig om ett “statligt miljardregn till företag för AI-racet” som Dagens industri skriver håller jag inte med om.
Det som sägs är att “en stor del” av avancerad digitalisering är AI. Och digitaliseringsminister Erik Slottner (KD) tycker att välfärden går miste om många nyttor när “digital potential som AI” inte används på bästa sätt.
Det är svårt att se miljardregnet för alla omskrivningar.
Kanske vill man politiskt sett inte knyta sig till enskilda tekniker, löften eller områden. Det är förstås en rimlig försiktighet, om än rätt partipolitiskt medierad snarare än verklighetsförankrad. Få partier lär vinna väljare på att avveckla det digitala samhället.
Kanske vet politiken inte mer i nuläget om vad den vill och kan göra.
Att digitaliseringsministern lyfter fram en AI-driven portal som samlar “goda exempel där bra arbete som enskilda kommuner eller regioner har gjort” känns… vaniljigt.
Att Skatteverket vill ha i uppdrag “att ta fram olika AI-genererade tjänster” är också rätt konturlöst.
Det är symptomatiskt att ministern övergår till att prata om ett nationellt och statligt system för en digital legitimation.
Digitalisering är för de flesta antingen bättre bredband eller enklare banktjänster.
Månne de 500 miljonerna göra någon nytta…