I mai startet en debatt om hvorvidt ChatGPT bli dårligere. Til å begynne med var det brukere som syntes ting gikk nedover, men etterhvert har forskere og guruer meldt seg på og konstatert at svarene til ChatGPT (i hvert fall innenfor områder der det er mulig å måle kvalitet), som matematikk, typen sensitive spørsmål som kan besvares, koding og tolkning av bilder, har ting blitt dårligere over tid.
Årsaken er, paradoksalt nok, at OpenAI, firmaet bak ChatGPT, gjør endringer i algoritmene for å forbedre ChatGPT, for å øke kvaliteten og hindre at systemet blir brukt til ting det ikke skal brukes til. Og dermed synker altså den opplevde kvaliteten.
Dette paradokset er interessant fordi det illustrerer to fundamentale tilnærminger til kunnskapsbaserte systemer (som jeg synes er et mye bedre uttrykk enn “kunstig intelligens”, av mange grunner).
Logiske modeller
På 80-tallet, da jeg begynte å rote rundt med det som den gang ble kalt AI, var AI så og si synonymt med ekspertsystemer – det vil si systemer som kunne besvare spørsmål ved å etterligne hva en ekspert gjør (og ofte laget ved at man intervjuet eksperter). De ble programmert som en rekke spørsmål (Er pasienten kortpustet? Hvor mye røyker han?) og stiller så en diagnose basert på beslutningstrær. I dagliglivet treffer du denne typen systemer som Chatbotene som i alle fall forsøker å besvare enkle spørsmål i banken og andre steder man henvender seg.
Statistiske modeller
På slutten av 80-tallet (vel, egentlig mye tidligere, men de ble vanligere da) kom nevrale nettverk og andre, mer statistisk baserte metoder, som tok utgangspunkt i store mengder data og konstruerte modeller som kunne klassifisere ting. I motsetning til ekspertsystemene, som var basert på en logisk modell av hvordan folk tenker, tok disse metodene inspirasjon fra en fysisk (og, for all del, teoretisk) modell av hvordan hjernen virker. De prøver seg frem til de finner en modell som gir ønsket resultat, ofte ved å konstruere nettverk av enkeltinformasjonselementer som er forbundet, og der forbindelser mellom elementer styrkes eller svekkes gjennom prøving og feiling.
ChatGPT og andre store språkmodeller hører til denne typen systemer: De forsøker å gjette det neste ordet i en setning rett og slett ved å ha lest enorme mengder tekst og velge det ordet som er mest sannsynlig.
Forskjellige feilmodus
Disse systemene har mange forskjeller – en av dem er hvordan de gjør feil. Ekspertsystemene er nokså enkle – hvis de ikke finner et svar, sparker de problemet videre til noen som har svaret, som regel en person. De kan selvfølgelig også svare feil – men da er det som regel nokså enkelt å forstå at svaret er feil, siden det ser urimelig ut. De er på mange måter å sammenligne med søk i databaser, der man må være nokså presis i hva man spør etter, og databasen vil svare at den ikke har noe som passer hvis så er tilfelle.
Statistisk baserte modeller, derimot, vil alltid gi et svar. Slik er de mer å sammenligne med søkemotorer, som alltid vil forsøke å gi deg noe, selv om det ikke passer. (Når fikk du sist en melding fra Google om at det ikke fantes noen sider som oppfylte dine kriterier?) Svarene kan være riv ruskende gale, men vil se troverdige ut. En generativ språkmodell, som ChatGPT, har ingen underliggende fornuft, den forsøker bare å gjette hvilket ord som passer best, gitt de ordene som kom før.
Når kvalitetskontrollen roter til ting
Et problem med de statistisk baserte modellene, i alle fall de som bruker nevrale nettverk, er at de kan bli riktig gode på å kategorisere ting – billedgjenkjenning, tekstgjenkjenning, tekstfortolkning – uten at man kan forklare, i alle fall på en måte mennesker kan forstå, hvordan de gjør det. Det kan også gjøre store logiske feil: Selv om ChatGPT kan skrive pressemeldinger og eksamensoppgaver som ser tilforlatelige ut, gjør den logiske feil – noe som ofte viser seg i at den produserer falske referanser, det vil si lager en referanseliste med artikler som ikke finnes. (Biblioteket på BI rapporterer om studenter som dukker opp og skal ha artikler av denne typen.) Den kan godt generere en caseanalyse eller en sosiologisk drøfting – der er jo grunnlaget ord (og mange av dem). Men folk som har bedt den skrive et artikkel innen fysikk eller matematikk, sier at den produserer noe som ser svært tilforlatelig ut hva teksten gjelder, men formler og formell deduksjon er helt håpløst.
Det betyr at man må putte på en eller annen form for kvalitetskontroll som er logisk basert – altså bruke ekspertsystemlogikk til å kontrollere det som genereres. Dette kan gjøres på mange måter: Man kan ha en inputkontroll (slik at folk ikke kan be ChatGPT skrive noe rasistisk eller instruksjoner for å lage en atombombe). Man kan kombinere ChatGPT med logiske systemer – for eksempel Matematica, Stephen Wolframs matematikkprogrammeringssystem, som nå integreres med ChatGPT.
Og det er her det ser ut til at det blir vanskelig.
Siden man ikke helt vet – i hvert fall ikke i detalj – hvordan ChatGPT produserer et tekststykke, blir det svært vanskelig å introdusere kvalitetskontroll eller andre begrensinger rett i modellen. Man blir henvist til enten å filtrere input og output – og det gjøres i stadig større utstrekning – eller (svært forenklet) å legge begrensinger på hva slags tekstmateriale som kan brukes som underlag for å generere ny tekst.

Jeg har litt følelsen at OpenAI (og deres konkurrenter) har laget ChatGPT og andre modeller, og nå står og ser på denne maskinen og ikke helt forstår hva de har laget. Jeg hadde en gammel og komplisert Mercedes for noen år siden. Den var kul (syntes jeg i alle fall), men jeg kunne jo ikke skru på den selv fordi den var så komplisert, og visste at nesten enhver ting jeg gjorde, hadde mye større sannsynlighet for å rote ting til enn å gjøre den bedre.
Men bare vent…
Så det er ikke helt tid for å sparke kommunikasjonsavdelingen ennå – men kanskje tid for å ha flere folk til å kontrollere resultatet enn å generere innholdet. Ledere jeg kjenner, har kommentert at eposter de får har blitt lengre, høfligere og med rikere vokabular. Men jeg ville ikke helt automatisert epostene mine ennå, og slett ikke om de inneholder konkrete fakta og definitive avgjørelser.

Hva den automatiske kvalitetskontrollen gjelder, så er det fremdeles tidlig i språkmodellenes utvikling – hvis vi regner ChatGPT som begynnelsen. Men ChatGPTs røtter ligger i forskningen til Frank Rosenblatt fra tidlig sekstitall og Rumelhart og McClellands bok fra 1987 – og sett i det perspektivet er ChatGPT det foreløpig siste skrittet på en lang reise.

Da elektrisiteten kom, kom det også allslags finurlige apparater som skulle gi bedre hårvekst, bedre potens, og for alt jeg vet mer intelligens. Det samme gjaldt radium, kaffe, poteter og mye annet. Nå for tiden er det vel antioksydanter og AI som i har rollen som universalløsning. Over tid får man et mer edruelig forhold til fenomenet, bedre oversikt over bivirkninger, og fremfor alt bedre forståelse for hva det kan brukes til.
Så ChatGPT råtner egentlig ikke. Det har i stedet startet på en prosess som over tid vil gjøre teknologien bedre, mer pålitelig, og med mer presist definerte bruksområder. Jeg tror mer på en gradvis forbedring enn en revolusjon der ChatGPT 7 eller 8 tar over verden. I mellomtiden forsøker jeg å lære meg å bruke de nye verktøyene smart – og insisterer på at de er verktøy og ikke noe annet.

Leave a comment