ChatGPT fikk A på anatomieksamen

I februar i 2023 ble det glatt stryk da ChatCPT-3 besvarte en del av en eksamensoppgave i sykepleie.

I lenken under kan du lese hvordan det gikk sist.

Professor Morten Goodwin ved universitet i Agder

Les også ChatGPT fikk «ikke bestått» på sykepleietest – men i fremtiden vil den klare det

Tok anatomieksamen

Nær to år senere ba vi Morten Goodwin få roboten til å ta anatomieksamen, som sykepleiestudentene tok 11. desember.

Allerede da Goodwin sendte besvarelsen til Sykepleien, mistenkte han at det hadde gått vesentlig bedre enn sist.

Professoren i kunstig intelligens ved Universitet i Agder brukte to ulike versjoner av ChatGPT-5. Versjon o1 leser ikke bilder, så her benyttet han 4o til de visuelle oppgavene.

Hele besvarelsen kan du lese her.

92,5 poeng og A

Sykepleier og førsteamanuensis Ole Kristian Brones Berg ved Høgskolen i Molde, som var med på å lage årets anatomieksamen, var sensor for oppgaven Goodwin fikk roboten til å løse.

Karakteren A: Fremragende prestasjon som klart utmerker seg. Kandidaten viser svært god vurderingsevne og stor grad av selvstendighet.

Fra veiledningen til eksamen i Anatomi, fysiologi og biokjemi

Berg skriver at sensuren ga 92,5 poeng og karakteren A. Han fant enkelte litt underlige formuleringer og uvanlig ordbruk uten at det ble trukket for dette:

Uvanlige/ikke brukte formuleringer som «høyre ventrikulære grense», «forgrenede buntforgreninger» eller «bundeforgrening», i denne besvarelsen ville jeg mistenkt bruk av KI.
Bommet på et par punkter i ulike figuroppgaver.
Bommet også på et par punkter i ulike matriseoppgaver.
Bruker innimellom ord som ikke finnes, for eksempel «inntredet». Bruker av og til engelsk terminologi eller engelskliknende formulering innimellom ellers norsk tekst.
Blander enkelte steder inn ikke relatert informasjon i tillegg til riktige svar.
Svar på en av oppgavene begynner med teksten «thought for a couple of seconds». Besvarelsen er ellers fremragende, om noe kulepunktformet i sitt oppsett.

Må følge nøye med på utviklingen

– Jeg tenker at det ikke er rart at KI gjorde det godt på denne eksamen, den er jo en ganske annerledes enn sykepleieeksamenen som ble sensurert sist, hvor det er større grad av drøfting og vurdering enn gjengivelse av faktastoff, skriver Berg i en e-post.

Han mener vi må følge nøye med på utviklingen av kunstig intelligens for å sikre at man tester studentenes kunnskap forsvarlig.

– Men også like mye for å vite hvordan den kan brukes til læring og som supplement i klinisk praksis for å sikre gode helsetjenester, mener Berg.

bilde av berg — SENSOR: Førsteamanuensis og sykepleier Ole Kristian Brones Berg har ledet gruppen av fagfolk som lager oppgavene til anatomieksamenen siden 2019. *Foto: Arild J. Waagbø/Høgskolen i Molde*
Les mer

bilde av morten goodwin — KI-PROFESSOR: Morten Goodwin er professor ved Institutt for informasjons- og kommunikasjonsteknologi ved Universitet i Agder. *Foto: Universitet i Agder*
Les mer

Goodwin er ikke overrasket over at ChatGPT består anatomieksamen.

– Verktøyet har blitt betydelig bedre det siste året, og i andre undersøkelser har det vist medisinskfaglig ekspertise på nivå med en doktorgrad. At det presterer godt i en anatomieksamen, skulle nesten bare mangle, skriver han i en e-post.

Han mener at grunnen til at ChatGPT gjorde feil på bildene, trolig skyldes at han brukte ChatGPT 4o til bildevurdering, og ikke versjon o1, som er langt bedre. Når den nyeste versjonen får tilgang til bildeanalyse, vil også dette forbedres betraktelig.

– De uvanlige formuleringene, som «bundeforgrening», kommer sannsynligvis fra engelske termer. Når ChatGPT ikke vet nøyaktig hvordan den skal svare, bruker den det beste den har lært, som ofte er oversatte engelske uttrykk. Hvis eksamen hadde vært på engelsk, ville disse formuleringene antakelig vært mer presise, tror Goodwin.

Dette er bare starten

KI-professoren sier dette bare er starten.

– Kunstig intelligens utvikler seg i et rasende tempo, og dersom vi tester igjen om ett år, vil vi se en tilsvarende, eller større, forbedring.

For det første må vi tenke nytt om hvordan vi tester studenter

Morten Goodwin, KI-professor ved UiA

Dette har flere konsekvenser mener Goodwin:

– Når et dataprogram kan bestå eksamen med glans, er det åpenbart at vi må fokusere på andre ferdigheter i vurderingen. Innen fag som sykepleie er det selvsagt nødvendig med grunnleggende kunnskap om kroppen, men når alle har tilgang til avansert KI med enorm faglig kompetanse, blir det antakelig viktigere å teste andre aspekter av sykepleieryrket.

Tror de praktiske fagene endres

– Både sykepleiere og pasienter har nå tilgang til denne typen informasjon, og snart vil den være mye bedre og mer presis. Plutselig har vi alle et intelligent verktøy vi kan spørre om anatomi, sykdommer og diagnostisering – og i noen tilfeller kan det gi bedre svar enn fagpersoner. Dette vil åpenbart påvirke helsefagene, sier Goodwin.

I lenken under kan du selv teste anatomieksamen: