Vurderinger og anbefalinger om fremtidens eksamen

14 Hvordan skal vi sikre kvalitet i sluttvurderingen?

Høy kvalitet i sluttvurderingen er nødvendig for at den skal fungere etter formålet. Tilliten til sluttvurderingssystemet bygger på en oppfatning om at vurderingen er til å stole på. Kunnskapsgrunnlaget viser at vi har lite kunnskap om flere av de viktige kvalitetskriteriene, som validitet, reliabilitet og rettferdighet, og konkluderer med at det er nødvendig med en mer helhetlig tilnærming til kvalitetssikring i sluttvurderingen, tydeligere kvalitetskrav og mer systematisk forskning. Eksamensgruppa pekte allerede i kunnskapsgrunnlaget på et behov for en grundig kvalitetssikring gjennom systematisk planlegging av tiltak, og har anbefalt flere tiltak i del 1 av denne rapporten (jf. kap. 18 med en samlet oversikt), bl.a. at det utvikles et helhetlig rammeverk for kvalitetssikring av både sentralt- og lokalt gitt eksamen.

I dette kapitlet trekker eksamensgruppa fram viktige mekanismer for å videreutvikle kvaliteten på sluttvurderingen, blant annet kvalitetssikring av standpunkt som kjernetiltak og benyttelse av psykometriske metoder i eksamensutvikling. Disse bygger videre på noen av de tidligere anbefalingene fra eksamensgruppa som referert i del 1.

14.1 Kvalitetssikring av standpunkt

Det er viktig å huske at eksamen utgjør bare en liten del av sluttvurderingen. Standpunkt har langt større vekt i dagens poengberegning, mens systematisk kvalitetssikring blir lite diskutert i denne sammenhengen. Eksamensgruppa mener at det er på tide å skifte fokus ved å inkludere kvalitetssikring av standpunktkarakterene. Bare på denne måten vil det bli mulig å øke kvaliteten på sluttvurderingen samlet sett.

Standpunktkarakteren hviler på en tillit til lærernes kompetanse til å vurdere eleven, og det er viktig å opprettholde denne tilliten som kan svekkes på sikt dersom kvaliteten er usikker. Fordelen med standpunkt sammenlignet med eksamen, er at den er basert på gjentatte observasjoner over lengre tid istedenfor for én prøve på en dag som er tilfellet ved eksamen. Samtidig skal standpunkt være en samlet vurdering av hele kompetansen i faget, noe som krever kompetanse på helhetlig vurdering. Både Kunnskapsgrunnlaget og Ludvigsen-utvalget (NOU 2015:8) peker på at lærere ikke nødvendigvis har fått opplæring i hva som skal til for å sikre en valid, reliabel og rettferdig vurdering av elevens sluttkompetanse (se også kap. 10 om lærerutdanningenes ansvar i denne sammenhengen).

Utvidelsen av kompetansebegrepet i fagfornyelsen innebærer en økt kompleksitet i hva som skal vurderes og hvordan. Kunnskapsgrunnlaget peker på at det er allerede strekk i laget når det gjelder forståelse av kompetansebegrepet og læreplaner i Kunnskapsløftet. Utfordringene blir ikke mindre med fagfornyelsens utvidete kompetansebegrep. For å oppnå at standpunktkarakteren gir et reliabelt, valid og rettferdig bilde av elevenes kompetanse bør den derfor kvalitetssikres like sterkt som eksamenskarakteren.

Profesjonalisering av sluttvurderingen kan og bør skje både ovenfra (nasjonale føringer/tiltak, støtteressurser) og innenfra (involvering av lærere, utvikling av vurderingsskjønn). Disse prosessene er gjensidig avhengige av hverandre fordi ikke alt kan eller bør reguleres og sentraliseres for å opprettholde tilliten til sluttvurderingssystemet fremover. På lik linje med eksamen, er det derfor viktig at standpunktvurderingen kvalitetssikres. En god måte er å utvikle en felles forståelse (tolkningsfellesskap) innenfor faget, men på tvers av skoler, gjennom en felles diskusjon av læreplanen, av kjennetegn på måloppnåelse og en felles utvikling og vurdering av oppgaver.

Gruppa peker på at det også bør legges mer vekt på systematisk samarbeid med faglærere og praksislærere om standpunkt- og eksamensvurdering i lærerutdanningene (se også kapittel 10 om lærerutdanningen). Mer systematisk samarbeid mellom skoler og lærerutdanningene f.eks. gjennom praksisperioder, vil også kunne gi utdanningsinstitusjonene oppdatert kunnskap om sluttvurderingen ute i skolen.

Videreutvikling av digitale vurderingsformer som kan være en støtte til lærerens vurderingsarbeid både i opplæringen og i forbindelse med sluttvurderingen, vil nok anvendes i større grad enn i dag fram mot 2030. En mulighet som kan øke tolkningsfellesskapet på lang sikt gjennom bl.a. digitalisering, ville være å inkludere flere lærere i sensuren og jobbe med tolkningsfellesskap på hver enkelt skole i kombinasjon med sensorskolering og støtte i bla. vurderte elevsvar. En annen mulighet ved digitaliseringen kan være å legge til rette for tekniske løsninger for samarbeid mellom skoler og lærere om prøver og andre vurderingsformer i standpunktvurderingen, for eksempel der man i fellesskap setter karakter på noen elevarbeid som utgangspunkt for felles diskusjon om faglig nivå og karaktersetting. Slike initiativ vil nasjonale myndigheter kunne stimulere til for eksempel gjennom utvikling av ulike støtteressurser og legge til rette for «gjenbruk» av kvalitetssikrede eksamensoppgaver som kan benyttes for å utvikle tolkningsselskap i prioriterte fag.

14.2 Kvalitetssikring av eksamen

Å kvalitetssikre eksamen i sluttvurderingen innebærer å ha et blikk på hele eksamensprosessen, fra utvikling av eksamensoppgavene via administreringen av eksamen, dens vurdering og karaktersetting samt tolkningen av resultatene til måten disse tolkningene blir anvendt. Kunnskapsgrunnlaget peker på at utviklingen av kompetanseorienterte eksamener er krevende fordi mer komplekse evner og kunnskap som regel er mindre presist definert. En følge av dette er at det ikke alltid er mulig å definere presist forventninger til hva elevens besvarelse skal bestå av. Det kan også være utfordrende å definere eksamens innhold slik at det blir «målbart», og på samme tid ivareta prøving av mer kompleks kompetanse. Desto viktigere blir det å kvalitetssikre alle stegene i utviklingen av en eksamen fra oppgaven til karaktervurdering.

Psykometri har i begrenset grad vært brukt på eksamensfeltet for å sikre validitet, reliabilitet og rettferdighet i eksamen og sensur. Eksamensgruppa mener at psykometriske metoder kan gi et verdifullt bidrag i kvalitetssikringen av eksamen, særlig med hensyn til å utvikle systematisk tenkning om den. Det er viktig å understreke at en økning i bruk av psykometriske metoder ikke er skal fortrenge dagens prøve- og eksamenstradisjon, men bidra til å forbedre den.

En del av disse metodene har så langt vært brukt som en hjelp til å kvalitetssikre oppgaver og sensur i realfagene. Når vi tydeliggjør kvalitets- og innholdskrav til eksamen på en systematisk og ryddig måte, vil det bli lettere å se de mulighetene som ligger i en psykometrisk tilnærming også i andre fag enn realfagene. Comparative judgement har for eksempel allerede blitt trukket fram som en helhetlig måte å vurdere komplekse oppgaver på ved å sammenligne to og to besvarelser og deretter bruke en statistisk modell for å håndtere det store antallet rangeringer som resulterer fra vurderingene (se kap. 8). Teknologi vil i tillegg gi muligheter for å utnytte psykometri på måter som kan heve kvaliteten både på system- og oppgavenivå.

Vi trekker her fram fire områder der det kan være nyttig å ta i bruk psykometriske metoder:

  • Å sikre valid oppgaveutvikling
  • Å sikre at vanskegraden på eksamen er den samme fra år til år
  • Å sikre mest mulig reliabel sensur
  • Adaptive eksamener

Å sikre valid oppgaveutvikling

Oppgaveutvikling er et veletablert område i vurderingsforskning og det fins gode rammeverk som beskriver viktige kvalitetskriterier av prøveoppgaver og hvilke trinn som bør gjennomgås under utviklingsprosessen. Det begynner med tydelige definisjoner av kompetansedimensjonene prøveinnholdet skal dekke samt vurderingskriterier, og inkluderer utprøvinger av oppgavene for å sikre at en prøve har ønskede egenskaper før den implementeres. Dette gjelder særlig ved såkalte high-stakes prøver, som har store konsekvenser for prøvetakeren (som ved eksamen).

Et viktig prinsipp for utvikling av eksamen til nå har vært at oppgavene i all hovedsak utvikles av faglærere for å gjenspeile det som skjer i opplæringen, utfra læreplanene og føringer i forskrift og rammeverk for eksamen (gjelder sentralt gitt eksamen). I blant annet Nederland og Tyskland har de imidlertid gode erfaringer med å inkludere psykometrisk og akademisk ekspertise allerede i oppgaveutviklingsprosessen. Psykometrikere kan hjelpe med å unngå vanlige feil under oppgaveutviklingsprosessen ut fra erfaringer med testutvikling. En slik tilnærming bør komme i tillegg til faglærernes rolle i utviklingen av eksamen, for å sikre at oppgavene kvalitetssikres fra ulike ståsteder.

Å sikre at vanskegraden på eksamen er den samme fra år til år

At en karakter betyr det samme fra år til år, er vesentlig for å opprettholde tilliten til sluttvurderingen. Det er derfor viktig å sikre samme vanskegrad på eksamener over år, slik at elever fra ulike kull konkurrerer om inntak til et studieprogram eller en jobb på samme grunnlag.

For eksamen kan dette sikres eller utredes gjennom kalibrering. Kalibrering betyr å gjenbruke oppgaver som tjener som ankeroppgaver, altså som utgangspunkt for å estimere vanskegraden til de andre oppgavene, enten for å se om prøven har blitt enklere eller vanskeligere, eller for å justere karakterene deretter. Istedenfor å gjenbruke oppgaver over år, er det mulig å ha en ekstra kalibreringsprøve før eksamen som gjentas hvert år, og deretter bruke denne prøven som anker.

Dersom kalibrering ikke er gjennomførbart eller ønskelig, kan normering være en alternativ tilnærming for eksamener i store fag med et tilstrekkelig antall kandidater så det kan antas med rimelig sannsynlighet at normalfordelingen gjelder. Det innebærer at poenggrenser for stryk og alle karakterer settes ut fra fordelingen av årets resultater. Ulempen med normering sammenlignet med kalibrering er at det ikke er mulig å gjenspeile mulige forbedringer over år. Og så kan og bør tilnærmingen ikke brukes på småfag der variasjon i prestasjon ikke bare kan relateres til variasjon i oppgavenes vanskegrad, men også til variasjon i elevenes prestasjonsevne. For eksamener med et lavt antall kandidater kan det dermed by på utfordringer å sikre at vanskegraden er lik fra gjennomføring til gjennomføring. Her trengs det utredning for å undersøke mulige tilnærminger for å sikre at elevene får rettferdige karakterer over år.

Å sikre mest mulig reliabel sensur

Å arbeide med sensur i en digital plattform gir flere muligheter for å sikre god reliabilitet i alle fag. Den største fordelen er nok at det forenkler muligheten til å gi detaljert tilbakemelding til sensorer om vurderingene deres. Dette kan gi godt grunnlag for å vurdere og justere systematiske skjevheter.

Automatisk skåring av oppgaver kan også være til støtte for sensor. For egnede oppgavetyper vil automatisk skåring kunne innebære tidsbesparelse ved sensur, og gi mindre risiko for skåringsfeil. Hvilke oppgaver som egner seg til å skåres automatisk, må utredes i hvert enkelt eksamensfag.

I et digitalt eksamenssystem kan et stort antall sensorer vurdere én elevs eksamen. Dette kan skje ved at sensorene vurderer bare én av oppgavene elevene har svart på, før de går videre til den neste elevs besvarelse på den samme oppgaven. Dette kan bidra til å sikre at sensorene anvender kriteriene på en mer konsistent måte. Denne prosessen kan inkludere lærere fra ulike regioner. I tillegg er det mulig å ha en felles diskusjon av eksamensresultater i etterkant.

Et digitalt eksamenssystem vil også kunne styre tilgang til hjelpemidler utfra hva som er hensiktsmessig for å vise kompetanse i det enkelte fag og ut fra det faglige nivået elevene er på. Et fag der elevene er å betrakte som «nybegynnere» vil for eksempel kreve andre tilpasninger og eventuelle begrensninger enn i programfag.

Eksamensgruppa har anbefalt at det skal utvikles et helhetlig rammeverk som bør være retningsgivende for kvalitetssikring av både sentralt- og lokalt gitt eksamen (se kap. 7.1). Mulighetene som ligger i psykometri for å gjøre rammeverksutviklingen på en systematisk måte bør vurderes, og i større grad utnyttes for konstruktdefinisjon, variasjon av prøveformater, vurderingskriterier og sensur i videreutvikling av eksamen, og dermed også være en del av rammeverket. Et viktig premiss for videreutvikling av eksamen er bred involvering, ikke minst elevene, for å skape felles forståelse og rammer for vurdering og sensur.

Adaptive eksamener

Adaptive eksamener gir mulighet for å tilpasse oppgavene til elevens faglige nivå. I prinsippet har muntlige eksamener skulle legge til rette for en slik individuell tilpasning, ettersom dagens forskrift krever at eksamineringen skal gi kandidatene mulighet til å vise kompetanse i så stor del av faget som mulig. Dette betyr i praksis at eksaminator/sensor skal stille spørsmål som gir eleven anledning til å vise bredest mulig kompetanse i faget. Eksaminator/sensor skal lete etter den kompetansen eleven har, noe som innebærer en tilpasning av spørsmål til elevens faglige nivå.

Det finnes i tillegg en mulighet til å utnytte nye digitale prøveformater for den individuelle tilpasningen basert på automatisk skåring og analyse i en digital plattform. Slik adaptivitet brukes i ulik grad i opplæringen i dag, for eksempel i intelligente digitale læremidler som kan gi hver enkelt elev undervisningsmateriale og oppgaver tilpasset deres utvikling og behov. Bruk av adaptivitet kan også gi eleven målrettede og tilpassede tilbakemeldinger underveis mens eleven løser oppgaver.

For sluttvurdering har vi lite erfaring med denne typen adaptivitet, heller ikke hvis vi ser til andre land (så vidt oss bekjent), og det må derfor drøftes og utredes nøye om det ligger fordeler her som er større enn ulempene. Innenfor prøvefeltet utforskes det hvilke muligheter adaptivitet kan gi for måling av elevenes ferdigheter. De siste årene har det blitt utviklet adaptive tester som tilpasser tempo, faglig nivå og tilbakemeldinger til den enkelte elev. Svar på en større blokk tidligere oppgaver anvendes for å velge ut nye sett med oppgaver tilpasset ferdighetsnivået eleven har vist tidligere. En fordel med dette er at elevene ikke behøver å bruke tid på å svare på oppgaver som de åpenbart mestrer eller at de ikke blir unødig utsatt for oppgaver de ikke har forutsetning for å mestre. En annen fordel er at skåringen av oppgavene er automatisert slik at lærerne ikke behøver å bruke tid på det.

Samtidig finnes det ulemper, som for eksempel at elevenes karakterer er basert på ulike sett av oppgaver ettersom disse er tilpasset ferdighetsnivå. Det vil også ta tid å bygge opp tilstrekkelig tillit og forståelse for denne tilnærmingen i samfunnet.

Det finnes eksempler på utprøving av adaptiv testing i norsk skole i dag. Forskningsmiljøet EKVA ved UiO utvikler adaptive kartleggingsprøver for 1. og 3. trinn i det nye digitale systemet til Utdanningsdirektoratet, og i disse prøves det ut en form for adaptivitet. Oslo kommune har engasjert Matematikksenteret og Lesesenteret til å utvikle adaptive prøver i lesing og regning for 3. trinn i prosjektet Adaptvurder. De nye prøvene er tenkt tatt i bruk fra 2022. Det er foreløpig ingen prosjekter som er utviklet for eksamensformål. Eksamen skal ikke bare ha høy reliabilitet, validitet og rettferdighet, men også en akseptabel kostnadsramme. I tillegg må personvern, krav til teknologisk utstyr og andre trusler mot kvalitet i gjennomføringen vurderes.

Eksamensgruppa mener at det er relevant å diskutere hvilke muligheter og utfordringer adaptivitet kan gi for eksamen. En del av vurderingene er for eksempel om adaptive oppgaver kan være en del av en større eksamen som til sammen kan gi et godt bilde av elevens kompetanse. Det er naturlig å knytte ideen til den delen av eksamen som kan vurderes automatisk (se avsnittet ovenfor om reliabel sensurering). Det er dessuten behov for å innhente mer kunnskap om problemstillinger ved adaptivitet knyttet til personvern samt validitets- og rettferdighetsutfordringer.