Vurderinger og anbefalinger om fremtidens eksamen

7 Kvalitetssikring av eksamen og sensur

7.1 Helhetlig rammeverk for kvalitetssikring av eksamen

Kunnskapsgrunnlaget konkluderer med at det er nødvendig med en mer helhetlig tilnærming til kvalitet i eksamenssystemet. Kunnskapsgrunnlaget gjør også rede for tre sentrale begreper vi kan anvende når vi snakker om eksamenskvalitet: validitet (gyldighet), reliabilitet (pålitelighet) og «fairness» (rettferdighet). Eksamenskvaliteten kan vurderes ved hjelp av disse begrepene, men må samtidig ses opp mot hva som er mulig når det gjelder praktisk organisering og gjennomførbarhet (håndterbarhet). Det er vanskelig å oppnå både høy validitet, reliabilitet, rettferdighet og håndterbarhet på samme tid. Omfanget av eksamensordningene vil derfor ha betydning for eksamenskvaliteten, både når det gjelder håndterbarhet, og med tanke på hvor stor del av skolens ressurser og av opplæringstiden som skal brukes på eksamen.

Eksamensgruppa vurderer validitet og rettferdighet som de viktigste kvalitetskriteriene for eksamen og ser på tilstrekkelig reliabilitet og håndterbarhet som uunnværlige forutsetninger. Kvalitetssikring av eksamen bør ses på og planlegges på en helhetlig måte.

I del 3.2 etterspør eksamensgruppa en mer helhetlig tilnærming til sluttvurderingen, standpunkt og eksamen og anbefaler å beskrive på et overordnet nivå de ulike delene som til sammen utgjør et helhetlig system for sluttvurdering. Det mangler også et helhetlig system for kvalitetssikring i alle ledd av forvaltningen.

Eksamensgruppa mener at det bør utvikles et metodisk rammeverk for å tydeliggjøre kvalitetsog innholdskrav til eksamen, inkludert ansvar og roller. Et slikt rammeverk bør ta utgangspunkt i den overordnede beskrivelsen av sluttvurderingssystemet (jf.3.2) og ha som målsetting å gi et felles utgangspunkt for å arbeide med kvaliteten på eksamen på alle nivåer. Selv om rammeverket nødvendigvis må være på et overordnet nivå og bør gi rom for lokale tilpasninger, vil det bidra til en felles forståelse for hvordan undersøke om kvalitetssikringen av eksamen skjer på en helhetlig måte. Et tydelig definert formål for eksamen er en forutsetning for å utvikle og ta i bruk et slikt metodisk rammeverk (også omtalt i 3.1).

Rammeverket bør være retningsgivende for både sentralt og lokalt gitt eksamen, inkludert strukturer og systemer for samarbeid for å oppnå at kvalitetssikringen av eksamen gjennomføres på en helhetlig måte uavhengig av eksamensform og på tvers av fylker. Hensikten er at disse strukturene støtter opp under profesjonaliseringen knyttet til eksamen og gir enkle og trygge rammer for utøvelse av profesjonelt skjønn og profesjonsutvikling. Rammeverket kan for eksempel også omtale prosedyrer for å sikre prøvenes validitet (gyldighet) og reliabilitet (pålitelighet), som kan bidra til kvalitetssikring av eksamensoppgaver og vurdering.

Et rammeverk kan utvikles basert på for eksempel internasjonalt arbeid med rammeverk (AEA Europe 2017 11; Stobart 2009; Europarådets CEFR-rammeverk). I tillegg kan det være relevant å hente erfaringer fra 

  • Udirs retningslinjer for utvikling av eksamensoppgaver til sentralt gitt eksamen som utdyper forskriftens bestemmelser (Rammeverk for eksamen, 2017)
  • kommunale og fylkeskommunale retningslinjer for lokalt gitt eksamen

11 https://www.aea-europe.net/

7.2 Tydeliggjøring av det overordnede ansvaret for eksamens kvalitet

I forskriften er skillet mellom lokalt gitt og sentralt gitt eksamen knyttet til en administrativ fordeling av ansvaret for eksamen mellom stat og kommune/fylkeskommune. Rammene for eksamen er beskrevet i forskriften, men hvem som skal ha det overordnede ansvaret for å sikre kvalitet på eksamen, og hva dette består i, er i liten grad uttrykt klart. Dette er også noe ulikt formulert for sentralt gitt eksamen og lokalt gitt eksamen. For sentralt gitt eksamen står det at Udir bestemmer hvordan eksamen i det enkelte faget skal organiseres, hvordan eksamensoppgavene skal være, og hvordan sensurordningene skal være. For lokalt gitt eksamen er ikke dette presisert på samme måte.

Udirs, fylkeskommunenes og kommunenes overordnede ansvar for kvalitetssikring av eksamen bør presiseres i forskriften. En tydeliggjøring av ansvar vil være en forutsetning for å kunne følge opp et helhetlig rammeverk for kvalitetssikring av eksamen på alle nivåene.

7.3 Eksamens validitet

Fagpersoner som utvikler eksamensoppgaver, bestemmer hvilke kompetansemål elevene skal prøves i til eksamen, og vurderer graden av kompleksitet de ulike oppgavene skal ha. En tilbakevendende problemstilling for oppgaveutviklere og sensorer er at vi ikke har tydelige nok definisjoner av eksamensinnholdet og vurderingskriteriene. Det er krevende både å utvikle oppgaver og kjennetegn på måloppnåelse og å vurdere kompetanse ut fra kompetanseorienterte læreplaner ettersom tolkningsrommet er stort. Eksamensgruppa mener at det er viktig å utvikle støtteressurser for tillagingen av gode eksamensoppgaver og kjennetegn til måloppnåelse. Disse kan også bidra til mer systematisk arbeid for å skape tolkningsfellesskap slik at faglærerne kan balansere sitt faglige nivå mot andre læreres nivå.

Et utvidet kompetansebegrep krever diskusjoner om hvilke deler av kompetansebegrepet som skal være gjenstand for prøving til eksamen. Et viktig validitetsspørsmål er om
eksamensoppgaver prøver det de har blitt utviklet for, og om eksamen i et fag prøver det samme over år, gitt at eksamensoppgaver er forskjellige. Kalibreringsprøver, piloteringer osv. kan bidra til å ivareta og sikre eksamens validitet.

7.4 Sensur og tolkningsfellesskap

Et godt kvalitetssikringssystem bør sørge for kvalitet på en systematisk måte uavhengig av eksamensform eller om ansvaret for sensuren ligger på lokalt eller sentralt nivå. Tilstrekkelig reliabilitet er en forutsetning for kvalitet i vurderingsarbeidet. Kunnskapsgrunnlaget peker på at det er et viktig kvalitetskjennetegn at en eksamensoppgave får samsvarende vurderinger av flere sensorer, slik at karaktersettingen ikke er preget av tilfeldigheter. Dette krever tydelige oppgaver med gode instrukser, tydelige vurderingskriterier og omfattende sensorskolering for å sikre tolkningsfellesskap. En viss grad av variasjon i sensorenes vurdering er uunngåelig, men i et system der sensorene «skal diskutere seg fram til karakter» og i ulik grad kan støtte seg til tydelig definerte kvalitetskrav, vil det å legge til rette for et godt tolkningsfellesskap stå sentralt for å øke reliabiliteten i eksamen.

7.4.1 Sikre kvalitet i sensuren

Når det gjelder kvalitetskrav til prosessene rundt sensuren i regelverket, er ikke dette innrammet i like stor grad som kravene til sluttvurdering generelt. Det er for eksempel ikke beskrevet hvem som stiller krav til kvaliteten på sensuren og legger føringer for hvordan kvalitetssikringen av sensuren skal foregå.

Kunnskapsgrunnlaget peker på at vurderingspraksis varierer i fag, på tvers av sensorer, skoler og regioner. I tillegg har det tradisjonelt vært mer krevende i enkelte fag å beskrive hva som kjennetegner kompetanse, enn det har vært i andre fag.

Som en del av implementeringen av nye læreplaner er det derfor viktig å utvikle støtteressurser til eksamen, for eksempel nasjonale kjennetegn på måloppnåelse, mønsteroppgaver, eksempelsvar og prinsipper for helhetlig vurdering i det enkelte fag. Dette kan bidra til å gjøre forventningene til elevprestasjoner klarere. Dette kan også være en støtte i å utvikle et tolkningsfellesskap og bidra til en felles oppfatning av hva skolefaget skal være, og av hvordan innholdselementer skal vurderes etter fagfornyelsen.

Som en del av fagfornyelsen vil det utvikles veiledende kjennetegn på måloppnåelse til standpunktvurderingen i alle fagene på ungdomstrinn og i de gjennomgående fagene i videregående opplæring. Disse vil kunne være et utgangspunkt for å utvikle kjennetegn på måloppnåelse til eksamen. I tillegg bør det utvikles tilsvarende veiledende kjennetegn på måloppnåelse i de andre fagene.

Selv om veiledende kjennetegn og støtteressurser er viktige, er det minst like viktig hvordan disse brukes i praksis. De er et godt utgangspunkt, men vil ikke kunne fange opp kompleksiteten i vurderingsarbeidet. Et dilemma er også at jo mer vi spisser kriterier og innholdselementer, desto mer risikerer vi at disse kan framstå som standarder, noe som kan føre til økt «teaching to the test»-praksis. Dette kan også begrense forståelsen av at eksamen først og fremst er en prøving av kompetanse.

Veiledende kjennetegn på måloppnåelse og støtteressurser skal bidra til å støtte opp under lærernes profesjonelle skjønn i vurderingsarbeidet og at det dannes sterke tolkningsfellesskaper innad i profesjonen. Det blir dermed viktig at lærere får anledning til å delta på sensorskoleringer for å utvikle et felles vurderingsskjønn. Kompetente sensorer er en forutsetning for kvaliteten på vurderingene. Sensorskolering knyttet til sentralt gitt eksamen er av god kvalitet. Selv om skoleringen ikke er obligatorisk, møter de aller fleste sensorene opp til dette. Lærere og skoleledere opplever at de har stor nytte av sensorskolering, og mener at sensorenes erfaringer bidrar til å heve vurderingskompetansen ved skolen.

Eksamensgruppa mener at det kan være nyttig å bygge opp mer formaliserte strukturer og et system med sensorskoleringer også for lokalgitt eksamen. Formålet med slike strukturer bør være å fremme faglig utvikling og utvikle og sikre kvaliteten på lokalt gitt eksamen på en systematisk måte. Her kan sensorskoleringen også omfatte samarbeid om å lage eksamensoppgaver og mønsteroppgaver samt opplegg for gjennomføring. En forutsetning er at det settes av tid til dette arbeidet. Dette kan med fordel ses i sammenheng med krav til kvaliteten på sluttvurderingen i sin helhet, der det stilles krav til systematiske prosesser som sikrer kvaliteten også på standpunkt på tvers av skoler. Skoleeiere bør også legge til rette for arbeidet med kvalitetssikring av standpunktkarakterene for å styrke tolkningsfellesskapet.

Til grunnskolens eksamen oppnevnes det oppmenn innenfor hvert fag og hver region. I sensuren er oppmennenes rolle å bistå Udir og fagnemndene med sensorskoleringer og å bidra til rettferdig sensur. En oppmann fungerer som en tredje sensor der de to oppnevnte sensorene ikke klarer å bli enige om vurderingen av en besvarelse. Oppmannen har da det avgjørende ordet i fastsettelse av karakteren. Denne ordningen ble også innført på norsk vg3 i 2018 og medfører at utfordrende tekster blir lest av flere enn to sensorer. Ordningen har blitt svært godt mottatt og vil bli videreført. Eksamensgruppa mener denne ordningen bør innføres i flere eksamensfag i videregående opplæring.

Et helhetlig rammeverk for kvalitetssikring av eksamen (jf. kap. 7.1) vil for eksempel kunne gi nasjonale retningslinjer som bidrar til mer systematisk arbeid på tvers av alle kommuner og fylkeskommuner for å utvikle et tolkningsfellesskap knyttet til økt reliabilitet og validitet til eksamen. Det kan vurderes om det bør utvikles et tilsvarende rammeverk for standpunktvurdering.

7.4.2 Digital sensur

Teknologi kan på forskjellige måter brukes til økt metodisk kvalitetssikring. For eksempel kan automatisk skåring og tilbud av støtte til sensur av oppgaver, for eksempel vurderingskriterier, være tilnærminger som kan bidra til kvalitetssikring samt tidsbesparelse for egnede oppgavetyper. Et alternativ er å bruke sensorer på tvers av kommuner og fylker gjennom å sensurere online. Dette vil kunne bidra til økt tolkningsfellesskap og gjøre det mulig å bevege seg bort fra skillet mellom lokalt gitt og sentralt gitt eksamen.

Digitalisering gir også mulighet for nye tilnærminger til sensurering som kan sikre god reliabilitet ved komplekse oppgaver, tilnærminger som ville vært for krevende å gjennomføre uten dagens teknologiske støtte. Et eksempel i denne konteksten er comparative judgement, det vil si at en sensor i arbeidet hurtig sammenligner eksamener fra to studenter på en helhetlig måte og rangerer disse deretter, og at resultatet så blir sammensatt basert på alle rangeringer gjort av alle sensorer ved hjelp av en statistisk formel. Metoden er gammel og bygger i utgangspunktet på at det er enklere å sammenligne to oppgaver enn å vurdere en oppgave isolert, men fikk ny nytteverdi for eksamener etter at det ble utviklet programvare og nye statistiske modeller som støtter den komplekse rangeringsprosessen over et stort antall rangeringer og bruken av denne metoden. Dette er en form for vurdering som krever at det er en betydelig størrelse på gruppa, og at sammenligningen skjer på oppgavenivå med den samme oppgaveformuleringen. Denne metoden kan være aktuell å utrede med tanke på om den brukes til å gi støtte i sensuren.

Digitalisering innebærer også en mulighet til at sensorer kjapt kan få en oversikt over i hvilken grad deres egen sensur er i tråd med andre sensorers. Det vil bidra til at sensor kontinuerlig kan sammenligne sin egen vurdering med fellesskapets vurderinger og dermed tydeligere se om det er avvik. Over tid kan dette bidra til mer systematisk kvalitetssikring av sensuren, og det vil også kunne bidra til at den enkelte sensor øker sin vurderingskompetanse.

7.5 Eksamensgruppas anbefalinger om kvalitetssikring

Overordnede anbefalinger:

  • Utvikle et helhetlig rammeverk for kvalitetssikring av både sentralt- og lokalt gitt eksamen.
  • Udirs, kommunenes og fylkeskommunens overordnede ansvar for å sikre kvaliteten på eksamen (eksamensoppgaver og sensur) presiseres.
  • Å tydeliggjøre krav for å sikre kvaliteten på sensuren til eksamen og stille krav om at skoleeier har et system for kvalitetssikring av standpunkt.

Anbefalinger relatert til eksamens validitet:

  • Å utvikle støtteressurser og eksempeloppgaver.
  • Å utrede piloteringsordninger av eksamensoppgaver som kan sikre validiteten.

Anbefalinger relatert til eksamens reliabilitet:

  • Å utvikle støtteressurser for å styrke tolkningsfellesskap til eksamen i forbindelse med fagfornyelsen.
  • Å styrke skolering av sensorer og tolkningsfellesskapet.
  • Å utvide oppmannsfunksjonen til sentralt gitt eksamen for å styrke samsvaret og reliabiliteten.
  • Det nye gjennomføringssystemet bør gi økt støtte til sensur som kan sikre reliabilitet.
  • Sensorskoleringen og tekniske løsninger for å hindre og sjekke juks og plagiat bør videreutvikles i tråd med endringer som følge av den teknologiske utviklingen.