Rammeverk for eksamen

6. Hvordan kan vi styrke reliabiliteten i eksamen?

I oppgaveutvikling kan vi bidra til høy reliabilitet bl.a. ved å bruke flere oppgaver og oppgavetyper og ved å lage tydelige oppgaveinstrukser og vurderingskriterier. Dette kan minske effekten av at sensorer ikke vurderer helt likt. Vi kan også sjekke sensorreliabiliteten på forhånd i forbindelse med utprøving av vurderingskriterier og utprøving av oppgaver. Den evalueres også etter gjennomført eksamen i forbindelse med forberedelser til neste eksamensutvikling. Udir bestemmer hvem som deltar i dette arbeidet.

Sensorreliabilitet

En av de største reliabilitetsutfordringene i oppgaver som krever vurdering er «sensor-effekter». Sensoreffekter handler om at variasjon i eksamensresultatene er knyttet til sensors vurdering og ikke til kandidatens faktiske prestasjoner (Scullen, Mount, & Goff, 2000, p. 157). Lav sensorreliabilitet innebærer enten at én sensor gir ulik skår ved gjentatte vurderinger av samme oppgave, eller at to eller flere sensorer skårer samme oppgave ulikt.

Det finnes mange grunner til hvorfor to eller flere sensorer ikke ender opp med samme konklusjon om hvilket resultat en kandidatprestasjon bør ha. Noen av de vanligste grunnene er:

  • Ulik skalabruk: sensorer har vist seg å bruke vurderingsskalaer ulikt. Noen tenderer mot å bruke midtdelen av skalaen og noen tenderer mot å bruke en av to ytterpunkter.
  • Ulik strenghet: selv om sensorer er enige om hva som skal vurderes kan de være uenige i hvor strengt kandidatsvar skal vurderes.
  • “Haloeffekt”: sensorer kan iblant la ett aspekt eller én dimensjon overskygge vurderingen av kandidatsvaret. For eksempel har det vist seg at sensorer kan gi lav skår på en kandidattekst som ellers er god, men preges av manglende tegnsetting.
  • Tilnærming til vurdering: Det har vist seg at sensorer kan ha ulik forståelse av formålet med sensur; noen kan oppfatte det som viktigst å være kandidatens «advokat», mens andre kan oppfatte det som viktigst å være strikt i bruken av vurderingskriterier.

Andre grunner til uenighet mellom sensorer er ulik forståelse av konstruktet og/eller vurderingskriteriene. Når dette er tilfelle er uenigheten mer et validitetsspørsmål, som krever sensorskolering og/eller revisjon av kriterier slik at de blir mer brukbare.