Del 2 - Kvalitet i dagens eksamenssystem

4. Sentrale begreper: kvalitetskriterier og relateringsprinsipper

Med dette kapitlet søker vi å klargjøre noen sentrale begreper som kan anvendes i utviklingen av det norske eksamenssystemet. I kapitlene deretter ser vi på kunnskapsgrunnlaget vi har, ut fra de forskjellige begrepene. Allerede i NOU 2015: 8 ble det etterspurt en gjennomgang av hvordan standpunktvurderingen og eksamenssystemet samlet sett kan gi rettferdig og relevant informasjon om elevenes kompetanse i et fag. Rapporten pekte på at lærere og sensorer trenger støtte i sine vurderinger gjennom tydelige mål, vurderingskriterier, veiledning og kvalitetssikring. Stoltenberg-utvalget anbefalte også å stille strengere kvalitetskrav til utformingen og utprøvingen av eksamensoppgaver (NOU 2019: 3). En slik vurdering av kvaliteten på sluttvurderingen bør ta utgangspunkt i testteoretiske og vurderingsfaglige begreper som validitet og reliabilitet, begreper som ivaretar ulike dimensjoner av kvalitet. Det er viktig å ha en helhetlig tilnærming som i tillegg ivaretar samsvar i kvalitetskriteriene.

En stor utfordring for eksamen, hvor oppgaver må være hemmelige før gjennomføring, er at det er svært vanskelig å vite om en eksamensoppgave har de ønskede egenskapene før den tas i bruk. I Nederland blir for eksempel oppgaver for neste år pilotert i eksamen for et utvalg elever året før. Det finnes altså mulige løsninger for å få testet en eksamen på forhånd, men da trengs det konsens mellom alle involverte parter. For å sikre eksamenskvaliteten er det altså nødvendig å drøfte slike overordnede spørsmål i tillegg til å se på enkeltkriterier.

4.1 Validitet (gyldighet)

Validitet, eller gyldighet, bør regnes som det mest sentrale vurderingsteoretiske begrepet ved eksamen. Forskning påpeker at forståelsen av validitet er avhengig av ulike aktørers fortolkninger:

hvorvidt en tolkning, avgjørelse eller handling er fornuftig,
hva slags bevis, resonnementer eller kriterier som gjelder for å bedømme hvor fornuftig en tolkning er,
hvordan vi kan utvikle mer fornuftige fortolkninger, avgjørelser eller handlinger (Moss, Girard og Haniford, 2006)

Å validere en prøve eller eksamen innebærer å utvikle en argumentasjon om hva slags bevis som skal regnes som gyldige, og om hvordan tolkningen skal foregå (Markus og Borsboom, 2013). Det er nesten umulig å bedømme en eksamens kvalitet eller «rettferdighet» på generelt nivå, da dette alltid må diskuteres i lys av formålet. Validering er derfor en sentral prosess der man undersøker og dokumenterer en prøves gyldighet i lys av prøvens formål (Kane, 2015). Av dette følger at en endring i prøvens kontekst eller formål utløser behov for en ny validering av prøven. Dersom en prøve eller eksamen skal ha flere anvendelsesområder, må den valideres for hvert av disse formålene. Pellegrino, Chudowsky, Glaser og National Resarch Council (U.S.) (2001) påpeker at jo flere formål en enkelt prøve eller eksamen har, dess sterkere blir hvert enkelt formål truet.

Uintenderte negative konsekvenser av tester og prøver for visse befolkningsgrupper (f.eks. minoritetsspråklige elever), uønskede systemiske effekter (f.eks. stress, engstelse) og tilsiktede eller utilsiktede tilbakevirkende («washback») effekter på opplæringen er en del av diskusjonen om validitet (konsekvensvaliditet; Kane, 2015). Å sikre validitet i eksamen innebærer å ha et blikk på hele prosessen – fra utvikling av oppgavene, via administreringen av eksamen og tolkningen av resultatene, til måten disse tolkningene blir anvendt på.

Oppgaveutvikling er et veletablert område i vurderingsforskning, og det finnes gode rammeverk som beskriver viktige kvalitetskriterier for prøveoppgaver og hvilke trinn som bør gjennomgås under utviklingsprosessen (se f.eks. AEA Europe, 2017; Wilson, 2005). Prøveutviklingen begynner med tydelige definisjoner av prøveinnholdet og vurderingskriterier og inkluderer piloteringer for å sikre at en prøve har de ønskede egenskapene før den implementeres, særlig gjelder dette i tilfelle high-stakes-prøver. For muligheter når det gjelder kompetanseprøving, se kapittel 9.

I et forsøk på å konstruere en teoretisk modell også for de neste trinnene i kvalitetssikringsprosessen har vurderingsforskere utviklet den såkalte validitetskjeden (Crooks, Kane og Cohen, 1996). De åtte leddene er beskrevet og tilpasset her:

Administrering av oppgavene som elevene skal gjøre på eksamen
Skåring av elevenes prestasjoner på eksamensoppgavene
Aggregering av resultater fra enkeltoppgaver for å beregne del- eller totalskår på eksamen
Generalisering fra konkrete oppgaver og resultater på prøven til målområdet som skal vurderes (f.eks. ved å drøfte hva én lengre skriveoppgave eller en samling mindre skriveoppgaver kan si om forventningene til elevens skrivekompetanse slik de er uttrykt i kompetansemålene)
Ekstrapolering fra målene som vurderes på eksamen, til et større målområde (f.eks. generell skrivekompetanse), som omfatter alle oppgaver som kunne være relevante innenfor dette større området
Evaluering av elevens prestasjon. I eksamenssammenheng vil dette normalt innebære å treffe en beslutning om karakterresultat og eventuelt utforme en begrunnelse for beslutningen.
Beslutning om hvilke handlinger eller tiltak som er relevante i lys av resultatet. For eksempel kan en elev bestemme seg for å klage på en karakter, eller lærere og skoleledere kan bestemme seg for å se nærmere på skolens eksamenspraksis innenfor et visst område.
Virkning på elever og andre som blir berørt av eksamenspraksisens prosess, tolkninger og beslutninger (Crooks mfl., 1996)

Typiske trusler mot validitet i kjedens ulike ledd kan være: Noen elever får hjelp av lærere til å løse oppgavene i eksamenssituasjonen, andre ikke (administrering); lærere vektlegger det som er lett å vurdere i skåringen uten at mer komplekse dimensjoner av elevens prestasjon tillegges vekt (skåring); resultater fra svært ulike oppgavetyper sammenfattes på uheldig vis (aggregering); eksamen inneholder få oppgaver slik at man egentlig bare tester et lite utsnitt av elevens kompetanse (generalisering); eksamen inneholder ingen oppgaver fra viktige deler av målområdet (ekstrapolering); elevens prestasjon bedømmes ut fra læreplanens kompetansemål, men uten at det foreligger bevis for at eleven mestrer disse (evaluering); kravene som ligger til grunn for oppfølgingstiltak i etterkant av eksamen, er altfor høye eller lave (beslutning); eksamensprosessen påvirker mange elevers utvikling i negativ retning (virkning). Den som skal kvalitetssikre en test eller en eksamen, bør evaluere hva de svakeste leddene er, og forsøke å styrke disse.

4.2 Reliabilitet (pålitelighet)

Reliabilitet, eller pålitelighet, viser til hvorvidt resultatene fra gjentatte vurderinger samsvarer (Pellegrino mfl., 2001). Det kan dreie seg om flere vurderinger av samme konstruktet innen en eksamensprøve eller om vurderinger av en eksamensoppgave av flere sensorer. Reliabilitet regnes som et nødvendig, men ikke tilstrekkelig, vilkår for validitet.

Høy reliabilitet er en forutsetning for kvalitet i vurderingen slik at tilfeldigheter kan unngås. En elevs eksamensresultat, som i den tallfestede informasjonen om elevens kompetanse, bør være så uavhengig som mulig av sensoren som vurderer hans eller hennes eksamensbesvarelse, av eksamensformen som er brukt, av innholdet som har blitt valgt i nettopp denne eksamenen, eller av tidspunktet eksamenen har funnet sted. Kravet er at verken andre sensorer eller en gjentakelse av eksamen en annen dag, med andre oppgaver eller andre eksamensformer, ville lede til et annet resultat, som i annen tallfestet informasjon om elevens kompetanse.

Det er opplagt at resultatvariasjon til en viss grad er uunngåelig. Denne variasjonen kalles målingsfeil. Jo større konsekvensene av et resultat er for en elev – noe som gjelder i høyeste grad til sluttvurderingen gitt at vitnemålet er grunnlag for opptak til høyere utdanning og yrkesliv – dess viktigere er det å redusere målingsfeil og å øke reliabiliteten så mye som mulig. Enkeltoppgaver er ofte lite reliable. Dette gjelder både til ustandardiserte og standardiserte oppgaver. Et godt råd er derfor å bruke så mange og så forskjellige typer oppgaver som mulig og å la disse vurderes av forskjellige sensorer.

En utfordring i en vurdering med begrenset tidsramme er at ambisjoner om å øke reliabiliteten kan medføre at oppgavene blir innsnevret i utforming og nedslagsfelt istedenfor å utvide antall og type oppgaver – med andre ord at vektleggingen av å sikre konsistent informasjon blir viktigere enn vektleggingen av å samle inn bevis for brede og viktige læringsmål (Broadfoot, 2007). Denne problemstillingen peker på nødvendigheten å ha et overordnet kvalitetsrammeverk, systematiske rutiner for å overvåke kvalitet og at resultatene så må bearbeides til dokumentasjon som gjøres tilgjengelig. For å utrede reliabilitet trengs det data på det mest konkrete nivået som mulig. Vanligvis ville det bety å lagre data fra sensuren på elevnivå om hver enkelt eksamensoppgave og hvert enkelt vurderingskriterium.

4.3 Rettferdighet (fairness)

Rettferdighet viser til at alle elever må ha den samme sjansen til å vise kompetansene sine under eksamen. Teknisk sett betyr det at eksamen er fri fra systematiske skjevheter for gruppen som skal ta prøven. Det betyr at eksamen ikke skal påvirkes av variabler som kjønn, språkbakgrunn, funksjonsgrad, bosted og lignende.

Det engelske fairness brukes om en rekke problemstillinger som kan knyttes til dette: hvorvidt eksamensoppgavene ikke gir fordeler til enkelte elevgrupper, hvorvidt alle elever blir likt behandlet i eksamineringsprosessen, og hvorvidt elever har hatt tilgang til å lære det de blir testet i (Pellegrino mfl., 2001). Også en rekke andre faktorer kan påvirke hvor rettferdig en eksamen er. For eksempel kan elevenes resultater påvirkes av språklige ferdigheter, motivasjon, tretthet, testengstelse, forhold i det fysiske miljøet i gjennomføringen eller ulik grad av eller uetisk forberedelse til eksamen (Haladyna og Downing, 2005).

4.4 Relateringsprinsipper (norm-, mål-, standard- og individrelatert vurdering)

Som omtalt i kapittel 2 har det teoretiske grunnlaget for vurdering historisk sett blitt utviklet fra normrelatering til målrelatering – i mange utdanningskontekster nylig videreutviklet til standardrelatering. Forskjellen mellom prinsippene går ut på hva man relaterer vurderingen til, altså hva man sammenligner med (Wiliam, 1996).

Ved en normrelatert vurdering blir et eksamenssvar fra en elev sammenlignet med andre elevers svar. Et helt prøvesystem vil som regel ha en innretning der en normalfordeling med symmetrisk klokkeformet kurve (også kjent som Gauss-kurven)gjør seg gjeldende. Når antallet elever er stort nok, kan det forventes at karakterene fordeler seg rundt en middelverdi, der de fleste elevene får en karakter nær denne verdien, mens de høyere eller lavere karakterene er sjeldnere. Imidlertid gjelder denne antakelsen ikke mindre enheter som en klasse eller skole. Likevel har tidligere mange lærere brukt en slik norm for å vurdere sine elevers læringsresultater, noe som innebærer at det er enklere å oppnå gode karakterer i en lavtpresterende klasse og omvendt (se kap. 2.3 og 2.4 for nærmere informasjon). Normrelatering er i tillegg problematisk fordi prinsippet egner seg for en rangering av læringsresultater, men ikke til å kommunisere forventningene og kravene til elevene. Normrelatering gir altså ikke lærerne et redskap for å kommunisere med elevene.

Denne kritikken av den normrelaterte evaluerings- og vurderingstradisjonen dannet utgangspunktet for utviklingen av det vi i Skandinavia kaller målrelatert vurdering. I amerikansk terminologi ble dette først kalt criterion-referenced assessment (Popham og Husek, 1969), i Norge gjerne omtalt som kriteriebasert vurdering. Målrelatert vurdering krever tydelige kriterier som grunnlag for å kunne vurdere måloppnåelsen. Glaser og Klaus (1962) uttrykte distinksjonen mellom målrelatert og normrelatert vurdering slik: «Criterion-referenced measures depend on an absolute standard of quality while norm-referenced measures depend on a relative standard» (ibid., s. 421). En fordel med å ha mål og kriterier som sammenligningsgrunnlag er at det bedre legger til rette for å gjennomføre vurderingen uten behov for et stort antall elever eller en representativ del av elevgruppa, slik det normrelaterte prinsippet forutsetter.

Sadler (1987) videreutviklet forståelsen av målrelatert vurdering til standardrelatert vurdering, der en standard definerer et bestemt kvalitetsnivå som en gruppe elever skal nå, og som blir etablert av myndighetene (Tveit, 2008; oversettelse utledet fra Sadler, 1987, s. 194). I en slik standardrelatert tilnærming blir vurderingskriteriene enda tydeligere spesifisert så at de på den ene siden beskriver høyere og lavere nivåer av måloppnåelsen. På den annen side blir et eller flere av disse nivåene definert som standarder alle (i tilfellet minstestandard) eller så mange elever som mulig (i tilfellet regelstandard) eller en spesifikk andel elever (i tilfellet utmerket standard) skal nå. Standardbegrepet inkluderer implisitt et ansvarsperspektiv på undervisningssiden gjennom å forplikte skolesystemet til å føre elever opp til forhåndsdefinerte nivåer.

For en helhetlig beskrivelse av sentrale vurderingsbegreper er det viktig å inkludere individrelatering som vurderingsprinsipp. Dette prinsippet er mye i bruk når man gir tilbakemeldinger til elever med utgangspunkt i elevenes tidligere måloppnåelse. Individrelatert vurdering er altså i overensstemmelse med tilpasset opplæring som grunnverdi i undervisningen og formålet med norsk grunnopplæring, og den kan brukes i underveisvurderinger. Prinsippet er imidlertid ikke forenlig med et eksamenssystem som har rettferdig konkurranse om videre utdannings- og yrkesmuligheter som grunnverdi.

5. Validitet i dagens eksamenssystem

Det er sentralt for valideringsprosessen at det utvikles en argumentasjon om hva slags bevis som skal regnes som gyldige relatert til et eller flere formål med en prøve, og hvordan fortolkningen skal foregå. Dette legges til grunn i dette kapitlet for å oppsummere kunnskapsgrunnlaget om validitet i dagens eksamenssystem. Vi skal se nærmere på de to formålene med eksamen som direkte gjelder elevene, og som derfor har blitt identifisert som hovedformål i kapittel 3: å prøve elevenes individuelle kompetanse i faget som det er beskrevet i læreplanen, og å gi et grunnlag for opptak til høyere utdanning og yrkesliv. Hovdhaugen, Prøitz og Seland (2018) påpeker at man er avhengig av at karaktersystemet har høy legitimitet for å kunne ivareta formålene med eksamen.

5.1 Forholdet mellom eksamen og læreplanen

Eksamenssystemet skal sørge for validitet ved at spesielt kyndige fagpersoner samarbeider om oppgaver basert på nasjonale retningslinjer, med mulighet for systematisk tilbakemelding fra sensorkorpset. Det er generelt lite systematisk forskning på sammenhengen mellom læreplan og eksamen, men det finnes erfaringsbasert kunnskap og brukerinnsikt på feltet. Vi har bestemt oss for å inkludere dette i kunnskapsgrunnlaget selv om den er av varierende kvalitet og ikke systematisk dokumentert. I tillegg har bare et lite utvalg fag og eksamensformer blitt utredet. Og så er kunnskapen til en stor grad bare basert på spørreundersøkelser med ulike utvalgsstørrelser og svarprosenter. Det er vanskelig å kontrollere, eller i det minste vite om, mulige skjevheter, som gjerne er rettet mot det positive. Rekkevidden av kapitlet er dermed begrenset, og det må tas høyde for at det er usikkerhet på større områder, og at det dermed er vanskelig å konkludere på en presis måte. Det er ønskelig å undersøke elevenes og lærernes opplevelser og synspunkter på en mer systematisk måte, samt å gjøre faglige analyser av eksamensoppgaver der de blir sett i sammenheng med læreplaner og formålet for eksamen.

Som en del av arbeidet med å videreutvikle kvaliteten på sentralt gitt skriftlig eksamen blir skriftlig eksamen i matematikk for 10. trinn evaluert i perioden 2017–2019 av Fafo. Det blir undersøkt hvordan sensuren fungerer, og gitt en vurdering av eksamens innhold og utforming. Det blir også foretatt undersøkelser av hvordan lærere og sensorer vurderer sammenhengen mellom læreplan, undervisning og eksamen i matematikk, og av hvordan elevene opplever eksamen.

Evalueringen våren 2017 viser at matematikkeksamen framstår som god og rettferdig (Andresen mfl., 2017). Dette er en oppfatning som er gjennomgående blant elever, lærere og sensorer. De fleste lærerne og sensorene mente det var godt samsvar mellom kompetansekrav og hva som ble prøvd til eksamen. Evalueringen våren 2018 bekreftet disse hovedfunnene (Bjørnset mfl., 2018). Prøvereliabiliteten er vurdert til å være høy, ifølge IRT-analyser, noe som ble tolket som at eksamen måler det den gir seg ut for å måle – elevenes matematiske kompetanse (Bjørnset mfl., 2018). Lærere som ble intervjuet, gir imidlertid uttrykk for at oppgaver med mye tekst hindrer elever i å få vist sin matematiske kompetanse, noe som særlig gjelder for minoritetsspråklige elever og elever med lese- og skrivevansker.

Et viktig validitetsspørsmål er om eksamen prøver det samme konstruktet over år gitt at eksamensoppgaver er forskjellige. I forbindelse med evalueringen av matematikkeksamen gjennomfører Udir i samarbeid med forskningsenheten Enhet for kvantitative utdanningsanalyser (EKVA) ved ILS derfor en kvantitativ undersøkelse av vanskegraden på eksamen ved hjelp av årlige kalibreringsprøver. Kalibreringsprøven gjennomføres april hvert år og består av de samme oppgavene hvert år, og elevens prestasjoner på kalibreringsprøven og eksamen skal sammenlignes over tre år. Ut fra dette kan forskerne etter hvert konkludere med om det er elevenes prestasjoner eller vanskegraden på eksamen som kan forklare eventuelle variasjoner i eksamensresultatene. Resultatene fra undersøkelsene så langt viser at elevresultatene er på samme ferdighetsskala både i 2017 og 2018.

At det er godt samsvar mellom eksamensoppgavene og kompetansemålene, og at oppgavene gir mulighet til å vise kompetanse på ulike nivåer, har generelt blitt bekreftet i den årlige sensorundersøkelsen som Udir gjennomfører til sentralt gitt eksamen (Utdanningsdirektoratet, Sensorrapporter 2018). Også IRT-analyser for våreksamen for biologi 2 i 2017 og 2018 peker på at det er god overensstemmelse mellom oppgavens vanskegrad og elevenes ferdigheter (Naturfagsenteret, IRT-analyse av biologieksamen 2017 og 2018), noe som kan tolkes slik at eksamen er i tråd med læreplanen.

Likevel er det viktig å se begrensningene ved disse undersøkelsene. Skoleledere og skoleeiere ble spurt om sine synspunkter og oppfatninger av eksamen i spørreundersøkelsen Spørsmål til Skole-Norge i 2017, blant annet om de oppfatter det slik at eksamen gir elevene mulighet til å vise sin kompetanse (Waagene mfl., 2018). Ifølge rapporten fra spørreundersøkelsen er skoleledere og skoleeiere i stor grad omforente om at muntlig og skriftlig eksamen gir elevene mulighet til å vise sin kompetanse (Waagene mfl., 2018). Det er imidlertid uenighet om eksamen er egnet til å vise kompetanse i alle fag eller bare i noen fag.

Det er også uenighet om det er klart hvilken kompetanse elevene skal vise til eksamen. Halvparten av skolelederne mener at det er helt klart, mens den andre halvparten svarer at det er noe uklart. Blant ungdomsskolelederne svarer en noe større andel at det er helt klart, sammenlignet med de andre skoletypene. Til sammenligning er skolelederne og skoleeierne i større grad enige om at det er helt klart hvilken kompetanse elevene skal vise til standpunkt. Her mener cirka tre av fire at det er helt klart hvilken kompetanse elevene skal vise. De minste skolene ser ut til å være noe mer positive til begge eksamensformene enn de større skolene og har en større andel som svarer at muntlig og skriftlig eksamen gir elevene mulighet til å vise sin kompetanse i alle fag.

5.2 Læreplanforståelse i endring

Selv om det er lite forskning på sammenhengen mellom læreplan og eksamen, er det kommet flere studier om læreplaner og vurdering de siste årene som gir innsikt i klasseromspraksis. Det vil være naturlig å anta at det er en viss sammenheng mellom klasseromspraksis og praksis til eksamen.

Læreplanforståelse inkludert kompetansebegrepet er en forutsetning for å utvikle og vurdere eksamen i samsvar med læreplanverket i fag. FIVIS-studien påpekte at det kan være svak / mangel på kompetanse, samarbeid, fortolkningsfellesskap og planlegging i skolesektoren når det gjelder validitet i den løpende vurderingen i klasserommet (Buland, Engvik, Fjørtoft, Langseth, Sandvik, og Mordal, 2014). Gitt at fagfornyelsens kompetansebegrep er enda mer komplekst enn Kunnskapsløftets kompetansebegrep, kan det konkluderes at utfordringene sannsynligvis vil øke.

Sandvik mfl. (2012) finner at skoler har ulik forståelse av kompetansetenkningen i Kunnskapsløftet. Forskere påpeker utfordringen det er med bruk av lokale læringsmål som ikke gjenspeiler eller knyttes til kompetansemålene i læreplanen, og en fare ved at mange smale, lokale læringsmål som vurderes gjennom hyppig testing, kan føre til fragmentering og overflatelæring (Sandvik mfl., 2012; Hodgson mfl., 2011; 2012). En litteraturgjennomgang av forskningsrapporter viser at det er inkonsistens mellom kompetansemålene i LK06 og lokale læreplaner (Andreassen, 2016). Tilbakemeldinger fra embetene tyder på at det er en utfordring at en del lærere og skoleledere ikke ser de ulike delene av læreplanen i sammenheng ved standpunktvurderingen (Utdanningsdirektoratet, 2015). Enkelte embeter påpeker at lærere har problemer med å beskrive elevenes fagkompetanse ved klagesaker (Utdanningsdirektoratet, 2015).

Samtidig har det, som et resultat av lokale utviklingsprosesser og nasjonale tiltak (f.eks. satsingen Vurdering for læring), vært stor oppmerksomhet rettet mot vurderingsfeltet de senere år, og grunnopplæringen preges i stadig økende grad av en læringsfremmende vurderingskultur (Kunnskapsdepartementet, 2016). I en av NIFUs spørringer til Skole-Norge våren 2017 svarer 95 prosent av skolelederne at arbeidet med Vurdering for læring har økt bevisstheten om sammenhengen mellom vurdering og lokalt arbeid med læreplaner, har bidratt til mer aktiv bruk av læreplaner og til at skolen har utviklet en mer læringsorientert vurderingskultur (Federici mfl., 2017). Skolelederne har også i overveiende grad inntrykk av at et flertall av lærerne ser kompetansemålene i sammenheng, og at standpunktkarakterer settes på grunnlag av et bredt tilfang av kilder. Et stort flertall av skolelederne mener også at læreplanen gir god støtte til lærernes standpunktvurdering.

I hvilken grad denne utviklingen av praksis bidrar til å sikre eksamens validitet etter fagfornyelsen, trengs det mer kunnskap om. NOU 2015: 8 påpeker at utfordringene knyttet til forståelse av kompetansebegrepet sannsynligvis vil øke gitt den kompleksiteten som ligger i fagfornyelsens kompetansebegrep. Utredningen etterspør ulike tiltak for å kvalitetssikre sluttvurderingen, ikke minst det å tydeliggjøre kravene og kriteriene sluttvurderingen skal ta utgangspunkt i. Kompetansemål i læreplanene fordelt på trinn, helst med forskjellige nivåer av måloppnåelse, samt veilednings- og støttemateriell (som eksempler på elevbesvarelser) er kjerneelementer her. I overensstemmelse med krav fra skoleeiere, skoler og lærere ser utvalget i tillegg et behov for å styrke regelverket om standpunktvurderingen fordi dagens forskrift i liten grad spesifiserer kvalitetskrav eller vurderingsprosesser, noe som kan lede til forskjeller i vurderingsresultater (NOU 2015: 8; se også NOU 2019: 3).

5.3 Eksamens forskjellige roller i praksis

Som pekt på ovenfor (se kap. 4.1) er validering en prosess der man undersøker en prøves validitet i lys av dens funksjon. Empiriske studier viser imidlertid at eksamen og eksamenssystemer i praksis kan ha flere funksjoner enn dem som formelt sett er definert som formål i lovverket (Newton, 2007; Herman og Baker, 2009; Stobart, 2008). De ikke-definerte, implisitte funksjonene kalles «roller» i forskningen. Disse er ikke alltid ønskelige, men de finnes og må følges med på Det er et kjent problem at når eksamen har ulike formål og roller, vil det kunne oppstå spenninger og motsetninger dem imellom.

Det er derfor viktig å definere eksamens hovedformål og å avklare hvilke roller eksamen har utover dette i praksis. Dette bør gjøres for å unngå at disse rollene ikke kommer i veien for hovedformålene eller gir grunnlag for ulik tolkning av eksamensresultater, og fordi de kan representere en trussel mot eksamensvaliditeten. I Norge finnes det svært lite forskning om dette spørsmålet. I dette avsnittet presenterer vi et analytisk rammeverk som skiller mellom forskjellige eksamensformål og -roller, og beskriver disse nærmere. Rammeverket kan være et utgangspunkt for å utrede i hvilken grad eksamen i Norge har implisitte roller utover det eksplisitt definerte, formelle formålet.

Eksamens formål å sertifisere læring og rangere elevene

I overensstemmelse med internasjonal forskning skiller Tveit og Olsen (2018) mellom ulike formål og roller eksamen kan ha. En eksamen kan, for det første, brukes summativt til å sertifisere elevenes kompetanse og til å selektere elevene til videre utdanning og yrkesliv gjennom karaktersetting og rangering basert på den. Både eksamen og standpunktkarakter skal gi tallfestet informasjon om fagkompetansen til eleven ved slutten av opplæringen i faget. Karakterene fra sluttvurderingen har stor betydning for sertifisering av kompetanse og for opptak av elevene til høyere utdanning og yrkesliv eller på 10. trinnet for inntak til videregående opplæring. Disse to formålene er tydelig beskrevet i lovverket, og vi har identifisert dette som hovedformålene med eksamen (se kap. 3.1).

Eksamens rolle i å kvalitetssikre elevenes resultater

Eksamen kan være med på å kvalitetssikre elevenes resultater fordi elevene får en ekstern vurdering av sin fagkompetanse (Meld. St. 28 (2015–2016)). I et sluttvurderingssystem som i stor grad er basert på faglærers vurdering, kan eksamen anses å være et viktig eksternt kvalitetselement. Fag med sentralt gitt eksamen har for eksempel identiske oppgavesett for alle som kommer opp i faget, noe som kan bidra til at elevene får et mer likeverdig vitnemål, idet eksamenskarakterene settes på det samme vurderingsgrunnlaget (Kunnskapsdepartementet, 2016, s. 62).⁵ Den kvalitetssikrende rollen kommer mer implisitt også til uttrykk i St.meld. nr. 30 (2003–2004), der eksamen ble omtalt som «spesielt kvalitetssikrede prøver» (Utdannings- og forskningsdepartementet, 2004, s. 37) fordi de blir utviklet i tråd med tydelige kvalitetskriterier.

Eksamens rolle i å videreutvikle vurderingspraksisen

Eksamensresultatene kan bidra til at lærerne og skolen videreutvikler både egen praksis og arbeidet med vurdering. De to stortingsmeldingene Meld. St. 20 (2013) og Meld. St. 28 (2016) legger stor vekt på at en av eksamens funksjoner er kompetanseheving av sensorer. Lærere som fungerer som sensorer, kan delta i mange tiltak som forbedrer deres vurderingspraksis, for eksempel sensorskolering og i møter med andre sensorer for å utvikle tolkningsfellesskap. Denne kunnskapen/erfaringen tar de med seg tilbake til sine skoler, der de så har mulighet til å videreformidle den til andre lærere.

I tillegg er karakterer som gis til eksamen, en tilbakemelding til skolen om hvordan eksterne sensorer vurderer elevenes eksamensprestasjoner. Dette gjelder både sentralt og lokalt gitt eksamen. Tveit og Olsen (2018) peker på at videregående opplæring har få andre statistiske opplysninger, og det er derfor naturlig at eksamen blir en kunnskapskilde for å vurdere læringsresultater.

Ulike studier viser imidlertid at forholdet mellom eksamens- og standpunktkarakterer er uklart for mange lærere og skoleledere (Hovdhaugen mfl. 2014, 2018; Prøitz og Sport Borgen, 2010). Det er blant annet ulik oppfatning av om eller i hvilken grad de to karakterene bør harmonere, og om eksamen representerer en smalere prøving av kompetanse enn standpunkt. Ulik forståelse av hva som er eksamens rolle, kan for eksempel gi grunnlag for ulik tolkning og bruk av karakterstatistikk i lokale kvalitetsvurderingssystemer, noe som får konsekvenser for det lokale utviklingsarbeidet.

I Meld. St. nr. 28 (2015–2016) understrekes det imidlertid at en sammenligning av karakterer er mest hensiktsmessig når den brukes til å se om det er systematiske avvik fra den nasjonale, gjennomsnittlige differansen mellom standpunkt og eksamen over tid. Meldingen sier videre at dette bør kun være én av flere kilder til kunnskap om praksis i skolen. Hovdhaugen mfl. (2018) peker også på at det finnes flere svakheter ved ideen om at eksamen kan fungere som kalibreringsverktøy av standpunktkarakterene, for eksempel kan de to vurderingsformene

være svært ulike og skille seg rent praktisk fra hverandre
ha klare ulikheter slik de er juridisk definert
ha helt forskjellige premisser i selve karaktersettingen

Eksamens rolle i å styre opplæringen

Eksamen kan også ha en rolle i å styre forståelsen og praktiseringen av læreplaner. Forskning viser at eksamen kan ha tilbakevirkende («washback») effekter på opplæringen, dette skyldes at gjennom eksamenssystemet anerkjennes tilsiktet eller utilsiktet hva som anses som viktig i læreplanen⁶ (se Nordenbo mfl., 2009). Samtidig kan det argumenteres for at dette ikke trenger å være et problem så lenge eksamen gjenspeiler læreplanen.

I Utdanningsspeilet 2008 (Utdanningsdirektoratet, 2009) framgår det at vurderingsveiledningene til eksamenssensuren «skal ha ein læringsfremjande effekt ved at lærarar kan formidle kjenneteikna til elevane før eksamen» (s. 105). I tråd med dette kan tidligere gitte eksamensoppgaver og vurdering av disse være eksempler som skoler, skoleledere og enkeltlærere kan bruke som utgangspunkt for å tolke og analysere kompetansebegrepet, læreplanen og kompetansemålene i det enkelte faget. Kapittel 2, om framveksten av dagens eksamenssystem, viste at eksamen opprinnelig var et slikt instrument i styringen av utdanningssystemet, mens dagens hovedformål, sertifisering og seleksjon, etter hvert har blitt viktigere.

Eksamens roller i å støtte læring og undervisning

Eksamen kan få en formativ rolle ved at lærere bruker tidligere eksamensoppgaver for å eksemplifisere/synliggjøre hva som er forventet kompetanse i sluttet av opplæringen, og som et utgangspunkt for å diskutere kompetanse i fag, progresjon og kjennetegn på måloppnåelse med elevene. På denne måten kan eksamen være til støtte i læringsprosesser og brukes til å tilpasse opplæringen. Denne rollen gjelder riktignok først og fremst til underveisvurderinger og prosesser i klasserommet, ikke til eksamen som en del av sluttvurderingen. Likevel kan eksamen brukes formativt ved at læreren tar for seg eksamensresultatene og analyserer styrker og svakheter i eksamensbesvarelsene fra sine elever og ser dette i sammenheng med opplæringen som er gitt, og kan da bruke dette som utgangspunkt for å justere opplæringen i faget for neste skoleår.

Noen ganger blir det framhevet at også eksamen kan ha en formativ rolle ved å bli brukt som ekstern motivasjon så at elevene opprettholder innsatsviljen mot slutten av skoleløpet. I denne konteksten bør igjen trekkordningen drøftes – muligens kan den bidra tilsiktet eller utilsiktet til å sikre denne effekten i flere fag. I tillegg kan det antas at forberedelsen til eksamen har en egen læringseffekt utover undervisningstiden.

Oppsummert viser dette analytiske rammeverket at dagens eksamenssystem kan ha flere implisitte roller utover formål definert i lovverket (se kap. 3.1 om disse) i sertifisering, seleksjon, kvalitetssikring, videreutvikling av vurderingspraksis, styring av undervisningen og til og med støtte av læring i norsk grunnopplæring. Det er sannsynlig at eksamen har flere implisitte roller enn det som beskrives som formål med eksamen i regelverket. Flere og ulike formål og roller kan føre til ulike tolkninger av eksamensresultater og ulike bivirkninger ved endringer. Det er derfor svært viktig å avklare de implisitte rollene eksamen har i praksis. Imidlertid finnes det lite forskning som utreder dette feltet, det er følgelig vanskelig å komme med tydeligere konklusjoner her.

5) I det svenske systemet forventes til og med at lærere tillegger resultatene fra de nasjonale prøvene betydelig vekt når de setter karakter (Gustafsson og Erickson, 2018).

6) Trekkordningen bør muligens også drøftes i denne konteksten fordi den skal sikre at elevene «skal være eksamensforberedt i de fagene der eksamen er en mulig sluttvurdering ved siden av standpunktkarakteren» (Kunnskapsdepartementet, 2013, s. 65–66). Det finnes imidlertid ingen empiriske studier som sier at trekkordningen faktisk har en slik styringsrolle.

6. Reliabilitet i dagens eksamenssystem

Det er et viktig kvalitetskjennetegn at en eksamensoppgave får samsvarende vurderinger av flere sensorer slik at karaktersettingen ikke er preget av tilfeldigheter. Dette krever tydelige oppgaver med gode instrukser, tydelige vurderingskriterier (i.e. kjennetegn på måloppnåelse) og omfattende sensorskolering for å sikre tolkningsfellesskap. Samtidig vil det til en viss grad alltid være forskjeller i vurderinger blant sensorer. Tilstrekkelig reliabilitet er imidlertid en forutsetning for kvalitet i vurderingsarbeidet. Dette kapitlet beskriver dagens rammer for å sikre god reliabilitet og oppsummerer kunnskapsgrunnlaget vi har på dette området.

En utfordring med dagens datagrunnlag med tanke på å kunne forske på eksamensreliabilitet er at sensorinformasjon om hvert fag bare finnes samlet på elevnivå, men ikke på oppgavenivå innen en elevs eksamen. Det gjør det vanskelig å utrede årsaker til mulige problemer med sensorsamsvar i etterkant. Som pekt på tidligere (kap. 5) er det i tillegg en utfordring å kunne sikre høy reliabilitet gjennom pilotering før en eksamen/oppgave blir tatt i bruk, ettersom eksamensoppgaver må holdes hemmelige.

6.1 Rammer for eksamenssensuren

Udir har i samarbeid med fylkesmennene ansvaret for sensur til sentralt gitt skriftlig eksamen, og kommunen/fylkeskommunen har ansvaret for sensuren til lokalt gitt eksamen (§§ 3-28, 3-29, 3-30). Eksamen sensureres av to eksterne sensorer, ved lokalt gitt eksamen kan den ene sensoren være elevens faglærer. Ved uenighet om karakteren skal karakteren avgjøres av en oppmann til sentralt gitt skriftlig eksamen og av den eksterne sensoren ved lokalt gitt eksamen.

Regelverket gir i dag føringer og rammer for sluttvurderingen generelt (jf. 3.2). Kravene til prosessene rundt sensur av eksamen har ikke tilsvarende innramming, for eksempel er det ikke beskrevet hvem som stiller krav til kvaliteten på sensuren. Prosessen rundt sensuren vil avhenge av hvilken eksamensform det er snakk om, og foregår på forskjellige måter, for eksempel om det er tale om sentralt gitt skriftlig eksamen eller muntlig eksamen. Mens det for sentralt gitt skriftlig eksamen utvikles felles oppgaver, vurderingskriterier og gjennomføres felles sensorskolering, vil det for muntlig eksamen være ulike oppgaver, vurderingskriterier og sensorskoleringer. Uavhengig av eksamensform baserer sensuren seg på et system der sensorene skal «diskutere seg fram til en karakter», der det å utvikle et tolkningsfellesskap mellom sensorene blir viktig for å øke reliabiliteten til eksamen i dagens system.

Et godt kvalitetssikringssystem bør inkludere systematiske tilnærminger som ivaretar sensorsamsvar og reliabilitet på en god måte uavhengig av eksamensform. Vurderingen ved muntlig eksamen skjer i sanntid og er ikke etterprøvbar på samme måte som for skriftlig eksamen per i dag. Muntlig eksamen gir imidlertid en viktig mulighet for elevene til å vise kompetanse på en annen måte enn til skriftlig eksamen. Det kan derfor være behov for ulike tilnærminger for å sørge for høy prøvekvalitet og pålitelig sensur ved de ulike eksamensformene.

6.3 Betydningen av tolkningsfellesskap

Det er mange fylkeskommuner og kommuner som har utviklet retningslinjer for muntlig eksamen, men disse har ulik innretning og sier i ulik grad noe om fagspesifikke forhold. Det er lite av systematisert kunnskap om hvordan kommuner og fylkeskommuner arbeider kvalitativt med sensuren av lokalt gitt eksamen. Fylkeskommunene har etablert samarbeid om lokalt gitt eksamen og har ulike samarbeidsarenaer og -områder, for eksempel samarbeides det om å utvikle felles eksamensoppgaver til lokalt gitt skriftlig eksamen i enkelte fag.

I NIFUs spørreundersøkelse til skoleeiere og skoleledere våren 2017 oppgir et stort flertall av kommunene (68 %) og fylkeskommunene (87 %) at de legger til rette for arenaer for læring og deling der lærere kan videreutvikle vurderingspraksis (f.eks. nettverk / faste samlinger / møteplasser) (Federici mfl., 2017). Det er færre skoleeiere, henholdsvis 47 prosent av kommunene og 53 prosent av fylkeskommunene, som oppgir å legge til rette for diskusjoner om innholdet i læreplanene.

Hovdhaugen mfl. (2014) finner at det er ulike former for fagsamarbeid mellom lærerne, og at skoleledelsen noen steder har satt inn konkrete tiltak for å utvikle og forme fagsamarbeidet mellom lærerne, andre steder er dette overlatt til seksjonene. Et stort flertall av skolelederne i NIFUs spørreundersøkelser gir uttrykk for at det på skolen i stor grad diskuteres på hvilken måte lærernes vurderingspraksis kan hjelpe elevene i å lære og å nå målene (Federici mfl., 2017). Skolelederne har også i stor grad inntrykk av at alle eller de aller fleste lærerne i samme fag/fagområde jobber sammen om å få en felles forståelse for hva kompetanse i faget er. Det er en sterk oppslutning om at både skoleeiere og skoleledere oppfattes som pådrivere for å utvikle vurderingspraksis, men det er særlig skolelederne som oppfattes å ha rollen som pådrivere.

De ulike undersøkelsene viser at det er et stort omfang av ulike former for samarbeid i forbindelse med vurdering lokalt, men sier ikke noe om kvaliteten i samarbeidsarenaene og i hvilken grad eller på hvilken måte dette arbeidet er knyttet til lokalt gitt eksamen. Vi kan imidlertid anta at samarbeid om vurdering indirekte også vil påvirke lokalt gitt eksamen. Samtidig er geografisk avstand i fylket eller kommunen en faktor som kan påvirke muligheten for samarbeid på tvers av skoler og deltakelse på eventuelle sensorskoleringer knyttet til lokalt gitt eksamen.

Udir arrangerer fellessensur i samarbeid med fylkesmennene ved alle sentralt gitte skriftlig eksamener (med unntak av sentralt gitt eksamen med lokal sensur) og har ulike tiltak som samlet skal bidra til tolkningsfellesskap på sensuren (se tekstboksen under). Sensorskoleringene er en del av fellessensuren og er per i dag ikke obligatorisk. Alle sensorer oppfordres til å delta, og det er generelt stor oppslutning fra sensorene på disse møtene. Skolene er heller ikke pålagt å ha med lærere i sentralt gitt sensur, noe som kan bety at det er skoler (gjennom år) som ikke har hatt lærere som har hatt sensoroppdrag til sentralt gitt eksamen. Disse skolene vil da ikke ha lærere som kan tilbakeføre erfaringer fra skoleringen og sensurmøter.

Lærere som har deltatt i sensorskolering, opplever dette som svært nyttig (Hovdhaugen mfl., 2014), noe som samsvarer med direktoratets erfaringer. Lærere med sensorerfaring uttrykker tillit til det rette- og tolkningsfellesskapet som oppstår i arbeidet med fellessensur (Hovdhaugen mfl., 2014). Ifølge forskerne kan sensurmøtene bli en slags nøytral grunn for lærerne hvor selve faget står i sentrum, og hvor hver besvarelse er anonym og det kun er kjennetegn/vurderingskriterier som kommer til anvendelse. Sensurmøtene styrker lærernes opplevelse av trygghet og etterprøvbarhet ved eksamenssensuren.

Utdanningsdirektoratet har flere tiltak som samlet sett skal bidra til et tolkningsfellesskap ved sensuren ved sentralt gitt eksamen (unntak: sentralt gitt eksamen med lokal sensur):

Forhåndssensur i grunnskolen og for norsk på vg3 for alle oppmenn: Retningsgivende for sensorskoleringene som ledes av oppmennene.
Sensorskolering og felles sensur: På sensorskoleringene, med utgangspunkt i et utvalg reelle eksamensbesvarelser, diskuteres hvilken kompetanse eksamensbesvarelsene viser og karakteren til den enkelte eksamensbesvarelsen. Tolkningsfellesskapet fra sensorskoleringen legger føringer for karaktersetting av alle eksamensbesvarelsene i faget.
Eksamensveiledninger med kjennetegn på måloppnåelse gir informasjon om eksamen og hvordan denne skal vurderes. Kjennetegn på måloppnåelse skal bidra til å sikre en samlet vurdering av kompetansen. Sensorene skal bruke veiledningen som en felles referanseramme i arbeidet sitt. Veiledningen skal være kjent i god tid før eksamen.
Eksamensbesvarelser med begrunnelser for ulike karakter publiseres på Udir.no i ulike fag på grunnskolen og videregående skole. For hver besvarelse er det en begrunnelse til karakteren som er gitt. Brukes som referanse ved sensur, og kan brukes som utgangspunkt for å utvikle tolkningsfellesskap lokalt.
Eksamensrapporter i et utvalg fag. Formålet er å gi lærere og kandidater bedre innsikt i hvordan eksamensoppgavene er forankret i læreplan og om erfaringene fra eksamensgjennomføringen og fellessensur, rapportene inkluderer også karakterstatistikk.
(Utdanningsdirektoratet 2018c)

Forskerne peker for øvrig på flere positive effekter av sensorskoleringer/-møter (uavhengig av hvem som arrangerer):

Sensorskolering er viktig kompetanseheving i vurdering og for noen kanskje den eneste «opplæringen» i å sette karakterer.
Mange framhever at samarbeid om sensur har tilført en måte å tenke helhetlig vurdering på og gitt dem redskaper for å jobbe med vurdering på i et tolkningsfellesskap.
Lærerne oppfatter dette som verdifullt også i egen vurderingspraksis og at det kan bidra til å styrke vurderingsfellesskapet på skolen.
Flere foreslår obligatorisk skolering fordi det kan komme hele fagfellesskapet på skolen til nytte og kan bidra til en mer ensartet vurdering på hele skolen.
Sensur kan skape møteplasser og fagfellesskap, som mange lærere sier er en styrke for profesjonalitet i læreryrket generelt og vurdering spesielt.

Generelt opplever skolelederne at sensorenes erfaringer bidrar til å heve vurderingskompetansen ved skolen til muntlig og skriftlig eksamen. Åtte av ti skoleledere mener de bidrar i noen eller stor grad til skriftlig eksamen og ni av ti til muntlig eksamen (Waagene mfl., 2018).

6.2 Kjennetegn på måloppnåelse

Det er ingen føringer for at det skal utvikles kjennetegn på måloppnåelse eller tydelige vurderingskriterier knyttet til eksamen. Elevene har rett til å kjenne til hva som blir vektlagt i vurderingen av hans eller hennes kompetanse (jf. forskriften § 3-1). I hvilken utstrekning det finnes slike kjennetegn eller vurderingskriterier, og hvordan de blir brukt, er ulikt for sentralt gitt skriftlig eksamen og lokal gitte eksamener og varierer i tillegg på tvers av skoler og skoleeiere.

Ved sentralt gitt skriftlig eksamen utvikler Udir eksamensveiledninger med kjennetegn på måloppnåelse knyttet til alle eksamener med sentral sensur. Disse kjennetegnene skal brukes ved sensur og er utgangspunkt for diskusjon på sensorskoleringer og sensurmøtene. Udir har også utviklet veiledende kjennetegn på måloppnåelse i utvalgte fag på 10. trinn for å støtte standpunkt- og underveisvurderingen. Disse er det frivillig å bruke. Ved å tilby et felles utgangspunkt for å vurdere kompetanse i fag kan man bidra til å fremme en mer lik og rettferdig vurdering i hele landet. Kjennetegnene tar utgangspunkt i læreplanene og er beskrivelser av kvaliteten på kompetanse i fag på tvers av hovedområdene. Kompetansen er beskrevet på ulike nivåer; per i dag er kjennetegnene formulert for karaktergruppene 2, 3–4 og 5–6. Det er forventet at lærere ved en skole drøfter kjennetegnene og på denne måten utvikler en felles forståelse. Disse kjennetegnene kan også brukes som utgangspunkt for å utvikle kjennetegn til lokalt gitt eksamen.

Ulike undersøkelser viser at eksamensveiledninger med kjennetegn på måloppnåelse blir mye brukt og oppleves som nyttige i skolenes vurderingsarbeid (Hovedhaugen mfl., 2014; Gjerustad mfl., 2015). 65 prosent av skolelederne oppgir også å bruke vurderte eksamenssvar (Waagene mfl., 2018), og halvparten bruker eksamensrapporter. I motsetning til dette svarer bare et mindretall av skolelederne at de bruker forhåndssensurrapporter for å utvikle et felles vurderingsgrunnlag på skolen. Spørsmål til Skole-Norge høsten 2014 viser at så godt som alle skoleledere og skoleeiere oppgir å ha utarbeidet og å ha brukt lokale kjennetegn i vurderingsarbeidet (Gjerustad, Waagene og Salvanes, 2015). Det finnes ingen systematisk informasjon om innholdet i og kvaliteten på disse kjennetegnene. Ved alle studiene må det i tillegg tas hensyn til at enten utvalgsstørrelsen eller svarprosenten var begrenset. Dermed finnes det – som ofte i spørreundersøkelser – en viss fare for at svarene har noen skjevheter, oftest rettet mot det positive.

Udirs kjennetegn på måloppnåelse gir et visst rom for tolkning som må utvikles og diskuteres i samarbeid med andre lærere. Hovdhaugen mfl. (2014) finner at lærerne synes det er lettest å vurdere besvarelser som ligger i ytterpunktene av skalaen, mens det krever mer arbeid å grunngi hvorfor man setter karakteren 3 fram for karakteren 4 enn for eksempel karakteren 5 heller enn 6. Fordi karakterene 3 og 4 utgjør en særlig stor andel av karakterene, har lærere etterlyst tydeligere vurderingskriterier på ulike typer oppgaver samt svareksempler som skal gjøre det enklere å skille mellom en 3-er og en 4-er (Krogh, 2016).

Som en oppsummering kan det slås fast at det finnes lite systematisk forskning, unntatt spørreundersøkelser, om hvordan skoleledere og lærere arbeider med kjennetegn på måloppnåelse. Kunnskapsgrunnlaget gir grunn til å anta at de har ulik erfaring med kjennetegn og vurderingskriterier, noe som kan føre til forskjeller i vurderingsprosessen.

6.4 Sensorsamsvar

Høyt samsvar mellom sensorene i vurderingen av eksamen er viktig for kvaliteten. Selv om det er urealistisk å forvente at sensorene alltid vurderer en besvarelse likt, bør ambisjonen være å unngå større forskjeller i vurderingen. Det er viktig å notere seg at standardiserte oppgaver ikke nødvendigvis har høyere sensorsamsvar enn ustandardiserte oppgaver. Sensorsamsvar er ofte knyttet til om det var mulig å utvikle tydelige oppgaver, tydelig instruks og tydelige vurderingskriterier på forhånd. Reliabilitet er også knyttet til hvor omfattende sensorskolering har vært. Selv om vi ikke har empirisk forskning om dette, er det i tillegg ikke usannsynlig at antall eksamensbesvarelser per sensor påvirker både kvaliteten på sensuren og sensorsamsvaret fordi antall besvarelser kan påvirke hvor mye tid sensorene faktisk har til å diskutere og vurdere skriftlig besvarelser.

Felles sensurmøter og sensorskoleringer er lagt inn som en del av kvalitetssikringen ved sentralt gitt skriftlig eksamen. Sensorene gjør en foreløpig vurdering av oppgavene før sensurmøtene og foretar en endelig vurdering basert på tolkningsfellesskapet.

Fafos evalueringen av eksamen i matematikk for 10. trinn i 2017 viser at det var godt samsvar mellom sensorene i deres karakterforslag før fellessensurmøtet, selv om noen sensorer etterlyste bedre veiledning i sensur av enkelte oppgaver. Dette gjaldt særlig å få klarere retningslinjer for sensurering av oppgaver som krever digitale hjelpemidler (Andresen mfl., 2017). Forskerne konkluderer med at det var høyt sensorsamsvar ved eksamen våren 2018, det vil si at sensorene vurderer noenlunde likt (Bjørnset mfl., 2018).

Profesjonalisering av vurderingen:
Ekstern sensur medfører at lærere må diskutere læreplan, vurdering og karaktergivning med andre lærere både før og etter eksamen. Til sentralt gitt skriftlig eksamen rekrutteres sensorene fra hele landet, og det gjennomføres sensorskoleringer for å profesjonalisere vurderingen av besvarelsene og bidra til tolkningsfellesskap og rettferdig sensur. Muntlig, muntlig-praktisk og praktisk eksamen er på den annen side eksamensformer som innebærer en bred involvering av lærere lokalt. Både gjennom å være eksaminator for egne elever og ved å være sensor på andre skoler vil lærere få et eksternt blikk på egen praksis. Dette kan være et utgangspunkt for å diskutere, justere og videreutvikle egen opplærings- og vurderingspraksis.

Selv om prosjektet ligger litt tilbake i tid, må KAL-prosjektet (Kvalitetssikring av læringsutbyttet i norsk skriftlig) nevnes når det er snakk om eksamensvurdering i Norge (Berge mfl., 2005). Dette er en studie av 3300 eksamenstekster fra 1998–2001, og KAL har fremdeles status som den mest omfattende studien av elevers skriving på norskeksamen og sensuren av disse oppgavene. Blant annet fant KAL at elevene er ganske gode skrivere, selv de lavestpresterende skriverne var i stand til å produsere enkle fortellende tekster. Det ble samtidig avdekket store kjønnsforskjeller i jentenes favør og at elevene foretrekker å skrive subjektive fortellende tekster framfor saktekster. Denne tendensen blir direkte utfordret gjennom Kunnskapsløftet, der sakprosa og skjønnlitteratur sidestilles, og gjennom eksamensoppgaver som ikke har gjort det valgfritt å vise at en kan skrive sakpregede tekster.

Et spesielt viktig funn i denne sammenheng er knyttet til sensorenes vurdering av eksamensoppgavene. Her konkluderer KAL-forskerne med at samsvaret mellom sensorer i grunnskolen ikke er så høyt som ønskelig, men bedre enn hva mange har antatt. De framhever at grunnskolen utvikler en samtalekultur om elevers prestasjoner og elevteksters kvalitet. Videre kommer KAL-rapporten med en tydelig føring om at lærernes samtalekultur er en strategisk hovednøkkel for videre kvalitetsutvikling i grunnskolens skriveopplæring (Berge mfl., 2005).

Basert på en undersøkelse i regi av NIFU ser det ut som om behovet for tydeligere vurderingskriterier og større tolkningsfellesskap er særlig stor i videregående skole (Seland, Lødding og Prøitz, 2015). En metodisk undersøkelse EKVA gjorde på oppdrag fra Udir, tyder på at sensorsamsvar på eksamen er en utfordring særlig i norskfaget. Undersøkelsene viste at enigheten om vurderingen av besvarelsene fra sensor 1 og sensor 2 før etablering av tolkningsfellesskap på fellessensuren ikke var særlig god. At sensorsamsvar i fag som norsk er lavere enn i fag som matematikk, kan blant annet ha sammenheng med de vidt forskjellige oppgaveformatene kandidatene prøves i i disse fagene, og i hvilken grad besvarelsene gir rom for og behov for faglig skjønn. En masteroppgave om sensorreliabilitet i norsk ved årskullet 2015 støtter denne tolkningen og peker i tillegg på uklarheter angående vekting av vurderingskriteriene og vekting av kort- og langsvarsoppgavene (Krogh, 2016).

Bøhn (2017) har i sin doktoravhandling spesielt sett på hvordan vurderingen av muntlig eksamen i fellesfaget engelsk i videregående skole fungerer. Denne undersøkelsen konkluderer med at det jevnt over er akseptabelt sammenfall i bruk av overordnede kriterier. Reliabiliteten hos sensorene i undersøkelsen som inkluderte 80 informanter, var stort sett god. Men Bøhn peker samtidig på utfordringer med vurdering i engelskeksamen. Disse er relatert til vurdering av uttale og innhold og nivåfastsetting knyttet til enkelte kriterier. Her kunne det være nyttig å utvikle tydeligere kjennetegn for måloppnåelse. Ytterlig et funn er at felles forståelse av vurderingskriterier ikke automatisk betyr at lærerne vurderer prestasjoner likt. Det er også viktig at de er enige i hvordan en prestasjon skal nivåplasseres på karakterskalaen. I denne undersøkelsen framgår det at lærerne på engelsk for de yrkesfaglige utdanningsområdene hadde en tendens til å vurdere elevene «snillere» enn lærere på studiespesialiserende.

Carlsen (2003) har også sett på sensorbasert vurdering av muntlige språkferdigheter, i dette tilfellet i norsk som andrespråk. Hennes funn bekrefter Bøhns. Hun konkluderer at sensorene bør være enige med hverandre om karaktersettingen og legge vekt på de samme trekkene i sine vurderinger, ellers står vurderingen i fare av å være preget av tilfeldigheter og dermed ikke til å stole på.

Samtidig viser forskningen oss hvordan det er mulig å oppnå større tolkningsfellesskap og høyere reliabilitet – til og med når det gjelder konstrukter som i utgangspunktet er dårlig definert som skriving. Mye av forskningen som finnes i Norge om vurdering av skriving, har blitt gjennomført i konteksten til de nasjonale skriveprøvene og i Normprosjektet. Erfaringer fra denne konteksten og hovedfunnene kan muligens overføres til eksamen.

Kvistad og Smemo (2015) fant ut at elevenes tekster og deres vurdering profitterte mest på eksplisitte forventninger, særlig på presisjon av formål (Otnes, 2015) samt detaljerte krav til innhold og struktur (Smemo og Solem, 2015). Upresist formulerte oppgaver var ikke bare avgjørende for elevenes prestasjon, men også vanskelige å vurdere (Solheim og Matre, 2014). Forfatterne fant ut at bruk av eksempeltekster var godt egnet til å utvikle tolkningsfellesskap blant sensorer fordi de ulike vurderingsnormene ble synlige på denne måten. Når det gjelder antall sensorer, gjennomførte Borgström og Ledin (2014) en studie i Sverige og konkluderte at i tekstvurdering trengs det tre sensorer for å sikre god reliabilitet.

For å komme fram til felles forventninger og vurderingskriterier («standarder») valgte Normprosjektet en bottom-up-prosess som involverte et større antall erfarne lærere (Solheim og Matre, 2014; Evensen mfl., 2016). Gjennom å utrede hvordan disse vurderte elevtekster, kunne det utvikles en matrise med flere dimensjoner som tydelig spesifiserte vurderingsnormene. En intervensjon der andre lærere fikk informasjon om skriving og vurdering, hjalp videre med å utvikle læreres vurderingskompetanse betydelig.

7. Forholdet mellom eksamen og standpunkt

Eksamensresultater som publiseres i Skoleporten og i statistikkportalen, gir Udir, fylkesmennene, skoleeiere og skolene et visst kunnskapsgrunnlag om karakterfordelinger og gjennomsnitt for eksamen. Karakterer og karakterforslag fra sensuren til sentralt gitt skriftlig eksamen, som blir registrert i PAS, er en informasjonskilde som kan brukes i arbeidet med å videreutvikle eksamen.

Standpunkt- og eksamenskarakter i et fag bør være uttrykk for det samme, men ofte stilles det spørsmål ved forskjellen mellom eksamenskarakterer og standpunktkarakterer. Forskjeller i karakterene er ikke nødvendigvis problematiske i seg selv. Det kan imidlertid være et spørsmål om hvor store forskjellene kan være før karakterene ikke lenger er et uttrykk for den samme kompetansen i læreplanen. Samtidig er det enighet om at eksamen og standpunkt dekker ulike perspektiver.

Forskjeller tyder altså ikke nødvendigvis på en over- eller undervurdering av elevene og er ikke alene nok til å så tvil om, eller legitimere, verken standpunkt- eller eksamenskarakterer. Men ulikheter i eksamens- og standpunktkarakterer bør ikke være systematisk relatert til årskull, fag, klasser, skoler, geografiske egenheter eller andre type grupperinger. Hvis forskjellene kan relateres systematisk til andre ytre forhold enn elevenes kompetanse, representerer de skjevheter som ikke er forenlige med rettferdig vurdering.⁷ Dette utreder vi nedenfor.

Forskning dokumenterer tydelig at det finnes forskjeller mellom eksamen og standpunkt (se f.eks. Hovdhaugen, Prøitz, og Seland, 2018), og at disse har eksistert i lang tid (Hægeland mfl., 2005). Dette er noen av funnene fra forskningen når det gjelder forholdet mellom eksamens- og standpunktkarakterer:

Nasjonalt ligger de gjennomsnittlige eksamenskarakterene for sentralt gitt eksamen vanligvis noe under de gjennomsnittlige standpunktkarakterene. Hva disse forskjellene skyldes, har vi fortsatt lite kunnskap om. En studie viser for eksempel at differansen mellom standpunkt og eksamen avhenger av eksamensform og fag, og at det er større differanse i norsk enn i matematikk.1 Det er størst forskjell mellom standpunkt- og eksamenskarakteren i praktisk matematikk, der det skiller en hel karakter mellom gjennomsnittlig karakter til standpunkt og til eksamen. 78 prosent av elevene får lavere karakter til eksamen enn til standpunkt i praktisk matematikk for vg1. (Utdanningsdirektoratet, 2017)
Standpunktkarakterene i fagene med skriftlig eksamen er forholdsvis konstante over tid, mens eksamenskarakterene varierer mer (Hovdhaugen mfl., 2014). Dermed er eksamenskarakteren den minst stabile av de to. Med utgangspunkt i dette funnet stiller forskerne spørsmål ved eksamens funksjon som objektivt målepunkt. Det spørs om endringer i eksamenskarakterer representerer endringer i kompetansenivået eller endringer i eksamenens vanskelighetsgrad.
Små skoler (mindre enn 50 elever over 7 skoleår) og skoler med lave gjennomsnittlige eksamenskarakterer gir elevene bedre standpunktkarakterer enn det større skoler (omtrent 40 elever eller flere i gjennomsnitt per årskull) og skoler med høye gjennomsnittlige eksamenskarakterer gjør. Mellom 40–50 prosent av skolene peker seg ut med spesielt høye eller lave standpunktkarakterer sammenlignet med eksamenskarakterer. Karakterpraksisen på hver skole er i stor grad stabil mellom fag. Det vil si at hvis en skole gir høye standpunktkarakterer i ett fag, gir de også høye standpunktkarakterer i andre fag ved skolen. Karakterpraksisen er også stabil over år (Galloway, Kirkebøen og Rønning, 2011). Det ser ut som om lærere implisitt bruker en skoleintern sosial norm når de setter standpunkt. Det betyr at de orienterer seg mot det generelle nivået på sin skole. Standpunktkarakteren satt av en lærer ved en skole med høytpresterende elever evaluerer sannsynligvis derfor den samme sluttkompetanse som litt lavere enn det en lærer ved en skole med en høy andel lavtpresterende elever gjør. Fordi eksamen er gitt sentralt med de samme oppgavene og den samme sensureringspraksisen overalt i landet, resulterer dette gjerne i litt høyere eksamenskarakterer sammenlignet med standpunkter ved høytpresterende skoler enn ved lavtpresterende skoler.
Det er også systematiske forskjeller i avviket mellom eksamens- og standpunktkarakterer når man sammenligner høytpresterende og lavtpresterende elever. Omtrent halvparten av elevene får en annen eksamenskarakter enn standpunktkarakter. Mens 75 prosent av elevene som hadde fått 5 eller 6 i standpunkt, går ned, er det færre enn 50 prosent av elevene som hadde fått 2, 3 eller 4, som får en lavere karakter ved eksamen (Utdanningsdirektoratet, 2013). Dette kan riktignok være en effekt som er drevet av naturlige svingninger fordi elever som har fått 5 eller 6, kan gå ned, men knapt nok opp, mens de som har karakterer i midten av skalaen, kan gå både opp og ned.
Jenter gjør det – relativt sett – bedre på standpunkt enn på eksamen (se Utdanningsspeilet gjennom mange år), og dette gjelder særlig i fagene norsk og fremmedspråk (+ 0,4 til 0,5 karakterpoeng mer i fordel til jentene enn guttene sammenlignet med eksamen) (Wollscheid mfl., 2018; Borgonovi, Ferrara og Maghnouj, 2018). Stoltenberg-utvalget har undersøkt kjønnsforskjeller i skoleprestasjoner og mener at vurderingssystemet ser ut til å være en ulempe for gutter ettersom det er mange lærervurderte standpunktkarakterer og få eksamenskarakterer (NOU 2019: 3, 2019).
Et annet eksempel er offentlige og private skoler hvor det viser seg at forskjellene mellom eksamens- og standpunktkarakterer er større ved private enn ved offentlige videregående skoler (Hovdhaugen, Seland, Lødding, Prøitz, og Vibe, 2014). Det skyldes trolig at elever ved private skoler får høyere standpunktkarakterer (gitt samme faglige dyktighet vist i eksamen) (Utdanningsdirektoratet, 2013).
Rapporten Skoleresultater 2008, som Statistisk sentralbyrå har gjort på oppdrag for direktoratet, presenterer en kartlegging av skoleresultater i grunnskolen og den videregående skolen. Den viser en sterk sammenheng mellom elevenes karakterer i grunn- og videregående skole (Steffensen og Ziade, 2009). Fagkarakter fra grunnskolen gir generelt en god pekepinn på karakteren i tilsvarende fag på videregående, selv når det kontrolleres for forskjeller i familiebakgrunn. Rapporten inneholder også en analyse av strykprosent på tvers av utvalgte fag og elevgrupper i videregående. Det er lavere strykandel i språkfagene norsk og engelsk enn i matematikk, og for matematikkfagene er andelen som stryker, klart lavere i teoretisk enn i praktisk matematikk. Videre er andelen som stryker, lavere i fag på studieforberedende enn på yrkesfaglige utdanningsprogrammer.

De forskjellene mellom eksamen og standpunkt dokumentert her (mellom gutter og jenter, private og offentlige, store og små skoler samt mellom høytpresterende og lavtpresterende skoler eller elever) viser at det dreier seg om systematiske avvik mellom eksamens- og standpunktkarakterer. Dette igjen viser at forskjellene ikke med rimelighet kan knyttes til elevenes faglige sluttkompetanse. Flere studier har dokumentert at lærerne muligens legger vekt på andre faktorer enn læreplanmålene ved fastsetting av standpunktkarakterer i fagene: for eksempel elevenes innsats eller orden og oppførsel (Dale og Wærness, 2006; Prøitz og Spord-Borgen, 2010; Sjyvollen, 2007; Tveit, 2007b).

I tillegg ser det ut som om lærerne til dels muligens følger en normrelatert vurdering der de sammenligner elever i en klasse eller skole med hverandre istedenfor å utelukkende gjennomføre en målrelatering (Galloway, Kirkebøen, og Rønning, 2011; se kap. 4.4 for definisjoner av begrepene). Slike forskjeller skaper en fare for at ulike elever gis ulike muligheter. Når det er sagt, er det riktignok viktig også å peke på at en målorientert vurdering vil forutsette entydig mål og operasjonalisering, hvilket det nok ikke finnes i dag på en tilstrekkelig måte.

I tillegg til de grupperelaterte forskjellene dokumentert ovenfor er det forskjeller mellom eksamen og standpunkt knyttet til årskull. Det betyr at variasjon i nivået av karaktersetting over år kan slå ut som en kilde til ikke-fair konkurranse om de samme studieplassene.

Det finnes også variasjoner i karaktersetting ved eksamen versus standpunkt på tvers av fag. Elever som har spesialisering i realfag, har høyere karaktergjennomsnitt i fellesfagene enn elevene som for eksempel tar samfunnsfag. Likevel får realfagelevene lavere karakterer på vitnemålet sitt i studiespesialiseringsfagene enn det de andre elevgruppene får (Angell, Lie, og Rohatgi, 2011). Det betyr at karakterkravene ser ut til å variere på tvers av studiespesialiseringsfagene, og at for eksempel en karakteren 5 ikke har samme betydning i realfag sammenlignet med i samfunnsfag. Noe av det samme kan observeres når fremmedspråkene sammenlignes med samfunnsfag. Hovdhaugen (2014) peker på at slike fagspesifikke forskjeller muligens skyldes forskjellige tilnærminger til vurdering. I tillegg kan forskjellene kan hende forklares ut fra epistemologiske aspekter i fagene, særlig fagenes spesifikke struktur (for flere detaljer, se kap. 8).

Et annet fenomen som kan få konsekvenser for opptak til høyere utdanning og yrkesliv, er skjevheter på bakgrunn av fagenes uttelling på vitnemålet. Fag med lavt timetall vektes likt til opptak som fag med høyt timetall. Antall karakterer per fag stemmer ikke nødvendigvis overens med antall opplæringstimer i videregående opplæring. Norskfaget, for eksempel, kan ha opptil seks karakterer på vitnemålet i vg3. Ettersom kjønnsforskjellene er store i språkfagene, vil antallet språkkarakterer gagne jenter, påpeker Stoltenberg-utvalget (NOU 2019: 3, 2019). Utvalget anbefaler derfor å utrede vekting av karakterer etter timetall eller andre modeller.

Oppsummert viser kunnskapsgrunnlaget at forholdet mellom eksamenskarakterer og standpunktkarakterer er preget av systematiske forskjeller som er relatert til ytre forhold, men muligens ikke til elevenes kompetanse – noe som ville svekke rettferdigheten til vurderingene. Et viktig spørsmål er på hvilken måte det er mulig å motvirke eller kompensere for slike skjevheter. Her viser vår gjennomgang så langt at det både i Norge og internasjonalt finnes lite forskning om dette.

[1] Det er viktig å huske at rangeringene bare kan være «noenlunde» de samme fordi det alltid er tilfeldig variasjon, særlig ved eksamen som blir tatt bare en gang, og gjerne for et lite utvalg av elever ved skolen. Tilfeldige forhold som eksamensengstelse, sykdom, dårlig dagsform, uflaks med de spesifikke oppgavene som ble gitt akkurat denne dagen, osv. vil føre til at en enkeltstående måling ikke er perfekt. Men dette vil ikke føre til systematiske forskjeller.

8. Vurdering i fag – fagforskjeller

Kapittel 7 dokumenterer at vurdering og vurderingsresultater varierer mellom skolefag. En forklaring på variasjonene knyttes til skolefagenes ulike og bestemte egenskaper, i norsk kontekst ofte kalt fagenes egenart. En annen forklaring er at lærere og sensorer i vurderingssituasjoner trekker på bestemte og forskjellige epistemologiske og ideologiske forestillinger om vurdering i ulike fag. Å prøve kompetanse i tråd med fagfornyelsen og basert på de nye læreplanene vil innebære å være nødt til å anerkjenne skolefagenes innhold og struktur. Dette kapitlet oppsummerer derfor hvilke oppfatninger forskere og lærere har om de forskjellige fagene, og hvordan de implisitte og/eller eksplisitte ideologiene påvirker holdninger til vurdering.

8.1 Oppfatninger av fag

Muller (2009) skiller mellom fag med ulik konseptuell og kontekstuell sammenheng. Der fag med sterkere konseptuell sammenheng er tydeligere disiplinært forankret i fagdomener i høyere utdanning (forskningsdisiplinen som faget refererer til), har de en strammere struktur med hierarkisk og sekvensiell oppbygning som gir lærere tydeligere rammer for vurdering. På den annen side finnes det fag med sterkere kontekstuell sammenheng som har svakere kobling til fagets referansedisiplin, er mindre hierarkiske, mer segmentert og som krever stadig utvikling av felles rammer for fagenes kunnskapsområder og hva som er viktig kunnskap i faget, som dermed bør vurderes. Skolefag utgjør således grunnlaget for læreres og sensorers konstruksjoner av rammeverk for vurdering av prestasjoner og tilhørende praksiser for karaktersetting (Wiliam, 1996).

Basert på sammenligninger av læreres utsagn om vurdering i engelsk, naturfag og matematikk hevder Black mfl. (2003, s. 68) at lærere i matematikk og naturvitenskap anser sine fag for å ha unike og objektivt definerte mål, mens lærere i engelsk (i en engelskspråklig kontekst) anser at det finnes en rekke mål som det kan være aktuelt for elever å nå på et bestemt tidspunkt (Black mfl. 2003, s. 68). Dette finner vi også i norske studier med gjentatte runder med intervjuer fra 2009 og fram til i dag og som totalt omfatter over 100 norske lærere i ungdomsskole og videregående opplæring, om vurdering i deres fag (Prøitz og Borgen 2010; Prøitz 2013; Hovdhaugen mfl., 2014; Seeland mfl. 2018; Prøitz 2018).

8.2 Oppfatninger av vurdering i fag

I nasjonale og internasjonale studier av lærerrapporterte betraktninger finner vi også at forståelser av fagenes egenart påvirker læreres vurderingspraksis. For eksempel blir vurdering i fag som engelsk ofte karakterisert som holistisk, intuitiv, ikke-numerisk og gjerne basert på observasjon og dialog, mens i fag som matematikk blir vurdering karakterisert som rasjonell-analytisk med fastsatte standarder og kriterier og med verdifrie og stabile indikatorer (Wyatt-Smith og Klenowski, 2013). Vi kan se beskrivelser av vurdering i fag som basert på smalere eller bredere grunnlag, der den smale tilnærmingen er dominert av bruk av bare en vurderingsform, gjerne skriftlig, eller en veldig kort prøvesituasjon. Den brede tilnærmingen domineres av et bredere utvalg av vurderinger og spesielt en kombinasjon av skriftlig, muntlig og/eller praktisk prøving ved eksamen som gjør det mulig å prøve kompetanse bredere. I norsk kontekst er det mye som tyder på at det er eksamensformen for det enkelte fag som bidrar til å definere disse mer smale eller brede rammene for vurdering (Prøitz, 2018).

Vi vet fra forskning at lærere og sensorer i stor grad er lojale overfor regelverk og retningslinjer om vurdering, men forskningen viser også at det kan by på problemer å følge nye ordninger og regler innenfor skolefagets ramme dersom politikken bak nye vurderingsordninger ikke harmonerer like godt med skolefagets rammer (Prøitz, 2014). For eksempel vet vi at noen skolefag synes å passe bedre med dagens kompetansebaserte tenkning enn andre skolefag (Muller, 2009; Prøitz, 2014).

Tidligere studier i Norge har vist at det kan være svakere sammenheng mellom fag, innhold og nasjonalt regelverk for vurdering, spesielt i mer kontekstuelt forankrede skolefag som norsk og kunst og håndverk (Prøitz og Borgen, 2009; Prøitz, 2013). Dette kan gjenspeile en svakhet knyttet til vurdering i Norge i forbindelse med utvikling eller revisjon av faginnhold i den nasjonale læreplanen der vurdering gjerne kommer inn i diskusjonene for sent eller «henges på til sist» og dermed ikke er en integrert del av arbeidet med læreplandokumentene (Lysne 2006; Gjone, 1983). Dette fører gjerne til et omfattende etterarbeid og tilpasninger for å sikre god vurdering.

Fagenes egenart har i svært begrenset utstrekning vært i vurderingsforskningens sentrum. Nasjonal og internasjonal vurderingsforskning har i stor grad tatt mål av seg å bidra til økt kunnskap om og definere god vurderingspraksis på et mer generelt og universelt grunnlag til tross for at forskningen som oftest skjer innenfor rammen av skolefag. Dette handler derfor ikke om flere studier på hvordan universelle prinsipper for god vurdering kan utvikles eller støttes (Brookhart 2013; Wyatt-Smith og Klenowski, 2013), men om skolefagenes innhold og struktur har vært tilstrekkelig anerkjent som sentrale faktorer innen vurderingsforskning.

Fagfornyelsen prøver å møte denne utfordringen ved å definere kjerneelementer som skal dekke det viktigste i fagene og gi en tydelig prioritering av hva elevene skal lære. Kunnskapsområder, metoder, begreper, tenkemåter og uttrykksformer som har blitt definert som viktigst, skal prege innholdet og progresjonen i læreplanene og bidra til at elevene over tid utvikler forståelse av innhold og sammenhenger i faget. På denne måten kan kjerneelementene bidra til at fagenes innhold og struktur anerkjennes, men om det faktisk skjer, er et empirisk spørsmål og bør utredes grundig (inkludert utilsiktede bivirkninger).

9. Elevers opplevelse av eksamen

For å danne et helhetlig bilde av hvordan eksamen fungerer, er det avgjørende å lytte til hva elevene sier om hvordan de opplever eksamensordningen. Elever har gjennom Norsk Gymnasiastsamband og Elevorganisasjonen påpekt mangler ved eksamenssystemet helt tilbake til 1963. Det handler blant annet om at elevene ikke opplever å få vist sin fulle kompetanse, at dagsform i betydelig grad påvirker elevenes prestasjoner, og at det i stor grad er tilfeldig hvilket fag eleven blir trukket opp i.

Eksamen er en del av en kompleks og psykologisk virkelighet. Den kan være spennende og krevende, men samtidig være noe man gruer seg til. Eksamen kan føre til engstelse, men den kan samtidig ruste eleven til videre arbeidsliv og studier. Harris og Brown (2016) påpeker at sosiale og psykologiske faktorer påvirker en rekke aspekter i et skolesystem: avgjørelser om hvordan læring skal bedømmes, læreres og elevers deltakelse i vurderingspraksiser samt hvordan vurderingsresultater fortolkes, forstås og anvendes. Elever kan for eksempel bekymre seg for å få dårlige karakterer; lærere kan påvirkes av tidspress, humørsvingninger, fordommer og lignende når de setter karakterer på eksamensbesvarelser. De sosiale, historiske og kulturelle rammene i og rundt utdanningssystemet påvirker elevers syn på eksamen, motivasjon, selvbilde og selvfølelse og muligheter for samarbeid. De politiske og juridiske rammene for eksamen kan på lignende vis harmonere med eller komme i konflikt med læreres antakelser, verdier, holdninger og lignende. Harris og Brown (2016) påpeker at de menneskelige vilkårene for vurdering derfor bør ligge til grunn for hvordan vi forstår utforming, implementering og skåring av eksamen og andre vurderingssituasjoner.

Forskrift til opplæringslova § 3-32 gir rom for å tilrettelegge lokalt for elever som har behov for det, slik at de får vist kompetansen sin i faget. Tilretteleggingen skal ikke føre til at de får fordeler de andre elevene ikke har.

Det er lite forskning å finne på elevperspektivet i sluttvurderingssystemet generelt, og dette gjelder også elevenes egen opplevelse av eksamen. Dette kapitlet oppsummerer noen funn som er hentet fra internasjonal forskning og noen tilbakemeldinger direktoratet har fått gjennom spørreundersøkelser.

9.1 Elevstemmen, motivasjon, prøveengstelse, stress og prestasjon

En måte å få større innsikt i hvordan elevene tenker rundt for eksempel oppgavetyper, tidspress og stress knyttet til eksamen, er å få elevstemmen inn i arbeidet med eksamen og sensur. Som en utprøving har Udir, i samråd med Elevorganisasjonen, inkludert elevstemmene ved å gjennomføre spørreundersøkelser blant elever som gjennomførte eksamen i engelsk etter 10. trinn og i fellesfag engelsk vg1/vg2 i 2016 og 2017. Våren 2017 deltok også elever på forhåndssensuren i engelsk for 10. trinn for første gang og forklarte hva de tenkte om oppgavene.

Elev-/brukerperspektivet omhandles i oppmannsrapportene og i eksamensrapportene fra eksamen i engelsk 10. trinn våren 2017. De ble blant annet spurt om begrunnelsen for valg av oppgaver, formålet med forberedelsesdelen til eksamen og eksamenslengden (Utdanningsdirektoratet, 2018d). Nedenfor vises kun 2 av de 500 elevstemmene som uttalte seg om forberedelsedelen til eksamen i engelsk 10. trinn 2017. De aller fleste var positive til å «komme inn i faget og temaet» før de gikk i gang med selve eksamen:

Ærlig, man trengte ikke forberedelseshefte, nesten så det ikke er vits ...

Fint, for da kommer man inn i arbeidsmodus og
får tenke på faget i en dag før man har en såpass stor vurdering ...

Sammenhengen mellom motivasjon og prestasjon er viktig å ta med inn i utviklingen av eksamensfeltet (Eccles, 1983). Både svært høye og svært lave nivåer av motivasjonsvariabler kan være mindre ønskelige enn mellomnivåer. For eksempel, hvis elever opplever at eksamensoppgavens betydning er lav, kan de velge å ikke bruke energi og anstrenge seg for å oppnå mestring (Natriello og Dornbusch, 1984). Hvis elever derimot oppfatter prestasjonskravet ved en oppgave som svært høyt, kan engstelse hemme ytelse (Tobias, 1985). På samme måte, hvis elevene har et svært lavt nivå av mestringsforventning for en oppgave, er det lite sannsynlig at de vil angripe oppgaven med mye entusiasme eller utholdenhet. Har de et høyt nivå av mestringsforventning, kan de risikere å ikke gi oppgaven tilstrekkelig oppmerksomhet for å oppnå gode resultater (Schunk, 1984).

Når det gjelder elevers prøveengstelse, rapporterer studier (Hill, 1984) at elevers nervøsitet er økende når elever opplever at testen vil ha stor betydning, når den er forventet å være vanskelig, og når forholdene rundt prøvesituasjonen er påtrengende (f.eks. rigide tidsrammer og assosiert tidspress, spesielle testinstruksjoner og ukjent prøveform). Selv om elevers feil på tidligere oppgaver påvirker utviklingen av engstelse, oppstår ikke nervøsiteten bare ved mangel på kunnskap eller ferdigheter som kreves for å svare på oppgavene. Studier har vist at elever med høy prøveengstelse gjør det bedre og utfører på nivåer nærmere sine mindre engstelige jevnaldrende på de samme kognitive oppgavene når prøvene administreres under mindre stressfulle forhold (Hill, 1984; Hill og Wigfield, 1994).

9.2 Elevers opplevelse av eksamensformer

Det finnes svært lite forskning om hvordan elever i Norge opplever de ulike eksamensformene. Vi har derfor valgt å se etter internasjonal forskning om vurdering i high-stakes-kontekster og -eksamen for å få en pekepinn på mulige utfordringer norske elever kunne streve med. Men det må vises til at vi ikke kan vite med sikkerhet om den internasjonale forskningsstatusen også gjelder for Norge. Det som riktignok kan sies, er at eksamen er en prøving med store konsekvenser så at det kan anses som sannsynlig at slike utfordringer finnes.

Internasjonal forskning samlet sett viser at elever foretrekker vurderingsformater som reduserer stress og engstelse (Nassar, Qaraeen, og Naba'h, 2011; van de Watering, Gijbels, Dochy, og van der Rijt, 2008). Birenbaum og Feldman (1998) finner i sin studie at elever med liten/ingen nervøsitet for prøver foretrekker åpne oppgaver. Elever med høy testengstelse foretrekker derimot i større grad flervalgsoppgaver fordi de assosierer dem med mer sikkerhet i vurderingssituasjonen. Dette funnet stemmer overens med studien til Nassar mfl. (2011), der elevene mente at flervalgsoppgaver i eksamen er mindre vanskelig, klarere og mer rettferdig enn en langsvarsoppgave i eksamen. Studentene mente imidlertid at begge typer av eksamen er verdifulle. Birenbaum og Feldman antar således at dersom elevene får den typen vurderingsform de foretrekker, vil de være motivert til å utføre sitt beste.

En tidligere studie av Ben-Chaim og Zoller (1997) finner at elever i naturvitenskapelige fag på videregående skole foretrekker eksamener som er skriftlige, med ubegrenset tid, og hvor de kan bruke støttende materiell. Tidsavgrensninger blir opplevd som stressende og fører til uro og press. Vurderingsformer som reduserer stress, vil i henhold til Ben-Chaim og Zoller (1997) øke sjansen for suksess, og elever foretrekker fortrinnsvis eksamener som legger vekt på forståelse i stedet for overflatelæring. Baeten mfl. (2008) finner at preferanse for ulike eksamensformer ser ut til å være relatert til ulike læringsstrategier og tilnærminger til læring; elever med en dybdetilnærming ser ut til å foretrekke langsvarsoppgaver, mens elever med en overflatetilnærming foretrekker flervalgsoppgaver ved prøver (Baeten, Struyven og Dochy, 2008; Birenbaum og Feldman, 1998).

En metastudie av Beller og Gafni (2000) fant at det er kjønnsforskjeller i preferanse for prøveformer og eksamen. Der man fant kjønnsforskjeller, foretrekker jenter langsvarsoppgaven, og gutter viser en liten preferanse for flervalgsoppgaver (f.eks. Gellman og Berkowitz, 1993). Videre finner Beller og Gnafni (2000) at gutter skårer bedre på flervalgsoppgaver enn jenter, og at jenter skårer bedre enn guttene på åpne oppgaver enn på flervalgsoppgaver (f.eks. Ben-Shakhar og Sinai, 1991). Sant nok finner man samtidig enkelte studier som påpeker det motsatte knyttet til kjønnsforskjeller for eksamensformer. Evidensen er dermed litt uklar.

Nassar mfl. (2011) sin studie finner et skille mellom lavt- og høytpresterende elever når det gjelder preferanse for bruk av langsvarsoppgave som prøveformat til eksamen. De fant at elever med høye prestasjoner foretrekker langsvarsoppgaver ved eksamen mer enn moderat- og lavtpresterende elever.

McDowell (1995) antyder at elever synes nye vurderingsformer i skolen er interessante og motiverende. Elevene er fortsatt klare over behovet for å oppnå gode karakterer, men det vil variere i hvilken grad de går inn for dette. Alternative vurderingsformer (eksamen) kan bidra til å forandre en testkultur som er styrt av en retningen på en tradisjonell eksamensform, til en vurderingskultur som vektlegger sammenheng mellom undervisning og vurdering (Birenbaum og Dochy, 1996; Dochy og McDowell, 1997). Forskning viser at alternative vurderingsmetoder (f.eks. mappevurdering, gruppeprosjekt, bruk av caser) er mindre truende for de fleste elever enn tradisjonell testing. Disse alternativene oppfattes også som rettferdige prøveformater (Sambell, McDowell og Brown, 1997).

Dochy og McDowell (1997, s. 292) peker på at endring av vurderingsformer er en effektiv måte å oppmuntre elevene til å endre sine læringsmetoder. Videre blir det framhevet at vurdering er et av de mest effektive verktøyene for innovasjon både i undervisning og læring. «When assessment stays the same, students often will not accept the need to change their approaches to learning; for example, students often prepare for exams by rote learning even if this is not appropriate.» (Dochy og McDowell, 1997, s. 292). Forskerne advarer likevel mot en tro på at nye vurderingsformer automatisk er til det bedre, da de mener at det finnes ingen ideell enkelt vurderingsform. En enkelt vurderingsform kan ikke tjene flere forskjellige formål, og hver vurderingsform har sin egen metodevariasjon som samhandler med personer.

Oppsummert viser dette kunnskapsgrunnlaget store forskningshull angående elevenes opplevelse av eksamen og eksamensformer i Norge. De få spørreundersøkelsene som finnes, tyder på at det er mye å hente ved å lytte til elevene fordi resultatene kan bidra til økt validitet. Elevene har over tid gitt uttrykk for mangler ved eksamenssystemet i sin helhet og ved enkelte eksamensformer, for eksempel at de oppfatter oppgaver eller instrukser som utydelige. Ut fra internasjonal forskning ser det ut som om det er viktig å variere eksamensformer så mye som mulig så at ulike elevgrupper har mulighet til å prestere på den best mulige måten.

Til toppen

Velg nivå

Spesielt for

Annen opplæring

Barnehage

Skole og fagopplæring

Temasider

Eksamen

Prøver

Dokumentasjon

Kvalitet

Kompetansetilbud

Digitalisering

Tall og forskning

Publikasjoner

Brukerundersøkelser

Regelverkstema

Tilsyn

Tilskudd

Kunnskapsgrunnlag for evaluering av eksamensordningen