Rammeverk for nasjonale prøver

Tekniske krav til prøvene

Prøvene skal utformes i tråd med beste mulige standarder for prøvekonstruksjon*, med bruk av egnede, og de til enhver tid best tilgjengelige, psykometriske metodene. Videre i rammeverket beskriver vi de overordnete metodiske kravene til prøveutviklingen.

Oppgaveutviklingen skal skje med klassiske mål for reliabilitet og oppgaveegenskaper, i tillegg til en item response theory (IRT)-basert analyse av enkeltoppgaver og prøven i sin helhet. Lenking av prøver mellom år og rapportering av resultater skal skje gjennom bruk av IRT- kalibrerings- og skaleringsmetodologi, med ankeroppgaver, skalerte skårer (skalapoeng), og faste mestringsnivågrenser fra år til år. IRT-kalibreringen skal gjennomføres med en 2PL IRT-modell for dikotome oppgaver og med en GPCM-modell for polytome oppgaver. Det skal benyttes en modell-konstant der D=1.

Videre i rammeverket beskriver vi hvilke krav som er satt til enkeltoppgaver, prøven i sin helhet, krav til utprøvinger og til rapportering.

* For eksempel standarder slik disse er beskrevet i Standards for Educational and Psychological Testing (1999), AERA, APA, NCME

Krav til enkeltoppgaver

Resultatene fra IRT-analysen gir oss informasjon om: 

  • hvor på ferdighetsskalaen hver enkelt oppgave er plassert og hvor godt den diskriminerer 
  • hvilken informasjonsverdi og målesikkerhet oppgavene har på ulike steder av ferdighetsskalaen.

Disse aspektene er illustrert i figurene 1 og 2 under med eksempler fra en IRT-analyse.

Figur 1 viser en Item karakteristisk kurve (ICC) til en oppgave som krever lav ferdighet og har middels diskriminering.

Figur 2 viser en oppgave som gir mest informasjon og har lavest målefeil for en elev med lav ferdighet.

Krav til en hel prøve

Hver prøve skal oppfylle høye reliabilitetskrav (høy klassisk reliabilitet Cronbach's alpha) og krav til presisjon. Det klassiske reliabilitetsmålet Cronbach's alpha gir mål på prøvens pålitelighet og er også en indikasjon på prøvens dimensjonalitet. Høy Cronbach's alpha indikerer høy reliabilitet som viser at prøvens resultater i liten grad er et produkt av tilfeldigheter.

I prøveutviklingen skal det gjøres en IRT-analyse for hver oppgave som inngår i den endelige prøven. Informasjonsverdiene fra alle oppgavene summeres, og viser prøvens totale informasjonsverdi i tillegg til prøvens målesikkerhet over hele ferdigheten («betinget målefeil»).

En prøves informasjonsverdi og målesikkerhet for ulike deler av ferdigheten er vist i figur 3.

Figur 3 viser at prøven har høyest informasjonsverdi og størst målesikkerhet på x = 0, altså på gjennomsnittsverdien. Prøveutviklerne skal sikre at det er et tilstrekkelig antall oppgaver som også måler elevenes ferdighet øverst og nederst på ferdighetsskalaen, slik at informasjonsverdien blir så høy som mulig og måleusikkerheten så lav som mulig for alle nivåer av ferdigheten.

Prøvene skal inneholde en variasjon av ulike oppgavetyper som for eksempel flervalgsoppgaver og åpne oppgaver. Av hensyn til prøvenes reliabilitet og arbeidsbelastningen for lærerne i forbindelse med vurdering av åpne oppgaver, skal åpne oppgaver forekomme i begrenset utstrekning. Nasjonale prøver skal maksimalt inneholde 25 prosent åpne oppgaver, altså oppgaver som læreren selv må vurdere.

Krav til utprøving av oppgaver og prøver

Hver oppgave som inngår i prøvene, skal prøves ut minst en gang på en hensiktsmessig gruppe elever. Nedenfor er krav til utprøvinger beskrevet.

Før den endelige prøven blir fastsatt, skal vi fra utprøvingene ha tilstrekkelig informasjon om hvordan de enkelte oppgavene og hele prøven vil fungere i praksis. Resultatene og erfaringene fra utprøvingen(e) skal angis i den tekniske rapporten.

Det er nødvendig å sikre at utvalget av elever dekker hele ferdigheten som skal måles. IRT-modeller er «invariante» i den forstand at parameterne de leverer på vanskegrad og diskriminering ikke er avhengige av hvilken gruppe de kommer fra på samme måte som klassiske p-verdier er. Hvis prøven/oppgavene måler den ferdigheten den/de skal sikkert, blir parametrene de samme uansett hvilken gruppe prøven/oppgavene brukes på. Dette forutsetter at IRT-analysen bruker en MML-estimering (Marginal Maximal Likelihood) av parametrene.

Antall elever som prøver ut hver oppgave skal gi oss sikre nok estimater på hvordan oppgavene vil fungere i praksis. Likevel skal ikke utprøvingen være for belastende for skolene og elevene. Dersom det er mulig, bør utprøving av oppgaver skje under den reelle gjennomføringen av prøvene.

Krav til teknisk rapport

Den tekniske rapporten inngår som en del av den løpende kvalitetssikringsprosessen av arbeidet med nasjonale prøver. Teknisk rapport skal være en del av dokumentasjonsgrunnlaget for dialog mellom prøveutvikler, ekstern kvalitetssikrer og Utdanningsdirektoratet. De tekniske rapportene brukes også som kunnskapsgrunnlag inn i eventuelle evalueringer av nasjonale prøver på sikt.

Den tekniske rapporten skal beskrive og dokumentere hele prøveutviklingsprosessen. Det skal foreligge en rapport fra utprøvingen(e), som inngår som del(er) i den endelige rapporten. Prøveutvikler skal også beskrive utvalget som deltok i utprøvingen(e) og hvordan utprøvingen(e) ble gjennomført.

Den tekniske rapporten skal redegjøre for

  • Hvilke(t) analyseverktøy og hvilke metoder for parameterestimering som er brukt
  • Mål for prøvesettets reliabilitet/indre konsistens (Cronbach's alpha)
  • Oppgavers vanskegrad (b-verdier) fra en IRT-analyse, løsningsprosent totalt og for gutter og jenter separat
  • Oppgavers diskrimineringsevne, både som
    • en a-verdi fra IRT-analysen (som normalt skal være over 0,8 gitt en D-konstant=1) og
    • et klassisk diskrimineringsmål, for eksempel biserial/polyserial korrelasjon (som normalt skal være høyere en 0,3).
  • Gjennomsnittlig ferdighet (theta) for hver distraktor på flervalgsoppgaver
  • Merknader om oppgavenes innhold og relevans (validitet)
  • Eventuell DIF (Differential Item Functioning) for kjønn*
  • Oppgaveformat
  • Prøvens validitet
  • Prøvens informasjonsverdi i sin helhet
  • Prøvens «Test Response Function» sammenliknet med tidligere år

*DIF (Differential Item Functioning) for kjønn skal sjekkes for hver oppgave som inngår i prøvene. Slik skal oppgaver med kraftig skjevhet/bias eventuelt fjernes eller i alle fall dokumenteres. Hvis slike oppgaver likevel er inkludert i en prøve, skal DIF balanseres ved å ha likt antall oppgaver som favoriserer hvert kjønn. Dette krever også at disse oppgavene må ha lik vanskegrad, slik at prøven ikke får skjevheter/bias som er forskjellig avhengig av plassering på ferdighetsskalaen.

I en avsluttende del skal prøveutviklerne beskrive vurderinger og valg de har gjort underveis i prøveutviklingsprosessen, samt gi noen allmenne vurderinger av prøven og tolkninger av resultatene ved gjennomføring. I tillegg er det ønskelig å gi betraktninger om eventuelle endringer av prøven som kan synes nødvendige, samt en beskrivelse av videre framdrift i kommende prøve- og oppgaveutvikling.

Måling av utvikling over tid og ankerprøver

To eller flere prøver som er konstruert på helt samme måte, vil aldri ha nøyaktig samme vanskegrad. Derfor er det nødvendig å foreta en lenking av prøvene mellom år. Det gjøres ved å bruke ekvivaleringsmetoder som sikrer at samme tall alltid beskriver samme ferdighetsnivå. I nasjonale prøver blir dette gjort ved å bruke IRT-metodologi til å kalibrere hver oppgave i prøvene, og sette dem sammen til en prøve som beskriver ferdigheten til hver elev med en skalert skåre. Samme tall betyr samme ferdighetsnivå hver gang en ny prøve blir gjennomført. Dette er mulig å gjøre med et såkalt ankerdesign der et antall oppgaver blir gjentatt hvert år ved at hver elev får en til to ankeroppgaver som en del av prøven. Ved å bruke de samme ankeroppgavene hvert år, kan vi derfor lenke sammen prøver fra ett år til det neste.

Denne ankermetoden, der resultatene hvert år blir satt på samme skala, gjør det mulig for skoler og skoleeiere å vurdere utvikling i fordeling på mestringsnivåer og endring i gjennomsnitt over tid. Måling av utvikling over tid startet i 2014 for prøvene i regning og engelsk, og i 2016 for prøven i lesing. Fra 2022 starter målingen av utvikling over tid på nytt.

Prøveutviklerne utvikler med tanke på ankerdesignet spesielle ankeroppgaver som representerer ferdigheten så langt det er mulig. Ankeroppgavenes vanskegrad skal minimum ligge på +/- 1 standardavvik fra gjennomsnittet i ferdighet. Omtrent 20 prosent av ankeroppgavene skal byttes ut hvert år, slik at hele ankeret blir fornyet hvert femte år. Ankerdesignet til prøvene i regning og engelsk er likt. Ankeroppgavene tilsvarer omtrent 40 prosent av den totale prøvelengden for prøvene i engelsk og regning, men kun en liten del av prøven for den enkelte elev (1-2 oppgaver).

Ankerdesignet til prøvene i lesing er annerledes. I lesing bygger alle oppgavene i prøven på 5–7 forskjellige tekster. Det betyr at hvis vi bytter ut en tekst, så bytter vi ut mange oppgaver samtidig. Konsekvensen er at ankerdesignet må organiseres annerledes enn i engelsk og regning. I leseprøvene er det et integrert anker med et enkelt blokkdesign, der alle elever vil få en prøve som består av én ankertekst med tilhørende oppgaver i tillegg til et visst antall kohorttekster. Dette gir i tillegg mulighet for testing av en ny ankertekst/blokk hvert år. Dette gjør det mulig å ha samme variasjon og bredde i ankertekstene som i kohorttekstene, og å bytte ut én til to ankertekster hvert år uten å miste lenken mellom år.

Utdanningsdirektoratet skal i samarbeid med prøveutviklerne redegjøre for hvordan lenkingen av prøver mellom år fungerer i en egen teknisk rapport/notat som utarbeides etter hver gjennomføring av nasjonale prøver.

Prøvens validitet

Prøvene skal være valide. Det betyr at prøvene både skal måle de grunnleggende ferdighetene i lesing, regning og deler av faget engelsk og at de skal måle hele spennet i ferdigheten. Det innebærer først en fortolkning av læreplanverkets definisjon av de grunnleggende ferdighetene og kompetansemålene i faget engelsk, dernest at de empiriske dataene i teknisk rapport kan vise at hele ferdigheten, slik den er beskrevet i konstruktbeskrivelsene over, blir målt.

Oppgavene skal spenne fra enkle til komplekse. De skal åpne for at elever kan vise sine ferdigheter på både høyt og lavt nivå. Prøvens målinger skal ha så høy presisjon som mulig, slik at resultatene fra prøvene blir sikre på alle deler av ferdighetsskalaen.

Prøvene skal måle i tråd med prøvenes konstrukt, noe prøveutviklerne skal redegjøre for. Det innebærer at prøveutvikler overordnet for hver av oppgavene i prøven skal begrunne hva som testes, fortolkningen av læreplanen, hvordan oppgaven tester og hvilke kognitive operasjoner eleven skal foreta. Prøveutviklerne skal altså vurdere oppgavenes og hele prøvens relevans opp mot rammeverket.

Prøvene skal utfordre og motivere kjønnene likt i den grad det lar seg gjøre, både på tekst- og oppgavenivå. Det innebærer at oppgavene så langt som mulig ikke skal ha skjevhet/bias (DIF) mot gutter eller jenter, gitt den samme underliggende ferdigheten.