3 Tekniske krav til prøvene

3.1 Innledning om psykometri

Prøvene skal utformes i tråd med vanlige standarder for prøvekonstruksjon*, med bruk av egnede psykometriske metoder. Videre i rammeverket beskriver vi de overordnete metodiske kravene til prøveutviklingen.

Rammeverket forutsetter at Utdanningsdirektoratet og prøveutviklerne bruker den til enhver tid beste tilgjengelige metode for oppgave- og prøveutvikling.

Oppgaveutviklingen skal skje med klassiske mål for reliabilitet og oppgaveegenskaper, i tillegg til en IRT-basert analyse av enkeltoppgaver og prøvene i sin helhet. Rapportering av resultater og lenking av prøver mellom år skal skje gjennom bruk av IRT-skaleringsmetodologi, med skalerte skårer (skalapoeng), ankeroppgaver og faste mestringsnivågrenser fra år til år. I all rapportering skal det brukes en to-parameter IRT-modell. Videre beskriver vi hvilke krav som er satt til enkeltoppgaver, prøvene som helhet, krav til utprøvinger og til rapportering.

* For eksempel standarder slik disse er beskrevet i Standards for Educational and Psychological Testing (1999), AERA, APA, NCME

3.2 Krav til enkeltoppgaver

Det skal brukes IRT i prøveutviklingen. Det gir oss mer nøyaktig informasjon om hver oppgaves vanskegrad, diskriminering og informasjonsverdi. Resultatene fra IRT-analysen gir oss informasjon om 

  • hvor på ferdighetsskalaen hver enkelt oppgave er plassert. 
  • hvilken informasjonsverdi oppgavene har på ulike steder av ferdighetsskalaen.
  • hvor stor grad av sikkerhet målingen har, avhengig av ferdighet.

Disse tre aspektene er illustrert i figurene 1, 2 og 3 under med eksempler fra en IRT- analyse.

Figur 1 viser en oppgaves karakteristisk kurve (ICC). Dette er en oppgave som krever lav dyktighet og med middels diskriminering.

3.3 Krav til en hel prøve

Hver prøve skal oppfylle høye reliabilitetskrav (klassisk reliabilitet alpha) og krav om presisjon (IRT). Det klassiske reliabilitetsmålet alpha gir mål på prøvens pålitelighet og er også en indikasjon på prøvens dimensjonalitet. Høy reliabilitet viser at prøvens resultater ikke er et produkt av tilfeldigheter i prøvens oppgavesett.

I prøveutviklingen skal det gjøres en IRT-analyse for hver eneste oppgave som inngår i den endelige prøven. Informasjonsverdiene fra alle oppgavene summeres, og viser prøvens totale informasjonsverdi i tillegg til prøvens målesikkerhet over hele ferdigheten («conditional standard error of measurement») som vist i figur 3.

Figur 3 viser at prøven har høyest informasjonsverdi og størst målesikkerhet på x = 0, altså på gjennomsnittsverdien. Prøveutviklerne skal sikre at det er et tilstrekkelig antall oppgaver som måler elevenes ferdighet øverst og nederst på ferdighetsskalaen, altså at informasjonverdien blir så høy som mulig og måleusikkerheten så lav som mulig for alle nivåer av ferdigheten som måles. Prøveutviklerne skal sikre dette samtidig som den høye informasjonsverdien på midten av skalaen ivaretas.

Prøvene skal inneholde en variasjon av ulike oppgavetyper som for eksempel. flervalgsoppgaver og åpne oppgaver. Av hensyn til prøvenes reliabilitet og arbeidsbelastningen for lærerne i forbindelse med vurdering av åpne oppgaver, skal åpne oppgaver forekomme i begrenset utstrekning. Nasjonale prøver skal maksimalt inneholde 25 prosent åpne oppgaver, altså oppgaver som læreren må vurdere.

3.4 Krav til utprøving av oppgaver og prøver

Hver oppgave som inngår i prøvene, skal prøves ut minst en gang på en hensiktsmessig gruppe elever. De utprøvde oppgavene settes deretter sammen til hele prøver som prøves ut én gang. Nedenfor er krav til utprøvinger beskrevet. Utprøvingene skal omfatte flere oppgaver enn det den endelige prøven skal inneholde.

Resultatene av utprøvingene skal gi et så godt bilde av prøven at vi vet hvordan de enkelte oppgavene og hele prøven vil fungere i praksis. Resultatene og erfaringene fra utprøvingene skal angis i den tekniske rapporten.

Ved å bruke IRT-analyse i oppgaveutviklingen, er det ikke nødvendig å bruke representative utvalg i den tradisjonelle forståelsen av begrepet. Dette forutsetter at IRT- analysen bruker en MML-estimering (Marginal Maximal Likelihood) av parametrene. Det er likevel nødvendig å sikre at utvalgene inneholder hele ferdigheten som skal måles. IRT-modeller er «invariante» i den forstand at parametrene de leverer på vanskegrad og diskriminering ikke er avhengige av hvilken gruppe de kommer fra på samme måte som klassiske p-verdier er. Hvis prøven/oppgavene måler den ferdigheten den/de skal sikkert, blir parametrene de samme uansett hvilken gruppe prøven/oppgavene brukes på. Det er derfor anbefalt å foreta utprøvingene med en «empirisk tilnærming» ved at to adskilte grupper elever besvarer samme oppgaver hvis det er mulig (oftest mindre grupper enn vanlig). Det er forventet at fagmiljøene gjør dette på første utprøving, og ved behov gjennom hele prøveutviklingsprosessen. Hvis oppgaveparametrene er de samme i begge gruppene, selv om de har forskjellig ferdighetsfordeling, kan vi regne med at utprøvingene er vellykket og ferdig. Dersom det er forskjeller i parametrene for de to gruppene, er det fordi noe annet enn ferdigheten påvirker oppgavene eller fordi hele ferdigheten ikke var godt nok representert i utvalgene. Da er det nødvendig å legge til flere elever og/eller flere/andre oppgaver. Denne prosessen kan gjentas så mange ganger som nødvendig.

Det er ønskelig at utprøvingen av den endelige prøven gjennomføres på en måte som gjør at oppgaveparametrene kan estimeres i forkant av selve prøvegjennomføringen. Dette vil gjøre det mulig å beregne resultater til skolene og for enkeltelever automatisk og kontinuerlig gjennom hele gjennomføringsperioden, rett etter at hver prøvebesvarelse er levert. Det er ønskelig at prøveutviklerne leverer oppgaveparametrene sammen med forslag til ferdig prøve. I tillegg til det som står om utprøving ovenfor, innebærer dette at oppgavene prøves ut i det prøvesettet og i den rekkefølgen de er tenkt å være i ved den endelige prøvegjennomføringen.

3.5 Krav til teknisk rapport

Den tekniske rapporten inngår som en del av den løpende kvalitetssikringsprosessen av arbeidet med nasjonale prøver. Teknisk rapport skal være en del av dokumentasjonsgrunnlaget for dialog mellom prøveutformer, ekstern kvalitetssikrer og Utdanningsdirektoratet. De tekniske rapportene vil også kunne utgjøre et grunnlag for eventuelle evalueringer av arbeidet med nasjonale prøver på sikt.

Den tekniske rapporten skal inneholde data fra klassisk item-analyse i form av p-verdi og mål på diskriminering (for eksempel biserial/ polyserial korrelasjon), samt mål for reliabilitet/indre konsistens (alpha) og en beskrivelse av prøvens konstruktvaliditet. I tillegg skal den tekniske rapporten rapportere parametrene fra IRT-analysen og mål på
«item fit» (hvor godt oppgaven stemmer med den teoretiske modellen) for hver oppgave og «model fit» for prøven i sin helhet. Den tekniske rapporten skal beskrive og dokumentere hele prøveutviklingsprosessen fra første utprøving til endelig prøve. Det skal foreligge en delrapport fra hver utprøving, som inngår som deler i den endelige rapporten. Prøveutvikler skal også beskrive utvalget som deltok i hver utprøving og hvordan utprøvingen ble gjennomført.

Den tekniske rapporten skal også redegjøre for

  • oppgavers vanskegrad i b-verdier fra en IRT-analyse, p-verdier totalt og p-verdier for de to kjønnene separat.
  • oppgavers diskrimineringsevne, både som en a-verdi fra en 2PL IRT-analyse (med en normal konstant) og via en klassisk diskrimineringsmål (som i normaltilfellet skal være høyere en 0,3).
  • DIF (Differential Item Functioning) for kjønn skal sjekkes for hver oppgave som inngår i prøvene. Slik skal oppgaver med kraftig «bias» eventuelt fjernes eller i alle fall dokumenteres. Hvis slike oppgaver likevel er inkludert i en prøve, skal DIF balanseres ved å ha likt antall oppgaver som favoriserer hvert kjønn. Dette krever også at disse oppgavene må ha lik vanskegrad, slik at prøven ikke får skjevheter/bias som er forskjellig avhengig av plassering på ferdighetsskalaen.
  • merknader om oppgavenes relevans (validitet).
  • merknader om relevans for prøven som helhet (validitet).
  • prøvens informasjonsverdi i sin helhet.
  • prøvens «Test Response Function» sammenliknet med tidligere år.
  • gjennomsnittlig ferdighet for hver distraktor på flervalgsoppgaver.

I tillegg til punktene over, skal den tekniske rapporten inkludere en egen kolonne for merknader om de enkelte oppgavene og med særskilte merknader om valg av innhold. Rapporten skal også inkludere en kolonne for omtale av valg av oppgaveformat.

I en avsluttende del skal prøveutviklerne beskrive vurderinger og valg de har gjort underveis i prøveutviklingsprosessen, samt gi noen allmenne vurderinger av prøven og tolkninger av resultatene (ved gjennomføring). I tillegg er det ønskelig å gi betraktninger om eventuelle endringer av prøven som kan synes nødvendige, anbefalinger om endringer basert på resultatene, samt en beskrivelse av videre framdrift i kommende prøve- og oppgaveutvikling.

3.6 Måling av utvikling over tid og ankerprøver

To eller flere prøver som er konstruert på helt samme måte, vil aldri ha nøyaktig samme vanskegrad. Derfor er det nødvendig å foreta en lenking av prøvene mellom år. Det gjøres ved å bruke ekvivaleringsmetoder som sikrer at samme tall alltid beskriver samme ferdighet. I nasjonale prøver blir dette gjort ved å bruke en IRT-analyse til å kalibrere hver oppgave i prøvene, og sette dem sammen til en prøve som beskriver ferdigheten til hver elev med en skalert skåre. Samme tall betyr samme ferdighet hver gang en ny prøve blir gjennomført. Dette er mulig å gjøre med et såkalt ankerdesign der et antall oppgaver blir gjentatt hvert år i en begrenset gruppe tilfeldig valgte elever (6 prosent). Ved å bruke disse ankeroppgavene, kan vi derfor lenke sammen prøver fra ett år til det neste. Det ankerdesignet som er brukt, er et såkalt NEAT («Non-Equivalent groups with Anchor Test») design.

Prøveutviklerne utvikler med tanke på ankerdesignet, spesielle ankeroppgaver som representerer hele ferdigheten så lang det er mulig. Ankeroppgavene skal minimum ligge på +/-1 standardavvik fra gjennomsnittet i ferdighet. Omtrent 20 prosent av ankeroppgavene skal byttes ut hvert år, slik at hele ankeret blir fornyet hvert femte år. Ankerdesignet til prøvene i regning og engelsk er likt. Ankeroppgavene tilsvarer omtrent 40 prosent av den totale prøvelengden.

Ankerdesignet til prøvene i lesing er bygget opp annerledes. I lesing bygger alle oppgavene i prøven på 5 – 7 forskjellige tekster. Det betyr at hvis vi bytter ut en tekst, så bytter vi ut mange oppgaver samtidig. Konsekvensen er at ankersettene må organiseres annerledes enn i engelsk og regning. I leseprøvene er det et integrert anker med et enkelt blokkdesign, der to tekster i hver prøve er fra ankeret, rotert slik at det blir fire ulike ankersett i tillegg til ett kohortsett. Da vil prøven for en elev som tar ankeroppgaver bestå av fem kohorttekster og to ankertekster.* Dette gir i tillegg mulighet for testing av en ny ankertekst/blokk hvert år. Dette gjør det mulig å ha samme variasjon og bredde i ankerprøven som i kohortprøven, og å bytte ut én til to ankertekster hvert år uten å miste lenken mellom år.

Denne ankermetoden, der resultatene hvert år blir satt på samme skala, gjør det mulig for skoler og skoleeiere å vurdere utvikling over tid i resultatene på de ulike prøvene ved å sammenlikne endring i fordeling på mestringsnivåer og endring i gjennomsnitt. Måling av utvikling over tid startet for prøvene i regning og engelsk i 2014. Måling av utvikling over tid i lesing vil starte i 2016, når leseprøvene er implementert som elektroniske prøver.

Utdanningsdirektoratet skal i samarbeid med prøveutviklerne redegjøre for hvordan lenkingen av prøver mellom år fungerer i en egen teknisk rapport/notat som utarbeides etter hver gjennomføring av nasjonale prøver.

* For 5. trinn vil omfanget av tekster være noe mindre, antakelig fem ordinære tekster og fem ankertekster, slik at en elev gjennomfører én prøve med tre tekster fra den ordinære prøven og to ankertekster.

3.7 Prøvens validitet

Prøven skal være valide. Det betyr at prøvene både skal måle de grunnleggende ferdighetene i lesing, regning og deler av faget engelsk og at de skal måle hele spennet i ferdigheten. Det innebærer først en fortolkning av læreplanverkets definisjon av de grunnleggende ferdighetene og kompetansemålene i faget engelsk, dernest at de empiriske dataene i teknisk rapport kan vise at hele ferdigheten, slik den er beskrevet i konstruktbeskrivelsene over, blir målt.

Oppgavene skal spenne fra enkle til komplekse. De skal åpne for at elever kan vise sine ferdigheter på både høyt og lavt nivå. Prøvens målinger skal ha så høy presisjon som mulig, slik at resultatene fra prøvene blir sikre på alle deler av ferdighetsskalaen. Ideelt tester prøven likt i alle deler av skalaen. Det innebærer like mange oppgaver innenfor alle mestringsnivå.

Prøvene skal måle i tråd med prøvenes konstrukt, noe prøveutviklerne skal redegjøre for. Det innebærer at prøveutvikler overordnet for hver av oppgavene i prøven skal begrunne hva som testes, fortolkningen av læreplanen, hvordan oppgaven tester og hvilke kognitive operasjoner eleven skal foreta. Prøveutviklerne skal altså vurdere oppgavenes og hele prøvens relevans opp mot rammeverket.

Prøvene skal utfordre og motivere kjønnene likt i den grad det lar seg gjøre, både på
tekst- og oppgavenivå. Det innebærer at oppgavene så langt mulig ikke skal inneholde et bias mot et av kjønnene, gitt at elevene har samme ferdighet.

Fant du det du lette etter?

0/250
0/250

Tusen takk for hjelpen!