Psykometri.

Hvordan måles egentilig intelligens? I denne artikkelen skal vi forklare statistikken bak IQ-testen.

For at testen skal gi nyttig informasjon, må vi først normere den. Dette innebærer at vi samler inn data fra en normgruppe og analyserer data for å finne ut hva som er gjennomsnitt, og hva som er høye og lave skårer. Målet med normeringen er for det første å sjekke om testen holder mål og for det andre å gi oss noen å sammenligne klienten med. Poenget med psykologisk måling er at vi rangerer testtakeren opp mot barn som hun eller han kan sammenlignes med.

I de følgende avsnittene skal vi gå gjennom de statistiske forutsetningene som kreves for å konstruere en test som gir valide skårer. La oss begynne med å lage en test som vi simpelthen kaller IQ-testen.

IQ-testen

IQ-testen består av 20 oppgaver og skal måle testtakers logiske evner. Vi har en antakelse om at de som har gode logiske evner, også vil ha gode forutsetninger for læring og problemløsning. Dersom testen vår måler logiske evner, vil de som skårer høyt, ha bedre forutsetninger for læring og problemløsning enn de som skårer lavt. Men hva er en høy, og hva er en lav skår? La oss si at vi tester Ole, og han får 14 av 20 poeng. Vi vet fortsatt ikke om dette er en høy eller lav skår. For at vi skal finne ut av dette, normerer vi testen.

Normer

Når vi normerer testen, prøver vi den ut på en gruppe mennesker, og deretter tar vi utgangspunkt i hva som er gjennomsnittlig skår. Vi tester ti personer, og de får følgende skårer (i stigende rekkefølge):

4, 5, 7, 9, 10, 10, 11, 13, 15 og 16.

Gjennomsnitt

For at vi kan regne ut gjennomsnittet, summerer vi skårene og deler på antall personer i normgruppen. Gjennomsnittet blir da:

(4 + 5 + 7 + 9 + 10 + 10 + 11 + 13 + 15 + 16) / 10 = 10

Vi vet nå at Ole skårer over gjennomsnittet, men vi vet ennå ikke hvor mye. Det kunne for eksempel være at oppgavene som lå over gjennomsnittet og under 15, altså oppgave 11–14, hadde lik vanskelighetsgrad, og at de som klarte oppgave 11, også ville klare de neste tre oppgavene. Dermed ville en skår på 14 i prinsippet bare være litt over gjennomsnitt. Det vi her snakker om, er spredningen i resultater. Dersom skårene i normgruppen har stor spredning, vil det si at det er stor variasjon. Dersom spredningen er lav, er det liten variasjon. For at vi kan finne ut noe om hvor langt over gjennomsnittet en skår på 14 poeng er, må vi derfor regne ut standardavviket.

Standardavvik

Standardavviket ble introdusert av Francis Galton, som vi omtalte i kapittel 1, og gir et mål på skårens avstand fra gjennomsnittet. Det er definert som kvadratroten av variansen.

Det første vi gjør, er å regne ut gjennomsnittet, og dette har, som vi viste ovenfor, en verdi på 10.

I neste del av formelen regner vi ut det gjennomsnittlige avviket fra gjennomsnittet for hver enkelt skår. En skår på 14 poeng, for eksempel, ligger 4 poeng fra gjennomsnittet, det samme gjør en skår på 6 poeng. Først må vi identifisere hvert enkelt avvik:

Deretter summerer vi avvikene og deler på antall testtakere. Det gjennomsnittlige avviket blir da 3 poeng:

(6 + 5 + 3 + 1 + 0 + 0 + 1 + 3 + 5 + 6) / 10 = 3

Til slutt regner vi kvadratroten av det gjennomsnittlige avviket:

√3 = 1,732

For at vi skal kunne gjøre ting enklere for oss selv, runder vi 1,732 av til 2.

Vi sier derfor at standardavviket i IQ-testen er på 2.

Standardavviket forteller oss hva som er vesentlig over og under gjennomsnitt. Et standardavvik på 2, betyr at Oles skåre på 14 befinner seg to standardavvik over gjennomsnittet, og det regnes for å være en svært høy skår. Dette ser vi tydelig når vi ser på standardavvikets persentilverdi.

Skårens persentilverdi

Skårens persentilverdi forteller hvor stor del av normgruppen som har lavere verdi enn den aktuelle skåren. Når en person havner på 50. persentil, betyr det at 50 % skårer lavere. En som skårer på 98. persentil, skårer bedre enn 98 % av normgruppen, og befinner seg altså blant «de 2 % beste», som mange velger å uttrykke det.

IQ-skår, persentilverdi og standardavvik

IQ-skår, persentilverdi og standardavvik er tre måter å uttrykke det samme på, nemlig hvor testtakeren befinner seg i forhold til gjennomsnittet, og de tre verdiene vil alltid korrespondere. Tabellen under illustrerer dette:

Som vi ser, ligger en IQ-skår på 100 på gjennomsnittet, og den tilsvarer 50. persentil. En IQ skår på 70 ligger to standardavvik under gjennomsnittet og tilsvarer ca. 2. persentil. Den som skårer på 2. persentil, vil da befinne seg blant de 2 % svakeste i normgruppen.

Dersom en elev får en IQ skår på 85, betyr det at han eller hun tilsvarende de 16 % med lavest skåre i normgruppen. Dersom denne personen var skoleelev og gikk i en klasse med 20 elever, forventer vi at denne eleven er blant de tre svakeste elevene (dette er selvsagt en hypotetisk forventning siden det neppe finnes en skoleklasse med 20 elever som utgjør et representativt utvalg av befolkningen i tillegg til at det ikke er en perfekt sammenheng mellom IQ og skoleprestasjoner). Grunnen til at standardavvik og persentiler alltid korresponderer, er at de fleste psykologiske egenskaper som for eksempel evner og personlighet, antas å være normalfordelte.

Normalfordeling

Vi har tidligere snakket om at det er en viss varians i egenskaper som intelligens og personlighet. Noen mennesker er for eksempel svært utadvendte, mens andre trives best i eget selskap og karakteriseres som innadvendte. De fleste av oss er imidlertid middels utadvendte og middels intelligente. Det interessante med denne typen egenskaper er at når man tester store grupper, viser det seg at de fordeler seg etter et visst mønster. Det er like mange som skårer over som under gjennomsnittet, og ca. 68 % havner innenfor 1 standardavvik fra (over eller under) gjennomsnittet, mens ca. 96 % havner innenfor to standardavvik fra gjennomsnittet. Normalfordelte skårer opptrer symmetrisk rundt gjennomsnittet, og standardavvikene korresponderer som nevnt ovenfor med persentilverdier. Den samme typen fordeling finner vi for de fleste tilfeldige fordelinger i naturen. Menneskers høyde og vekt er eksempler på andre egenskaper som er normalfordelte. Når vi fremstiller normalfordelingskurven grafisk, får den en klokkeform, slik som vist i figur 2.

 

 

Figur 2. Illustrasjon av normalfordelingen.

Figuren viser også hvor mange som skårer innenfor hvert standardavvik. Ole som vi testet med IQ-testen, skåret to standardavvik over gjennomsnittet. Vi ser av figuren at det bare er litt mer enn 2 prosent som har like høy eller høyere skår. Når vi vet dette, kan vi gjøre en foreløpig tolkning av Oles resultat. Typisk for barn som skårer tilsvarende, er at de ofte er den flinkeste i en vanlig skoleklasse, og vi forventer at Ole befinner seg blant flinkeste elevene. Vi antar at han lærer raskere enn medelevene, og at han kan gjøre bruk av den kunnskapen han har, på en mer fleksibel måte enn sine medelever. (Denne forventningen er selvsagt hypotetisk. Det er et utall andre faktorer som påvirker skoleresultater, som for eksempel konsentrasjon, selvdisiplin, hjemmemiljø osv.) Forutsetningen for at vi kan trekke denne slutningen, er imidlertid at det faktisk er Oles intelligens som har påvirket testskåren, og ikke for eksempel hans personlighet. Dette berører testskårenes validitet.

Validitet

Dersom vi kan trekke gyldige slutninger basert på testskårene, sier vi at skårene er valide. Vi definerer ofte validitet som at testen måler det den er ment å måle. Skal vi måle hvor høy en person er, er det avgjørende at vi bruker en skala som faktisk måler høyde, og ikke vekt. Når vi måler IQ, er det viktig at vi bruker en skala som er sensitiv for nettopp denne egenskapen. Det er viktig å presisere at validiteten ligger i tolkningen, og teksttolkningen kan formuleres med følgende spørsmål: Hva sier testskåren om hvordan personen fungerer utenfor testrommet?

Dersom testresultatet sier noe meningsfullt om hvordan personen fungerer utenfor testrommet, kan vi si at testresultatet er valid. En utbredt oppfatning er at en test har validitet, eller at den er mer eller mindre valid. Dette er en misoppfatning. Det er ikke testen som er mer eller mindre valid, men testskårene. En test kan gi valide skårer på et tidspunkt, men ikke på et annet. Skårene kan også gi valide skårer for et formål eller en gruppe, men ikke et annet formål eller en annen gruppe. Da WISC-r ble normert i Norge i 1970, var normgrunnlaget godt, og man kunne trekke gyldige slutninger om de personene som ble testet. Da testen fortsatt var i bruk 30 år senere, ga den mindre valide resultater fordi oppgaver og normgruppe ikke lenger var like relevante.

Når testen gir valide skårer, kan vi trekke slutninger basert på testresultatene. Disse slutningene er i praksis beskrivelser av hva som er typisk for dem som skårer tilsvarende, som igjen gir oss forventninger til den aktuelle testtakeren. Her ligger selve prinsippet i tolkningen. Når vi leser en testskår, sammenligner vi testtakeren med en person som skårer i samme område, og vi beskriver hva som vil være typisk for denne personen. Eksempel: Per skårer 70 på WISC-V, noe som tilsvarer 2. persentil. Dette gir oss følgende slutning:

Typisk for testtakere som skårer i dette området, er at de kan ha vansker med lære og generalisere kunnskap. De vil ofte bruke lengre tid enn gjennomsnittet til å tilpasse seg endringer i oppgaver og vil som regel bruke lengre tid til å tilegne seg kunnskap enn gjennomsnittet. De vil ofte kreve ekstra oppfølging både på skole og i arbeidsliv.

 

Lisa skårer 100 på WISC-V. Typisk for testtakere som skårer i dette området, er at de skal kunne tilegne seg normale ferdigheter innenfor de fleste livsområder dersom øvrige funksjoner er intakte. Det antas at det ikke er evnenivå som forklarer vanskene i problembeskrivelsen

Hvordan vet vi om testen gir valide skårer?

En test som for eksempel WISC-V har omfattende dokumentasjon, og gjennom standardiseringen av testen har man gjort undersøkelser for å påvise at testen gir valide skårer. I prinsippet handler validitet om at vi skal kunne gjøre prediksjoner på bakgrunn av testskårene, og dermed vil mange hevde at prediktiv validitet er den eneste formen for validitet. Problemet er at det er ressurskrevende å undersøke prediksjoner, og dermed har man funnet andre måter å undersøke validitet på, og de ulike valideringsmetodene gjør at vi ofte snakker om ulike former for validitet. Nedenfor skal vi nevne noen av de mest vanlige.

Samtidig validitet

Den vanligste valideringen av en test som WISC-V er samtidig validitet. Dette innebærer at man tester samme person med flere tester, den nye versjonen, samt en test som alt er validert. Hvis WISC-V korrelerer med resultatet på andre evnetester, er dette en indikasjon på at den gir valide skårer.

En annen måte å validere testen på er å teste personer som vi kjenner på forhånd. Man tester for eksempel en gruppe som har en PU-diagnose, en gruppe som har språkvansker, en gruppe som har spesifikke vansker, osv. Dersom testtakere i disse gruppene skårer som forventet, er dette en indikasjon om validitet. Dette kalles kriterievaliditet fordi vi undersøker om testresultatet korrelerer med et bestemt kriterium, som i dette tilfellet kan være diagnostiske grupper.

Prediktiv validitet

Den beste, men også mest ressurskrevende metoden, er å teste en gruppe personer og gjøre prediksjoner om disse personene, for eksempel om hvordan de har det om fem år. Dersom prediksjonene er korrekte, kan vi si at testskårene har prediktiv validitet. Vi vet fra longitudinelle studier at IQ-skårer har relativt god prediktiv validitet når det gjelder både utdanningsnivå og prestasjoner i arbeidsliv.[1]

Begrepsvaliditet

Den mest grunnleggende formen for validitet er begrepsvaliditet. Det betyr at vi må vite hvilke begreper vi måler, og ikke minst hva disse begrepene betyr: Vi må med andre ord kunne definere de egenskapene vi måler. Når vi for eksempel måler egenskaper fra CHC-teorien, blir tolkning av resultatet en direkte følge av definisjonene av begrepene i denne teorien, og tolkningen skal i utgangspunktet ikke avvike fra begrepet vi har beskrevet.

Tolkningen er ikke en beskrivelse av testtakeren, men den typiske personen som vi kan sammenligne testtakeren med. Dette er viktig fordi det presiserer at testen har svakheter og målefeil, og at det er en viss usikkerhet i målingen. Testen har nemlig ikke perfekt reliabilitet.

Reliabilitet

Reliabiliteten indikerer hvor stabile skårene er. Når man for eksempel tester en person på ulike tidspunkter, ønsker man at personen skal skåre noenlunde det samme (iallfall hvis vi antar at intelligens er en stabil egenskap). Den beste formen for reliabilitet er såkalt test-retest-reliabilitet. Det vil si at vi tester personen på to ulike tidspunkter og måler korrelasjonen mellom de to skårene. Dette er imidlertid problematisk når det gjelder WISC-V, fordi vi kan regne med at testtakeren vil gjøre det bedre ved andre gangs testing. Når vi er redd for at retest effekter skal ødelegge resultatet, bruker vi ofte en annen form for reliabilitet der vi sammenligner de ulike testleddene, og ved høy reliabilitet skal det være høy korrelasjon mellom testledd som har samme vanskelighetsgrad.

For at testskåren skal ha høy reliabilitet, er det viktig at den ikke påvirkes av tilfeldigheter. Derfor er det viktig at administrasjonen er standardisert, at vi legger til rette for at testtakeren skal gjøre sitt beste, at vi eliminerer forstyrrende elementer, og lignende. I tillegg er det viktig at testen har nok testledd. Dersom det er få ledd, vil testen bli lite robust mot tilfeldige feil. Vi ser dette tydelig i WISC-V ved at det er de aggregerte skårene som har høyest reliabilitet, mens deltestskårene har noe lavere reliabilitet. Det er selvsagt også viktig at testen består av oppgaver som produserer samme skår hver gang man tester.

Dersom testen har for lav reliabilitet, betyr det i praksis at vi ikke kan stole på resultatet. Lav reliabilitet er en av grunnene til at man fjernet deltesten labyrinter fra Wæhler-skalaene. Mange opplevde at skåren på labyrinter ofte avvek sterkt fra de andre skårene. Dette var et utslag av at skåren var påvirket av tilfeldigheter, og dermed ga den ikke reliabel informasjon om testtakeren.

Når vi skal uttrykke størrelsen på reliabiliteten, bruker vi en korrelasjonskoeffisient, men hva er nå egentlig det?

Korrelasjon – å forklare en sammenheng

Korrelasjon er ett av de mest brukte begrepene innenfor vårt fag, men vi har ofte en tendens til å glemme hva det egentlig er. Sammenheng, samvariasjon, sammenhengen mellom to variabler osv. er noen vanlige beskrivelser. Korrelasjonen uttrykkes med et tall mellom –1 og 1. Null betyr ingen samvariasjon, mens de to ytterpunktene illustrerer en perfekt positiv eller negativ sammenheng. Tjener du 100 kroner timen, vil det være en perfekt positiv sammenheng mellom de to variablene inntekt og arbeidstimer, altså en korrelasjon på 1.

Denne kan illustreres med følgende diagram:

figur 2

Y-akse = timelønn, X-akse = arbeidstimer

Figur 3 Forholdet mellom lønn og arbeidstimer ved timelønn.

Vi ser av figur 3 at lønn og arbeidstimer øker proporsjonalt, og at de i diagrammet utgjør en rett linje. Det betyr at når vi kjenner den ene variabelen, lønn eller arbeidstimer, kan vi med 100 % treffsikkerhet predikere den andre variabelen, arbeidstimer eller lønn. Hvis lønnstakeren i stedet jobbet akkord, ville det fortsatt være en sammenheng mellom lønn og arbeidstimer, men sammenhengen ville vært lavere, la oss si 0,7. Når vi viser dette i et diagram, vil vi se at vi ikke får en rett linje, men at de ulike verdiene fordeler seg i en ellipseform.

figur 3

Jo lavere korrelasjonen er, desto mer vil avvike fra en rett linje. Figur 3 ovenfor viser hvordan spredningsdiagrammet ser ut ved ulike korrelasjoner.

Korrelasjonskoeffisienten, som altså gir et mål på samvariasjon mellom to variabler, sier hvor mange standardavvik over gjennomsnittet de fleste befinner seg på en variabel, la oss si Y, når de er ett standardavvik over gjennomsnitt på X-variabelen. Når for eksempel korrelasjonen mellom lønn og arbeidstimer er på 0,7, vil de som øker arbeidstimene med ett standardavvik, få en gjennomsnittlig lønnsøkning på 0,7 standardavvik. Vi kan illustrere dette med et mer relevant eksempel, nemlig forholdet mellom IQ og skolekarakterer.

IQ og Skolekarakterer

La oss anta at det er en korrelasjon på 0,5 mellom IQ og skolekarakterer. Vi lager følgende hypotetiske eksempel:

Gjennomsnittlig skolekarakterer = 3. Standardavvik = 2. Elever som har 5 i karakter, befinner seg dermed ett standardavvik over karaktergjennomsnittet. Disse vil ha en IQ som er 0,5 standardavvik over gjennomsnittet, altså en gjennomsnittlig IQ på 107,5. Elever som har 115 i IQ, vil ha en gjennomsnittskarakter som ligger 0,5 standardavvik over gjennomsnittet, altså en gjennomsnittskarakter på 4.

Dette kan ved første øyekast virke paradoksalt, fordi det synes som om de med 115 i IQ har lavere karaktergjennomsnitt enn de med IQ 107,5. Dette er imidlertid en feilslutning. Blant de som har 5 i karakter vil vi se en variasjon i IQ som kanskje spenner fra 100–130. Vi forutsetter altså variasjon i den ene variabelen (IQ), men ikke den andre (karakterer). Når vi snur på det, forutsetter vi variasjon i karakterer, men ikke i IQ. De som har IQ 115, har kanskje karakterer som spenner fra 1–6, men snittkarakteren vil være 4.

Årsaken er at de to variablene varierer relativt i forhold til hverandre. I prinsippet blir det heller ikke riktig å fremstille dette slik, og i stedet kan vi fremstille dette forholdet i en graf.

Figur 6 korrelasjon mellom skolekarakterer og IQ

 

Det vi er interessert i, er imidlertid ikke korrelasjonskoeffisienten, men den forklarte variansen mellom de to variablene. Denne variansen finner vi ved å se på hvor mye av variansen i de to variablene som overlapper. Vi illustrerer dette i figur 7:

Figur 7

De fire rutene i figuren illustrerer all variansen mellom skolekarakterer og IQ. Som vi ser, endres den ene variabelen med et halvt standardavvik når den andre endrer seg med ett standardavvik. Det betyr at variansen overlapper i en av rutene, og en av fire ruter utgjør 25 % av all variansen. Vi kaller disse 25 % for forklart varians. En korrelasjon på 0,5 gir altså en forklart varians på 25 %. Den enkleste måten å finne den forklarte variansen på er å opphøye korrelasjonen i andre slik: 0,5² = 0,25, og tallet 0,25 står i denne sammenhengen for 25 %.

Korrelasjonskoeffisenten brukes for å beskrive samvariasjon mellom ulike variabler. I psykologisk testing brukes den for å beskrive både validitet og reliabilitet. Når reliabiliteten er begrenset, må vi også ta for gitt at de fleste skårer er forbundet med målefeil, og altså ikke helt korrekte. Skårene oppgis derfor med et konfidensintervall.

Konfidensintervall

Hvis man går til legen med brukket fot og legen gipser og sier at bruddet er grodd innen 74 dager, er det veldig informativt. Jeg vet nøyaktig når jeg kan bruke foten, men samtidig vet jeg at det er stor sjanse for at det er feil. Legen sier heller at det kan ta mellom ni og ti uker. Da er prediksjonen både sikker og informativ. Når legen sier mellom ni og ti uker, oppgir han i praksis rekonvalesenstiden i et konfidensintervall.

I psykologisk testing er konfidensintervallet det området hvor man med stor sikkerhet antar at den sanne skåren befinner seg. Hvis vi har testet en person som får en IQ-skår på 100, og vi sier at den sanne skåren med 95 % sikkerhet befinner seg mellom 95 og 105, illustrerer dette konfidensintervallet.

Vi bruker konfidensintervall i mange sammenhenger, og det som kjennetegner et konfidensintervall, er at det blir mer usikkert desto mer informativt det er. Hvis man sier at neste år blir renten på 3,765 %, er dette svært informativ, men høyst usikkert. Hvis man oppgir et bredt intervall og sier at renten blir mellom 0 og 20 %, er dette svært sikkert, men har ingen informasjonsverdi.

Restesting og målefeil

Mange spør om hvor ofte man skal reteste, og om man i det hele tatt skal reteste. Dersom man retester et barn med WISC-V, er det viktig å ha med seg at testen inneholder målefeil, og at en forbedring i skår ikke nødvendigvis betyr at barnet er blitt mer intelligent, men at det kan ha å gjøre med målefeil. I prinsippet skulle det ikke være nødvendig å reteste. Dersom et barn blir testet i en viss alder og man på bakgrunn av testskårer gir barnet tiltak når det gjelder undervisningen, har det liten mening å reteste barnet tre år senere for å finne ut om det har fått høyere intelligens. Husk at IQ-skåren representerer en rang i forhold til normgruppen. Hvis en person går fra 80 til 90, for eksempel, så må noen som hadde 90 i IQ, ha falt ned mot 80. En skal ikke avvise retesting, og det kan selvsagt være tilfeller der det kan være aktuelt, særlig hvis barnet har vært testet i svært ung alder eller var lite testbar første gang. Ofte er imidlertid kravet om retesting mer et ritual enn et faglig begrunnet krav. Den beste måten å måle fremgang på er å undersøke om tiltakene virker. Såkalte achievement-tester vil være mer egnet i denne sammenhengen. Dersom man ønsker å reteste, er det viktig å vite at dersom barnet hadde ekstremskårer første gang, er det stor sjanse for at skårene ligger nærmere gjennomsnittet denne gangen. Målefeilen er nemlig ikke den samme for alle skårer. Ekstremskårer, skårer i ytterkantene, har større målefeil enn skårer som ligger rundt gjennomsnittet. Dette forklarer vi med det fenomenet som kalles regresjon mot gjennomsnittet. Fordi det er flere forekomster rundt gjennomsnittet, er det alltid mest sannsynlig at et valgt tilfelle ligger nær gjennomsnittet. Forekomster som er ekstreme, er som regel ikke representative.

Hvor reliabel og hvor valid?

Når du sjekker hvilke reliabilitetsmål testleverandøren kan skilte med, bør du ha følgende utgangspunkt: Reliabilitetskoeffisienten er en korrelasjon, og som vi vet, måler korrelasjon sammenhengen eller den felles variansen mellom to variabler. Den felles variansen finner vi ved å multiplisere koeffisienten med seg selv. Når reliabiliteten for eksempel er ,7, vet vi at felles varians er 49 %. Hvis korrelasjonen er mindre enn dette, betyr det at to ledd som skal måle det samme, har mindre enn 50 % felles varians. Vi regner derfor ofte ,7 for å være minste akseptable reliabilitetskoeffisient.

Når det gjelder validitet, stiller saken seg annerledes. Det vi er opptatt av, er nemlig at testen skal bidra til å øke sikkerhet rundt en utredning. Hvis testen gir relevant informasjon om barnet og den bidrar til å redusere usikkerhet, er den tilstrekkelig valid. Poenget er at psykologiske tester ofte har validitetskoeffisienter ned mot ,2, der sammenhengen mellom kriterium og testresultat bare er på 4 % og i beste fall en validitet på ,7 (49 % sammenheng). Det kan synes meningsløst å administrere en test som bare har 4 % forklart varians for den egenskapen vi vil måle. Vi skal se på validitet i en hypotesetestingssammenheng for å vise nytteverdien.

Hypotesetesting

Problemet med målefeil får også konsekvenser for hypotesetesting. Tenk deg at du har en testprofil som er typisk for barn med ADHD. La oss si at denne profilen ser ut som følger:

GEI > CPI og FRI > VFI

Dette betyr følgende:

GEI er skåren som utgjøres av perseptuell resonneringsindeks og verbal forståelsesindeks, altså en evneskår uten at man tar med de eksekutive funksjonene arbeidsminne og prosesseringshastighet. BPI (basal prosessering) er en samleskår på eksekutive funksjoner. GEI > BPI betyr altså at eleven er sterkere på oppgaver som ikke involverer de eksekutive funksjonene.

FRI > VFI

Eleven skårer høyere på perseptuell resonneringsindeks enn på verbal forståelsesinndeks.

Profilen er rimelig å tenke seg fordi oppmerksomhetsvansker indikerer nettopp lav mental effektivitet (BPI), og oppmerksomhetsvansker indikerer at man har redusert skår på oppgaver som måler krystallisert intelligens (VFI) fordi den som har oppmerksomhetsvansker, har vansker med å nyttiggjøre seg stimulering.

Du får en person inn på ditt kontor, og dette barnet får en slik profil, hva er sjansen for at barnet har ADHD? For at du skal kunne ta stilling til dette, må du vite hvor mange ADHD-ere som får tilsvarende profil (hitrate), hvor mange som ikke har ADHD som får tilsvarende profil (falske positive), og hvor mange som har ADHD (prevalens). Vi lager følgende hypotetiske oversikt:

Hitrate: 80 % av ADHD-ere får en tilsvarende profil.

Falske positive: 10 % av barn som ikke har ADHD, får en tilsvarende profil.

Prevalens: 4 % av alle barn har ADHD.

Gitt disse tallene kan vi nå ta stilling til hvor stor sjanse det er for at barnet har ADHD, og vi skal snart se at denne sannsynligheten ikke er så stor som en skulle tro. For at vi skal gjøre eksempelet mer konkret, skal vi presentere de ulike tallene som frekvenser. Vi får da følgende tall:

1000 barn totalt

40 ADHD-barn

32 ADHD-barn får en ADHD-profil (80 % av 40 barn)

960 barn har ikke ADHD

96 barn som ikke har ADHD, får en ADHD-profil (disse er falske positive 10 % av 960)

Vi har nå til sammen 128 ADHD-profiler (32 korrekte identifikasjoner og 96 falske positive), men bare 32 av disse profilene tilhører et barn som har ADHD.

Det betyr at det er langt mindre sjanse for at et barn med ADHD-profil har ADHD enn at det ikke har ADHD. Dette kan forklares ved at prevalensen ((forekomsten) som er 4 %), er lavere en andelen falske positive som er på 10 %. Du vil med andre ord alltid få et antall falske postitive som er høyere enn antallet faktiske tilfeller. Dette gjelder ikke bare innenfor psykologisk testing, men for de fleste diagnostiske metoder, innenfor både psykologi og medisin. Vi kan imidlertid håndtere dette problemet på en enkel måte.

Informasjon med ulike feilkilder

Dersom vi gjør en utredning når vi samler forskjellige typer informasjon som har ulike feilkilder, og hvis informasjonen trekker i samme retning, reduserer vi antallet falske positive, og dermed styrker vi hypotesen.

Årsaken ligger i at selv om en av informasjonskildene gir et «falsk positivt» resultat, er det lite sannsynlig at flere ulike resultater fra ulike metoder har samme feilkilde. I eksempelet ovenfor ville en for eksempel kunne administrere ytterligere tester, spesifikt rettet inn mot oppmerksomhet, sjekklister for oppmerksomhetsvansker, strukturerte intervjuer av personer i barnets omgivelser. Hvis alle disse informasjonskildene gir informasjon som peker i samme retning, har vi styrket hypotesen.

Når vi validerer testprofilen i WISC-V, bruker vi samme prinsipp. Vi kan for eksempel si at deltesten informasjon gir oss en hypotese om barnets verbale forståelse. Men resultatet på en enkelt deltest kan skyldes andre faktorer, for eksempel grad av stimulering, interesseområder, hukommelse osv. Derfor lar vi også barnet gjennomgå ytterligere to deltester ordforståelse og likheter. Dersom de tre deltestene gir tilnærmet like resultater, kan vi konkludere med at vi har et relativt valid mål på VFI, det vil si at vi med stor sikkerhet kan trekke slutninger om barnets verbale ferdigheter. I motsatt fall – for eksempel hvis ordforståelse gir en skår som faller betydelig under gjennomsnitt, og likhet er en skår som havner langt over gjennomsnittet –vil vi måtte anta at de to deltestene måler ulike funksjoner hos barnet, og skåren på VFI lar oss ikke trekke de samme slutningene.

Poenget er at skåren ikke behøver å ha høy validitet så lenge den bidrar med unik informasjon. Dette gjelder som regel i all diagnostikk, og tabellen nedenfor gir noen eksempler på ulike korrelasjoner både i psykologi, medisin og livet for øvrig.

[1] Pianta, R.C., McCoy, S.J. (1997). The first day of school: The predictive validity of early school screening. Journal of Applied Developmental Psychology (18) s. 1–22.

Neste
Neste

Å måle egenskaper.