Z-score: Definisjon, formler og praktiske eksempler
Z-score er et måleverktøy som viser hvordan et bestemt datapunkt sammenlignes med gjennomsnittet av et datasett. Dette forteller oss hvor mange standardavvik et datapunkt er fra gjennomsnittet, og gir et klarere bilde av dets posisjon innenfor et større datasett. Enten du undersøker testresultater, finansielle data eller vitenskapelige målinger, hjelper Z-score med å gi mening til rådata ved å plassere dem i en relativ kontekst.
Z-score definisjon
Viktige ting å vite om Z-score:
Positiv Z-score: En positiv Z-score indikerer at datapunktet er over gjennomsnittet av datasettet. Jo høyere Z-score, desto lenger over gjennomsnittet er datapunktet.
Negativ Z-score: En negativ Z-score betyr at datapunktet er under gjennomsnittet av datasettet. En mer negativ Z-score betyr at datapunktet er lenger under gjennomsnittet.
Z-score nær 0: En Z-score nær 0 antyder at datapunktet er veldig nær gjennomsnittet av datasettet, noe som indikerer gjennomsnittlig eller typisk ytelse eller måling innenfor dataenes kontekst.
Uvanlige datapunkter (Z-score > 3 eller < -3): I mange datasett, spesielt de som følger en normalfordeling, anses en Z-score større enn +3 eller mindre enn -3 som uvanlig eller en utligger. Dette er fordi i en normalfordeling ligger omtrent 99,7% av verdiene innenfor tre standardavvik (positive eller negative) fra gjennomsnittet. Derfor er datapunkter med Z-score utenfor disse grensene statistisk sjeldne og kan betraktes som utliggere.
Den grunnleggende Z-score formelen
Formelen for å beregne en grunnleggende Z-score i et enkelt utvalg er enkel:
Z = (X - μ) / σ
I denne formelen representerer X datapunktet, μ er gjennomsnittet av datasettet, og σ er standardavviket.
Eksempel
For å demonstrere hvordan Z-score kan anvendes, kan vi forstå betydningen av avvik i data i en praktisk sammenheng. Tenk deg en by der den gjennomsnittlige månedlige temperaturen for juli er 25,6°C, med et standardavvik på 2,8°C. Anta at du vil finne ut hvor uvanlig årets julitemperatur på 29,4°C er sammenlignet med de typiske julitemperaturene i den byen.
Gitte verdier:
- X-verdien er temperaturen vi undersøker, som er 29,4°C.
- Den gjennomsnittlige julitemperaturen for byen er 25,6°C, så μ = 25,6°C.
- Standardavviket for julitemperaturer er 2,8°C, så σ = 2,8°C.
Vi kan nå anvende Z-score formelen:
Z = (29,4 - 25,6) / 2,8 = 3,8 / 2,8 = 1,36
En Z-score på 1,36 betyr at årets julitemperatur er 1,36 standardavvik over gjennomsnittet. Dette indikerer at temperaturen var betydelig høyere enn det som er typisk for juli i den byen. Ved å bruke Z-score tabellen ser vi at en Z-score på 1,36 tilsvarer 0,9131. Dette impliserer at bare omtrent 8,69% (100% – 91,31%) av tiden ville du forvente å se en julitemperatur så høy som eller høyere enn 29,4°C i denne byen.
Z-score med standardfeil for gjennomsnittet (SEM)
Når man håndterer flere utvalg, justeres Z-score formelen for å ta hensyn til standardfeilen. Den nye formelen brukes for å bestemme hvor mange standardfeil et utvalgsgjennomsnitt er fra populasjonsgjennomsnittet. En høyere Z-score indikerer at utvalgsgjennomsnittet er lenger unna populasjonsgjennomsnittet.
Z-score formelen som tar hensyn til standardfeil for gjennomsnittet er:
Z = (X - μ) / (σ / √n)
Her er en tabell som oppsummerer implikasjonene av høye, lave og nær-null Z-score:
Z-score | Beskrivelse | Implikasjoner |
---|---|---|
Høy Z-score | En Z-score betydelig større enn 0, som indikerer at utvalgsgjennomsnittet er mye høyere enn populasjonsgjennomsnittet. | Antyder at den observerte forskjellen er usannsynlig på grunn av tilfeldig sjanse alene. Indikerer sterke bevis for en reell forskjell fra populasjonsnormen. |
Lav Z-score | En Z-score betydelig mindre enn 0, som viser at utvalgsgjennomsnittet er mye lavere enn populasjonsgjennomsnittet. | Impliserer at utvalgsgjennomsnittet er nær populasjonsgjennomsnittet, noe som indikerer konsistens med populasjonstrenden. Kan også antyde at forskjeller kan maskeres av liten utvalgsstørrelse eller høy variabilitet. |
Nær-null Z-score | En Z-score nær 0, som betyr at utvalgsgjennomsnittet er veldig nær populasjonsgjennomsnittet. | Indikerer at enhver observert forskjell mellom utvalget og populasjonen sannsynligvis ikke er statistisk signifikant og kan skyldes tilfeldig utvalgsvariabilitet. |
Forståelse av standardfeil for gjennomsnittet (SEM)
Standardfeil for gjennomsnittet (SEM) beregnes som σ / √n. Den representerer standardavviket for utvalgsfordelingen av utvalgsgjennomsnittet. Enkelt sagt estimerer den hvor mye utvalgsgjennomsnittet forventes å variere fra ett utvalg til et annet. SEM avtar når utvalgsstørrelsen øker, noe som indikerer mer presise estimater av populasjonsgjennomsnittet.
Eksempel
Anta at du analyserer gjennomsnittlige månedlige utgifter for husholdninger i en by. Den kjente gjennomsnittlige utgiften (populasjonsgjennomsnittet) er 20 000 kr med et populasjonsstandardavvik på 3 000 kr. Du tar et utvalg på 50 husholdninger og finner at gjennomsnittlig utgift er 21 000 kr.
Z-score kan beregnes som følger:
Z = (21000 - 20000) / (3000 / √50) = 1000 / 424,3 ≈ 2,36
Denne Z-score på omtrent 2,36 indikerer at utvalgsgjennomsnittet er omtrent 2,36 standardfeil unna populasjonsgjennomsnittet.