Hvorfor trenger vi statistikk?

Last ned artikkel (pdf, 332.92 KB)

Sammendrag

Mange lot seg engasjere av «Folkeopplysningen» på NRK i fjor høst. Programserien tok for seg mange spennende og tidsaktuelle tema der fellestrekket var den risikoen vi står overfor når vi trekker slutninger som utelukkende baseres på erfaring og magefølelse. Årsakene til at vi har lett for å trekke slike feilslutninger er mange, men fenomenet er verken nytt eller særegent for helsefag (1, 2). Utfordringene vi står overfor blir imidlertid ekstra tydelig i medisinens verden fordi feilslutninger kan føre til ubotelig skade og i verste fall tap av liv (3). Erkjennelsen av at erfaring kan villede det menneskelige sinn har bidratt til at vi i dag besitter gode våpen som reduserer faren for erfaringsbaserte feilslutninger.

 

Robuste design

Vi har i dag tilgang til kraftfulle og robuste studiedesign. Randomiserte kontrollerte forsøk med blinding er en gullstandard når vi lurer på om noe virker, siden dette designet sørger for at gruppene vi sammenlikner faktisk er sammenliknbare og kontrollerte for placeboeffekter. Ved spørsmål om årsak og risiko for sykdom kan vi utnytte design som kohortstudier og kasus-kontrollstudier. Hvilket studiedesign som er det ideelle vil være avhengig av spørsmålet du stiller deg, men dyrekjøpt erfaring har lært oss hvordan studier bør gjennomføres for å minimere faren for bias (4).   

Statistikk gir også en annen kontrollmekanisme mot kognitive feilslutninger. Når vi samler inn og tolker tall må vi ta høyde for at resultatet blir påvirket av tilfeldigheter. Du skal være forsiktig med å beskylde noen for juks selv om fem kast ikke resulterer i en eneste kron, et slikt resultat kan forklares av tilfeldighetenes spill. Statistikk kan hjelpe oss med å skille mellom virkelige sammenhenger og sammenhenger som bare skyldes tilfeldighetenes spill. Når vi skal lese og vurdere kvantitative forskningsartikler trenger vi både metode- og tallforståelse. Uten slik kunnskap er det vanskelig å avgjøre hvilke resultater vi kan stole på.  

En del sykepleiere har, som befolkningen for øvrig, et anstrengt forhold til statistikk. Gjennom denne artikkelserien ønsker vi å motivere sykepleiere med og uten tallfobi til en ekstra innsats. Det skal ikke så mye til. Det finnes eksempler på medisinske forsk-ningsartikler der forfatterne, med rette, benytter komplisert statistikk, men i mange tilfeller kan grunnleggende kjennskap til statistikk bidra til langt bedre forståelse. Ved å investere litt tid til å forstå utvalgte kjernebegrep blir forskningsartikler lettere å lese, og du reduserer faren for å bli lurt av gode selgere. I denne første artikkelen skal vi definere hva vi mener med begrepene populasjon, utvalg og statistiske fordelinger. I senere nummer skal vi se nærmere på konfidensintervall, p-verdier, gjennomsnittsforskjeller, relativ risiko og odds ratio.

 

Populasjon og utvalg

Det finnes eksempler på spørsmål der statistikk baserer seg på hele den aktuelle befolkningen eller populasjonen – medisinsk fødselsregister er ett eksempel. Figur 1 er basert på alle registrerte fødsler i 2011, og viser alderen til de som ble fedre dette året. Noen av dem som ble fedre i 2011 var yngre enn 20 og noen var eldre enn 50, men majoriteten av dem som ble fedre var mellom 30 og 35 år.

 

 

For mange formål er det upraktisk å samle statistikk om hele populasjonen. Et av hovedformålene med bruk av statistikk er nettopp å trekke slutninger om en populasjon basert på et mindre utvalg. Hvis du vil vite hvor mange av mennene som ble fedre i 2011 som var til stede under fødselen, er det upraktisk å spørre alle de 60000 som ble fedre dette året. Isteden kan vi spørre et utvalg av dem som ble fedre. Hvis vi spør 1000 nybakte fedre, og får vite at 95 prosent var til stede under fødsel, kan vi velge å generalisere til alle norske fedre (populasjonen) og anta at 95 prosent av alle fedre er til stede under fødsel i Norge.

Generalisering fra et utvalg til en større populasjon er ikke alltid rett frem. På den ene siden må vi være klar over at tilfeldigheter kan lure oss. Hvis vi hadde spurt ti fedre istedenfor 1000 kan det godt hende at alle hadde vært til stede på fødestua, men det er også ganske stor sjanse for at vi finner to personer som ikke var til stede under fødsel blant de ti spurte. En viss usikkerhet må vi lære å leve med, men statistikken hjelper deg med å synliggjøre hvor stor denne usikkerheten er. Hvis usikkerheten er større enn du er villig til å akseptere kan du iverksette tiltak i et forsøk på å redusere usikkerheten, for eksempel ved å øke utvalgsstørrelsen.

 

Synliggjør usikkerhet

Statistikken hjelper oss først og fremst med å synliggjøre grad av usikkerhet, og bidrar i mindre grad til å fjerne denne usikkerheten. Sitter du med dårlige data er det begrenset hva statistikken kan hjelp deg med, for statistikken er ikke en tryllestav som skaper gull av gråstein. Mange ser likevel på statistikk som en fortryllende svart boks der man lemper inn tall i den ene enden og får et ferdig fordøyd svar ut i den andre. En slik innfallsvinkel kan være farlig. Det å sette tall inn i en formel vil alltid gi et svar, men uten bakgrunnskunnskap er det vanskelig å vite hva svaret betyr og om det er til å stole på.

La oss gå tilbake til vår spørreundersøkelse blant nybakte fedre der vi spurte om hvor mange som var til stede under fødselen. Av 1000 spurt var 95 prosent til stede under fødsel, og vi konkluderte med at cirka 95 prosent av alle norske menn er til stede på fødestua når barn blir født. En forutsetning for en slik generalisering er at de som ble spurt (utvalget) gjenspeiler den norske befolkningen (populasjonen) på en god måte. Hvis data om fedres tilstedeværelse under fødsel baserer seg på undersøkelser ved ett bestemt sykehus kan vi gå glipp av variasjoner som forekommer på landsbasis, og da kan en generalisering gi et feilaktig totalinntrykk. Statistikken forutsetter at du ser på et representativt utvalg, men varsler deg ikke om betingelsen er oppfylt. Du trenger derfor kunnskap om både statistikk og forskningsmetode når du skal vurdere om du kan stole på resultatene av en studie.

 

Statistiske fordelinger

Alder er en kontinuerlig måleenhet, og histogrammet i figur 1 viser hvordan nybakte fedre fordeler seg i ulike alderskategorier. I eksempelet valgte vi å benytte 11 alderskategorier à 5 år (søylebredder), og vi ser at histogrammet antar en tilnærmet klokkeform (stiplet linje). Formen ville kommet enda tydeligere frem hvis vi hadde laget histogram med mer finmasket aldersinndeling (smalere søyler). I statistikken ser vi ofte histogram med en slik klokkeform, og vi sier da at data følger en Gauss- eller normalfordelingskurve. Normalfordelingskurven er symmetrisk, det vil si at kurven er like bratt enten man beveger seg fra midten mot venstre eller fra midten mot høyre. I tillegg til at slike symmetriske data ofte dukker opp i reelle situasjoner, har normalfordelingen en del egenskaper som gjør matematikere glade. Det er derfor ikke uten grunn at normalfordelingen er blitt statistikkens viktigste sannsynlighetsfordeling. I den virkelige verden finnes det mange eksempler på data som nekter å innordne seg etter normalfordelingens klokkeform. Figur 2 oppsummerer norske arbeidsledighetstall fra 2012 og illustrerer skjevfordelte data som ikke passer med normalfordelingen. Siden normalfordelingen ikke alltid passer med virkeligheten har statistikere utviklet andre fordelingskurver for diverse formål, blant annet Kjikvadratfordelingen, Fisherfordelingen, Rektangulærfordelingen, Poissonfordelingen og Den binomiske fordelingen. I denne omgang begrenser vi ambisjonsnivået til å nevne at disse finnes.

 

 

 

Referanser

1. Sutherland S. Irrationality. Pinter & Martin, London. 1992.

2. Goldacre B. Bad science. Fourth Estate, London. 2008.

3. Wootton D. Bad medicine. Doctors doing harm since Hippocrates. Oxford University Press, Oxford. 2006

4. Nortvedt MW, Jamtvedt G, Graverholt B, Nordheim LV, Reinar LM. Jobb kunnskapsbasert! Akribe, Oslo. 2012.