Virkeligheten i tall og figurer

Det er noe du lenge har hatt lyst til å undersøke på avdelingen din - og til slutt får du grønt lys av sjefen. Før du vet ordet av det sitter du med fanget fullt av kji-kvadrat, radvariabler og nøkkeltall. Her er en liten oppklaring i begrepene:

Bruk av statistiske metoder innen medisinsk forskning har eksplodert de siste 20-30 årene.
Pionerer innen medisinsk forskning var for over 100 år siden klar over hvor viktig verktøy statistikkfaget var. Florence Nightingale (1820-1910) anvendte statistikk og bearbeidet data for å treffe riktige beslutninger i fagfelt vi i dag vil kalle sykehusadministrasjon og epidemiologi.
Sykepleieforskning befinner seg som et selvstendig fagfelt og favner områder som helsefag/medisin, psykologi og samfunnsvitenskap. Behov for statistisk metode enten det er for å lage design til en klinisk eller epidemiologisk studie, tilpasse statistiske modeller eller presentere resultater i tabeller og grafer er en vesentlig del av forskningsaktiviteten. Forståelse for de metodene som brukes for å oppnå ny kunnskap, usikkerheten knyttet til resultater fra undersøkelsene og kjennskap til de muligheter som finnes for hva som kan gjøres, bør bli en del av sykepleierens hverdag. Kjennskap til dette bør komme så tidlig som mulig i sykepleierstudiet.

Nightingales polar-area-diagram
Florence Nightingale ivret for systematisk innsamling av data og bruk av grafisk framstilling for å visualisere sine funn. Dette vises spesielt i en rapport om helsetilstanden til de britiske soldatene i Krim. Her viser hun med tall og figurer at dødeligheten var langt større på sykestuene enn i felten, og at dødeligheten ved sykestuene var dobbel av det som kan forventes i befolkningen for øvrig. Etter krigen arbeidet hun for enhetlig rapportering fra sykehus.
Florence Nightingales kjente bidrag til statistikklitteraturen er det hun kalte polar-area-diagram (1,2,3). Dette diagrammet er bygget opp slik at en sirkel er delt inn i tolv kiler - ett for hver av årets måneder. Arealet av de ulike kilene uttrykte dødelighet blant britiske soldater i Krim. Kilene ble igjen delt i tre deler som representerer tre ulike årsaker for død; de som døde i felten, de som døde av skader på sykestuene og de som døde av andre årsaker. Hun presenterte to slike diagrammer - ett for hvert av krigens to år. Leseren kunne da lett se effekten av god sykepleie ved en kraftig reduksjon i arealet på den delen av kilen som representerer død på sykestuene for år nummer to - som var året Nightingale ankom Krim. I et første utkast brukte hun lengden på kilen, men senere endret hun diagrammet slik at arealet av kilen representerte antall døde. Diagrammet er ikke i bruk i dag og er beklagelig nok ikke nevnt i Tuftes klassiske bok om grafiske metoder (4). Av diagrammer vi bruker i dag er kakediagrammet en enkel tilnærming til polar-area-diagrammet. Florence Nightingale ble i 1874 hedret med æresmedlemskap i American Statistical Association (2).

Rader og søyler
Fire personer har gitt vesentlige bidrag til statistikkfaget. Felles for de fire er dyp teoretisk kunnskap forbundet med evne til å se og løse problemstillinger i andre fag. Karl Pearson (1857-1936) er kanskje mest kjent for (Pearsons) korrelasjonskoeffisient og ?2-tester (kji-kvadrat). Sistnevnte test bruker vi for å se om det er avhengighet mellom en radvariabel og en søylevariabel i en tabell. I en studie av ernæring til intensivpasienten brukes denne testen for å slå fast at en eksperimentgruppe starter med enteral ernæring tidligere enn en sammenlikningsgruppe (5). Radvariabelen er hvilken dag pasienten starter med enteral ernæring (dag 1, 2 eller 3), mens søylevariabelen er de to gruppene med pasienter.

Forsøk før forsøk
Ronald Fisher (1890-1962) var sentral i utviklingen av det vi i dag kaller forsøksplanlegging (herunder nytten av randomisering), altså hvordan et forsøk best skal legges opp slik at man på rimeligst måte får testet det man ønsker å studere. Som en forlengelse av dette bruker vi statistiske argumenter for å beregne hvor mange pasienter som skal inkluderes når en klinisk studie skal settes i gang. Forskeren vet dermed at med en gitt sannsynlighet kan hun påstå den hypotesen hun arbeider med. Som et eksempel fra livskvalitetsstudier for to pasientgrupper som får ulik behandling vil man beregne det antall pasienter som er nødvendig i hver pasientgruppe for at man med 80 prosent sannsynlighet (styrke) kan finne forventet forskjell i livskvalitet (målt med instrumentet SF-36) mellom gruppene. Med å finne forskjell i livskvalitet mener man å kunne forkaste en nullhypotese om ingen forskjell mellom gruppene.

Å bevise underbemanning
Mange statistiske metoder ble også (videre-)utviklet, slik som regresjonsanalyse og variansanalyse (ANOVA). Disse metodene er fortsatt våre viktigste arbeidshester for å studere forholdet mellom to eller flere variable. I en studie av forholdet mellom sykepleierbemanning og mortalitet ved utvalgte kirurgiske avdelinger i USA, brukes regresjon for å studere sammenhengen mellom mortalitet og de uavhengige variablene sykepleierbemanning og karakteristika ved de ulike sykehusene (6). Studien viser at ved sykehus med forholdsmessig høy pasient-sykepleierfaktor er det høyere mortalitet enn for sykehus med forholdsmessig lavere pasient-sykepleierfaktor altså færre pasienter pr sykepleier. Regresjonsanalysen gjør oss i stand til å kontrollere for ulike typer sykehus for å finne den effekten vi ønsker (her uttrykt som et oddsforhold).

Stress- og angstmåling
Charles Edward Spearman (1863-1945) er en av psykometriens fedre. Han la grunnlaget for det vi i dag kaller faktoranalyse ved å utvikle en matematisk modell for måling av intelligens (7). Spearmans en-faktor modell er utviklet for å beregne intelligens som en sum av bidrag fra andre målbare størrelser, som språklige og matematiske evner. Vi vil i dag kalle intelligens for en latent variabel fordi den ikke er direkte målbar, men et resultat av avledede og målbare størrelser. Spearmans arbeid ligger til grunn for mange instrumenter vi bruker for å måle latente variabler som angst, depresjon eller stress. I en studie av vold blant jenter (8) brukes en faktormodell for å lage den latente variabelen vold (violence). Denne variabelen er en konstruksjon av målbare variable som reflekterer våpenbruk og erfaring med vold. Spearman er nok likevel mest kjent for sin korrelasjonskoeffisient - en verdi som oppsummerer samsvar mellom to målinger slik som angst og alder.

Tung regnekraft
Brian Efron (1935-) er en av de mest innflytelsesrike statistikere i dag. Efron har utviklet metoder for å studere usikkerheter til statistiske modeller der man ikke trenger å foreta ofte strenge antagelser. Metoden kalles bootstrapping - vi ville nok kalle det å trekke seg selv etter håret mer enn etter skolissene - fordi man bruker data selv til å studere usikkerheter ved modellen (9). Efron har også gitt bidrag innen multiple tester - et område som har fått fornyet aktualitet i vår DNA-tid. I mikroarray-analyse måles og testes forskjeller på flere tusen variable for et lite antall pasienter (10). Felles for Efrons bidrag er behov for tung regnekraft. Dette var en problemstilling som ikke eksisterte for Pearson og Spearman, og som var vanskelig og veldig kostbar for Fisher. Brian Efron er for tiden president i American Statistical Association.

Sykepleieforskning
Det er stor aktivitet innen sykepleieforskning i dag (11). Ved både universitetene og sykehusene finnes gode sykepleiefaglige miljøer og man legger til rette for pasientnær klinisk forskning. De ulike feltene har behov for både kvalitativ og kvantitativ metodisk kunnskap. Vårt fokus er forskning som er avhengig av kvantitative metoder.
Kliniske forsøk utføres av både sykepleiere og medisinere for å studere og sammenlikne ulike sykepleietiltak og/eller medisinske behandlinger. Design på studien skal bestemmes, antall pasienter i ulike grupper skal beregnes og plan for randomisering er også viktig. Ofte brukes et parallelt design der pasientene allokeres til to grupper, der den ene gruppen kan få sykepleietiltak A, mens den andre kan få sykepleietiltak B. Hvis effekten av tiltak dør fort ut, kan vi nytte en overkrysningsstudie der halvparten av pasientene først får tiltak A, mens den andre halvdelen får tiltak B. Etter en gitt periode byttes tiltakene slik at de som først fikk A får B, og de som først fikk B får A. Ved dette designet blir hver pasient sin egen kontroll og effekten måles mer presist. For å teste om det er forskjeller mellom ulike grupper nytter man t-tester, kji-kvadrat-tester eller variansanalyse (ANOVA). Regresjonsanalyse kan også være aktuelt for å kontrollere for skjevheter mellom gruppene.

Livskvalitetsforskning er et forskningsfelt med stadig større fokus. Det er ikke lenger tilstrekkelig å studere effekt av tiltaket, man skal også på best mulig måte kartlegge forventet livskvalitet ved ulike typer behandling. Dette forskningsfeltet introduserer minst tre viktige områder der statistikk er viktig (12, 13). Disse områdene er
1) multiple tester
2) manglende verdier
3) inklusjon av tidsvariabelen i analysene.
Problemet med multiple tester er at for et gitt signifikansnivå for hver enkelt test, vil det totale signifikansnivået for alle testene bli langt høyere. Med signifikansnivå mener vi her sannsynligheten for feilaktig å forkaste en nullhypotese. Siden livskvalitetsforskning inkluderer så mange ulike domener og dermed tester, må man ta høyde for dette når man bestemmer seg for signifikansnivå (ofte lik 5 prosent) for hver enkelt test. Rent praktisk løses dette problemet ved at grensen man setter for når en endring i et effektmål er statistisk signifikant reduseres fra 5 prosent til for eksempel 1 prosent. Manglende verdier er et problem som oppstår når en pasient uteblir fra en eller flere kontroller eller for behandlinger der man forventer høy mortalitet. Det finnes flere løsninger på dette problemet, men man må ofte bruke mer utilgjengelige dataverktøy enn for eksempel SPSS. Det siste problemområdet var tidsvariabelen. I repeterte målinger tar man høyde for at pasienten følges over tid, slik at man både kan se på utvikling av for eksempel livskvalitet i tid, forskjeller i livskvalitet mellom grupper og om livskvalitet mellom gruppene utvikles i gjennomsnitt ulikt over tid. Modellene tar høyde for at pasientene er uavhengige av hverandre, men observasjonene for hver pasient er avhengige av hverandre.

Presise målestokker
Evaluering av instrumenter er siste eksempel. Både i klinisk forskning og i praksis brukes et stort antall instrumenter for å måle ulike egenskaper til pasientene enten det er smerte, stress, angst, depresjon eller effekt av opplæringsplan for en pasientgruppe gitt av sykepleiere. Mange som forsker innen sykepleiefaget lager også sine egne spørreskjemaer. For å gi svar på om disse er gode nok må de evalueres for både reliabilitet og validitet (14). Vi ønsker med andre ord å vite om instrumentet presist nok måler det vi ønsker det skal måle. Eksempel på reliabilitetstester innen sykepleieforskning er bruk av ulike skalaer for vurdering og behandling av en pasients smerte. For at verktøyet skal ha en verdi må vi være sikre på at hver scoring gjenspeiler en lik forståelse blant de som scorer. Samtidig skal vi vite at det er pasientens smerte som måles og ikke noe annet. Videre vil forskning basert på slike instrumenter ende opp med store tabeller der variablene kan være grad av tilfredshet, kjønn, alder og sykehistorie. Forskningsspørsmålene er ofte knyttet til sammenhenger mellom variablene i slike tabeller. Disse kan besvares ved tabellanalyse (15) som kan sees på som en videreføring av Pearsons kji-kvadrat-metoder.

Litteratur
1. www.florence-nightingale.museum.uk

2. Kopf EW. Florence Nightingale as Statistician. Journal of American Statistical Association 1916; 16: 388-404.

3. Nigthingale F. Appendix 72 of the report of the Royal Commission 1858.

4. Tufte ER. The Visual Display of Qualitative Information. Connecticut: Graphics Press, 1983.

5. Wøien H, Bjørk IT, Nutrition of the Critically Ill Patient and Effect of Implementing a Nutritional Support Algorithm in ICU. Akseptert for publisering i Intensive and Critical Care Nursing.

6. Aiken L, Clarke SP, Cheung RB, Sloane DM, Silber JH. Education Levels of Hospital Nurses and Surgical Patient Mortality. Journal of American Medical Association 2002; 290 (12): 1617-1623.

7. Spearman CE. General Intelligence, Objectively Determined and Measured, American Journal of Psychology 1904; 15: 357-416.

8. DiNapoli PP. Guns and Dolls. An Exploration of Violent Behavior in Girls. Advances in Nursing Science; 2003: 36(2): 140-148.

9. Efron B, Tibshirani RJ. An Introduction to the Bootstrap. New York: Chapman and Hall, 1994.

10. Efron B. Large-scale Simultaneous Hypothesis Testing: The Choice of a Null Hypothesis. Journal of American Statistical Association 2003; 79(4): 120-130.

11. Hanestad BR, Ulvik B. Sykepleieforskning i Norge - en stille revolusjon. Tidsskriftet Sykepleien 2002; 6.

12. Fairclogh DL og Gelber RD. Quality of Life: Statistical Issues and Analysis. In Quality of Life and Pharmaeconometrics in Clinical Trials. Ed: Spilker B. New York: Lippencott-Raven 1995.

13. Spilker B. Quality of Life Studies: Definitions and Conceptual Issues. In Quality of Life and Pharmaeconometrics in Clinical Trials. Ed: Spilker B. New York: Lippencott-Raven, 1995.

14. Streiner DL, Norman GR. Health Measurement Scales: A Practical Guide to Their Development and Use. Oxford: Oxford University Press, 1995.

15. Agresti A. Categorical Data Analysis, New York: Wiley and Son, 1993.

Sykepleie