Statistiker prøver å så tvil over CO2 sin påvirkning på globale temperaturer ved hjelp av temperaturdata og markedsspekuleringsverktøy
SSB har latt en økonom publisere et notat der han prøver å kaste tvil over CO2 sin påvirkning på globale temperaturer. Jeg mener at rapporten svikter fra introduksjon til konklusjon. La meg forklare
I september 2023 publiserte SSB et notat skrevet av John K. Dagsvik og Sigmund H. Moen med tittel “To what extent are temperature levels changing due to greenhouse gas emissions?” som et “Discussion Paper”. Hvor forfatterne ønsker å kaste tvil over sammenhengen mellom klimagasser og den observerte temperaturendringen. Dette er SSB sin definisjon på hva et “Discussion Paper” er:
Et Discussion Paper er en foreløpig versjon av et forskningsarbeid som forfatterne ønsker diskusjon rundt og innspill på, før de eventuelt reviderer og prøver å få publisert en endelig versjon i et vitenskapelig tidsskrift. Discussion papers blir kommentert av andre forskere i SSB før publisering, men både konklusjoner og metodevalg står for forfatterens egen regning.
Dette er altså ikke snakk om publisert forskning, men et notat eller et utkast som ikke er fagfellevurdert og hvor hele rapporten står på “forfatterens egen regning”. Rapporten bør derfor også tolkes i det øyemed (det er altså ikke en “SSB-rapport”). Det er også fint å bemerke seg at verken Dagsvik eller Moen har noen form for naturvitenskapelig bakgrunn. Dagsvik er pensjonert økonom og Moen er pensjonert IT-ingeniør (fant ikke noe håndfast her). Dette gjorde at de hadde store problemer med å publisere artikkelen i SSB. Ad hominem til side, la oss gå på sak.
Rapporten
Her går jeg litt slavisk igjennom hva de har gjort i rapporten. Jeg tar ikke stilling til de anekdotiske skildringene referert til seriøse og useriøse kilder i de første kapitlene, men fokuserer på hva de faktisk har gjort.
Hva har de undersøkt?
I rapporten så har de gjennomført noe som kan kalles en autokorrelasjonsanalyse av målte temperaturer over rundt 150 år i snitt. Autokorrelasjon er kort fortalt (og litt overforenklet) til hvilken grad et datasett korrelerer med seg selv frem (eller tilbake) i tid. Hensikten med dette er å analysere om temperaturen varierer i sykliske mønstre, og er stasjonær (dvs. at den varierer rundt en gjennomsnittsverdi og ikke er i langsiktig endring (flat trend)).
Det er mange måter å undersøke stasjonæritet på, her har de valgt to metoder. Den ene er en relativt ny utregningsmetode (Cho 2016) med 5 siteringer og publisert i journalen Stat. Stat er en statistisk journal som reklamerer for at publiseringene går veldig fort. Noe som ikke er helt betryggende. Her kan det være metodiske begrensninger som ikke er identifisert. Den andre metoden de har brukt er regresjon (dvs. å plassere en modell på et datasett ved å justere modellens parametere til optimale verdier) mot en modell av typen “Fractional Gaussian Noise” (FGN) prosess. Det er en lineær stasjonær prosess som inneholder gaussisk støy (tilfeldig normalfordelt støy). I notatet så har de gjort en forenkling av den tradisjonelle FGN funksjonen under betingelsen om at datasettet er stort, slik at autokovariansfunksjonen hovedsakelig består av to parametere; Hurst-indeksen (notert med H) og varians. Hurst-indeksen finner du stort sett nevnt i litt spekulative markedsanalytiske artikler, som ønsker å si noe om f.eks. hvordan en aksje kommer kan komme til å utvikle seg mtp. “langtidsminne”. En H < 0.5 betyr at modellen estimert fra datasettet er “gjennomsnittsreversjonistisk” (direkte oversettelse fra “mean reversion” (finansanalytisk begrep)). Det innebærer at prosessen over tid kan konvergere mot gjennomsnittet av alle verdiene den har hatt tidligere og at variasjoner er kortsiktig støy/tilfeldige. En H>0.5 betyr at den estimerte modellen kan ha en langvarig “trend” mellom høye og lave verdier. H=0.5 betyr at modellen er ren støy. For å bedømme hvor godt modellen passer til datasettene etter regresjonen så har de inkludert noe som heter “Q-statistic” som er et mål på hvor nøyaktig en modells estimater er i forhold til de faktiske målte verdiene. I dette tilfelle er det da målte temperaturer i forhold til estimerte temperaturer fra FGN modellen.
Disse metodene brukte de individuelt på temperaturdatasett fra 74 tilfeldige værstasjoner på fastlandet rundt om kring i verden. Tidsspennet varierer stort, men de aller fleste er på rundt 140-170 år. Under ser du et histogram som viser hvordan tidsspennet mellom de ulike settene er.
Som grafen viser så er det en stor overvekt av “korte” datasett på rundt 140 år, selv om forfatteren selv påstår at de har brukt sett på rundt 200 år.
Datasettene er delt i årsdata (dvs. en gjennomsnittverdi per år) og månedsdata (en gjennomsnittsverdi per måned). Årsdataen er som den er, månedsdataen har derimot blitt etterbehandlet av forfatterne (en såkalt normalisering hvor snittet av settene er justert for å ta høyde for sesongvariasjoner) for å gi dem en fordel.
Hypotesene, testene og resultatene
Så, på ekte “forskervis” så har de utledet noen hypoteser som de vil teste for å undersøke om de kan finne ut av noe. Det er jo i og for seg ryddig, la oss ta en titt.
Hypotese B: prosessen X (temperatur) er stasjonær
Hypotese C: prosessen X (temperatur) kan representeres som en FGN-modell.
Hypotese B betyr at prosessen varierer rundt en konstant verdi og at det ikke endrer seg over tid (stasjonæritet). Den er testet ved å benytte metoden til Cho 2016, som gir et testresultat og blir forkastet (dvs. konkludere med at prosessen er ikke-stasjonær) om resultatet er over en terskelverdi. De skriver at hypotese C innebærer hypotese B fordi FGN prosesser er stasjonære. For å forkaste hypotese C så har de satt en øvre grense på nøyaktigheten til de estimerte modelle på |Q| > 1,96 som tilsvarer 5% konfidensinterval. Alle de 74 datasettene ble individuelt testet.
Resultatet fra testene:
Hypotese B (med stasjonæritetstesten fra Cho 2016)
Forkastet i 13.5% av seriene for månedsdata (10 av 74)
Forkastet i 4.1% av seriene for årsdata (3 av 74)
Hypotese C (nøyaktigheten til FGN prosessen med parametere fra regresjon)
Forkastet i 5.4% av seriene for månedsdata (4 av 74)
Forkastet i 4.1% av seriene for årsdata (3 av 74)
Jeg mener at resultatene er tvetydige. Her er det kun testene med årsdata som består med en forkastelse under 5%. Det er også bemerkelsesverdig at den parameterløse testen til Cho 2016 (hypotese B) er uenig med forfatterens egne stasjonæritetstest (hypotese C). Gir regresjonen falske positive svar, eller er det testen til Cho 2016 som ikke er like bra (evt. dårlig egnet)? Til tross for dette (samt store metodiske hull og usikkerheter som jeg kommer til å påpeke), så mener forfatterne at resultatene, bassert på årsdata, beviser at temperaturen er stasjonær.
Andre spennende bemerkelser fra rapporten er at de velger å gå helt bortifra globale temperaturestimater som HadCRUT3 fordi de mener at den motbeviser deres hypotese om stasjonæritet, men av metodiske årsaker.
Konklusjonen… leste vi samme rapport?
Konklusjonen hever ihvertfall mine øyenbryn. Det starter med dette:
“In this paper we have reviewed data on climate and temperatures in the past and ascertained that there have been large (non-stationary) temperature fluctuations resulting from natural causes.”
De har ikke undersøkt, punktert eller bevist at det er “natural causes”. De har utelukkende undersøkt stasjonæriteten til temperaturdataen i nyere tid, og det ga ingen sikre resultater. Det er også alvorlige svakheter i metoden og resultatene som jeg kommer til å påpeke.
“…we have found that the hypothesis of stationarity was not rejected, apart from a few cases.”
Dette er en selvmotsigende. Blir som å si “jeg drikker aldri, bare av og til”. Hypotesen deres ble forkastet for en signifikant andel av testene, spesielt for månedsdata.
“In other words, the results imply that the effect of man-made CO2 emissions does not appear to be sufficiently strong to cause systematic changes in the pattern of the temperature fluctuations”
Nå har de 1) ikke bevist at temperaturprosessen er stasjonær. 2) de har ikke involvert CO2 i hypotesene eller testene og har av den grunn ingenting å gjøre i resultatet eller konklusjonen. De har prøvd å se på hvordan temperatur relaterer til temperatur empirisk (siste 140 til 260 årene) for individuelle målestasjoner, hvordan har de da fått for seg at de kan inkludere CO2 i konklusjonen, som de ikke har sett på? Det er det bare de som kan svare på (uten at de gjør det i rapporten).
Problemene med data og metodikk
Jeg mener at en stor stygg ulv i rommet her er datagrunnlaget og måten denne dataen er brukt på. Som nevnt så gjorde de regresjon individuelt på 74 datasett fra rundt om kring i verden. De gjorde det for både månedlige datasett, og årlige datasett. Resultatene fra de månedlige datasettene ble i signifikant grad forkastet, selvom dataen var justert til deres fordel. De legger derfor stor vekt på resultatene med årsdata. Problemet er at settene i snitt er 161 år og mediansettet er 146 år. “År” i konteksten av årsdata betyr lengde i enkeltverdier i datasettene, noe som er ekstremt lite i denne konteksten. I enkel lineær regresjon så er det absolutte minstekravet 10 datapunkt per parameter i regresjonen, men så er det en lang rekke med punkter som gjør at det reelle kravet i de aller fleste tilfeller er veldig mye høyere. Faktorer som gjør at man trenger mer data kan f.eks. være valg av type modell, støy i datasettet og hvor rikt settet er med informasjon. Konsekvensen av et lite datasett er at parameterne som resulterer fra regresjonen vil være overtilpasset datasettet og gi en kunstig høy nøyaktighet når man tester mot det samme datasettet (som de også gjør). I lys av mer data så vil modellen (med en sannsynlighet høyere enn å vinne 3 ganger på rad i lotto) bomme i stor grad. Dette bidrar til falske positive svar når hypotesen skal testes.
Det andre jeg vil trekke frem, som de faktisk også rører innom i rapporten, er manglende eksitasjon i settet. Med det, så mener jeg til hvilken grad dataen konsekvent varierer for å kunne “vise” de egenskapene modellens funksjon krever. Skal du f.eks. påstå stasjonæritet ved at en FGN-modellen kan passe temperaturdatasettet, så bør datasettet, i det minste, inneholde klare variasjoner rundt en konstant middelverdi (stasjonæritet). Ellers vil regresjonen være et resultat av at parameterne er så kraftig justert at kun deler av modellens egenskaper kan representeres i datasettet, ikke f.eks. stasjonæritet som forfatterne ønsker å se på. Ved å se på dataen for Bergen f.eks. så kan man konkludere med at det har skjedd her (dataen viser en klar positiv trend, som ikke er forenelig med stasjonæritet). Og at dette, over en hver rimelig tvil, har bidratt til å gi falske bekreftelser i testene til forfatterne.
For å konkludere litt, de bruker altså statistikse metoder til å “spekulere” i en trend som dataen ikke gir dem grunnlag for å påstå (ihvertfall dataen som er inkludert i testen). Utifra dette kan man vell egt. konkludere med at statistikk og ren datadreven analyse, i seg selv, og med deres metoder, ikke er aktuelt for klassifisering av temperaturen som en modell, ei heller spekulere i stasjonæritet. Dette er ikke noe nytt. Statistikk er nemlig bare ett deldomene i naturvitenskapen. Klimaforskere bruker derimot kjent fysikk og beviste sammenhenger for å lage sine modeller (i kombinasjon med statistikk). Her er de på ingen måte unike. Dette er veldig langt fra det eneste feltet i naturvitenskapen der en ren datadreven angrepsvinkel ikke er en aktuell metode for å analysere sammenhenger og teste hypoteser.
Problemet med hypotesen i utgangspunktet
Hypotesen til forfatterne er at dersom temperaturen kan påvises til å være stasjonær, så betyr det klimagassene har en mye mer defus sammenheng med menneskeskapte klimaendringer. Her er det noen alvorlige intuitive problemer som jeg ønsker å påpeke. Stasjonæritet er ikke konsekvent tilstand, enhver prosess kan gå inn og ut av en stasjonær tilstand. La meg ta et overforenklet eksempel: en ball kan ligge gjemt i en bod i mange år, kun tatt ut periodisk i ny og ne, da vil posisjonsdataen til denne ballen vise at prosessen er stasjonær de siste årene. Plutselig får jeg et barn som begynner å leke med ballen og begynner å bruke den mer og mer, og flytte den mer og mer etterhvert som barnet blir eldre. Da vil prosessen bli ikke-stasjonær. Stasjonæriteten til en prosess er altså i stor grad avhengig av sine inputs, inputsene kan være i endring, og det er her de tryner. At noe har vært stasjonært, betyr ikke at det vil forbli det. Med dette så mener jeg at temperaturen så absolutt kan ha variert i hovedsakelige stasjonære syklusser tidligere, men at det kan ha bli satt i en ikke-stasjonær vekst som følge av menneskelig utslipp av klimagasser (det er også det klimaforskningen viser).
Det er, etter min mening, umulig å kunne klassifisere en prosess, ei heller påstå stasjonæritet, uten å ta for seg inputsene til systemet. At noe kan skje “pga. seg selv” (autokorrelasjon) er ikke en holdbar forklaring i noe annet fag enn statistikk og økonomi hvor “tilfeldigheter” er en overveiene faktor. Med mindre det er snakk om ekko eller refleksjoner (det er det ikke her). Forfatterne har ikke gjort noen empiriske undersøkelser av inputs (som f.eks. CO2 konsentrasjonen og stråling fra solen) til prosessen og står derfor også ut av stand til å konkludere i inputs til prosessen. De gjør et forsøk på å skriftlig forklare veksten nå i forhold på solen, men selv der, viser data at solen, for øyeblikket, motvirker global oppvarming med mindre stråling.
Min konklusjon
Forfatterne har ikke et grunnlag for å si at klimaendringene idag kommer fra naturlige årsaker og sykliske variasjoner. Jeg forklarer dette i at deres resultater, med stor sannsynlighet, gir falsk bekreftelse av deres hypotese, bundet i data grunnlaget og metode. Deres analyser gir heller ikke noe grunnlag for å påpeke svakheter ved vitenskapelig konsensus om hovedsakelig menneskeskapte klimaendringer som følge av klimagassutslipp. Konklusjonen fra rapporten kan ikke være annet enn at statistikk, som fag alene, ikke er dekkende nokk til å kunne forklare temperturprosessen og i mye større grad er begrenset av datagrunnlaget. Forfatterne tar i bruk spekulative statistike metoder som vanligvis blir brukt i finans sammenheng. Deres gjengivning av egne resultater er også uærlig og ikke forenelig med rapportens innhold. “Mitt forsøk fungerte ikke, alle andre må ta feil”.
Jeg har veldig mye mer jeg vil si om saken, men ikke har tid til å få på bloggformat. Hvis du har noen spørsmål eller kommentarer til min kommentar så ta det gjerne på Twitter.