Miksi korrelaatio ei tarkoita syy-yhteyttä - tämän yleisen sanonnan merkitys tilastoissa

Saatat muistaa tämän yksinkertaisen mantran tilastoluokastasi:

"Korrelaatio ei tarkoita syy-yhteyttä."

Joten luulet tietäväsi, mitä tämä lause tarkoittaa.

Kuten jos opiskelet todella kovasti tilastoissa, sait hyvän arvosanan ja päädyit sitten korkeakouluun, sen on tarkoitettava, että olet päässyt yliopistoon, koska annoit tilastoluokan.

Vaikka tämä palkinto yhdessä oppimiesi taitojen kanssa todennäköisesti auttoi, et voi sivuuttaa muita pelaavia tekijöitä - eikä todennäköisesti voi väittää, että tilastosi arvosanasi johti hyväksymisesi yliopistoon.

Ensinnäkin ensin - miksi erehdymme korrelaatioon syy-yhteyden kanssa?

On helppo ajatella, että vain siksi, että kaksi asiaa näyttää liittyvän toisiinsa, sen täytyy olla toisen syy. Mutta se voi olla typerä ja joskus vaarallinen oletus.

Oletetaan esimerkiksi, että yrität selvittää, mikä tekee ihmisistä vähemmän paheksuttavia. Suoritat tutkimuksen, jossa todetaan, että kun ihmiset nukkuvat vähintään x tuntia yössä, he ovat vähemmän pahoja.

Mutta oletko ottanut kaikki tekijät huomioon tässä? Ehkä he alkoivat treenata enemmänkin lepoajan seurauksena, ja tämä muutti heidän mielialaansa.

Kaikki esimerkit eivät ole niin hyvänlaatuisia - ja jotkut ovat suorastaan ​​järjettömiä.

Havainnollistaaksemme kuinka harhaanjohtavaa voi olla olettaa, että korrelaatio merkitsee syy-yhteyttä, katsokaa seuraavaa kaaviota Tyler Vigenin Väärinkorrelaatiot:

Vaikka näiden kahden tekijän välillä onkin vahva korrelaatio, epäilen, voisitko tehokkaasti väittää, että toinen aiheutti toisen. Ehkä tämä on haaste ihmisille kokeilla ja todistaa.

Tässä on toinen helmi Tylerin kokoelmasta:

Katsokaa sitä kaunista korrelaatiota. Mutta sinua olisi vaikea väittää, että vain siksi, että joku söi enemmän juustoa, hän todennäköisemmin kietoutuisi itseään lakanoihinsa.

Mitä korrelaatio tilastoissa on?

Sanakirjan mukaan korrelaatio on kahden tai useamman asian (tai muuttujan) välinen keskinäinen suhde tai yhteys - varsinkin sellaisen, jota ei odoteta pelkästään sattuman perusteella.

Käytetään sitä lauseessa: Kotimaisten tomaattien valtava koko näyttää korreloivan tämän kesän ylimääräisen sateen kanssa.

Oletan nyt, että koska satoi hieman tavallista enemmän, tomaattikasvejani menivät pähkinöiksi ja tuottivat hirviötomaateja.

Mutta onko se ainoa tekijä? Entä ravinnepitoinen komposti, jota käytin korotetuissa vuoteissani? Entä taimitarhalta ostamieni kasvien laatu? Entä huolellinen karsiminen ja hoitaminen?

Kuten näette, vaikka isojen tomaattini ja sateisen kesämme välillä on korrelaatio, tämä ei välttämättä tarkoita syy-yhteyttä.

Mitä syy-yhteys tilastoissa on?

Aika uudelle määritelmälle. Syy-yhteys on sanakirjan mukaan vaikutus tai vaikutus.

Tehdään hieman tarkempi. Syy-yhteys tarkoittaa, että kahden tapahtuman välillä on suhde, jossa yksi tapahtuma vaikuttaa toiseen. Tilastoissa, kun tapahtuman tai muuttujan arvo nousee tai laskee toisen tapahtuman tai muuttujan vuoksi, voimme sanoa, että syy-yhteys oli olemassa. A aiheutti B: n tapahtuvan.

Entä esimerkki tälle? Ehkä olet freelance lehdelle, joka maksaa sanalla. Mitä pidempi tarina (ja mitä enemmän sanoja se sisältää), sitä enemmän sinulle maksetaan.

Joten kirjoitettujen sanojen ja maksamiesi summien välillä on suora yhteys. Mutta siellä on myös syy-yhteys (koska kirjoitit enemmän, sinulle maksettiin enemmän).

Miksi tämä on niin helppo saada väärin?

Miksi on niin helppoa ajatella, että korrelaatio merkitsee syy-yhteyttä? No, jos kaksi asiaa näyttää liittyvän toisiinsa, meillä on tapana yhdistää ne ja olettaa, että ne vaikuttavat toisiinsa. Kun sää on kylmä, ihmiset viettävät enemmän aikaa sisällä. Lomakeskuksen ympärillä ostoskeskukset ovat täynnä. Kun otat ibuprofeenia, päänsärkysi katoaa.

Vaikka nämä olosuhteet varmasti liittyvät toisiinsa - ja jotkut saattavat jopa viitata syy-yhteyteen - ne eivät välttämättä siedä tieteellistä analyysiä.

On olemassa muutamia syitä, joiden perusteella voimme virheellisesti päättää korrelaatiosta.

Mikä on sekoittava muuttuja?

Ensinnäkin sekoituksessa voi olla sekava muuttuja . Tämä on muuttuja, joka vaikuttaa sekä itsenäisiin että riippuvaisiin muuttujiin suhteessasi - ja siten hämmentää kykyäsi määrittää kyseisen suhteen luonne.

Esimerkiksi, jos uusi perhe muuttuu naapurustoon ja rikollisuus lisääntyy, alueen asukkaat saattavat olettaa, että se johtuu uudesta perheestä. Mutta entä jos samalla pidätyskeskus avautuisi lähelle? Se on todennäköisempi syy lisääntyneeseen rikollisuuteen.

Mikä on käänteinen syy?

Toiseksi saatat olla tekemisissä käänteisen syy-yhteyden kanssa . Tämä tapahtuu, kun sen sijaan, että oletat oikein, että A aiheuttaa B: n, sekoitat ne ja oletetaan, että B aiheuttaa A: n.

Saattaa olla vaikea kuvitella, miten tämä tapahtuu, mutta ajattele, kuinka aurinkopaneelit toimivat. Ne tuottavat enemmän voimaa, kun aurinko on taivaalla pidempään.

Mutta aurinko ei ole taivaalla pidempään, koska paneelit tuottavat enemmän virtaa. Paneelit tuottavat enemmän virtaa, koska aurinko paistaa pidempään.

Mikä on sattuma?

Kolmanneksi, emme saa unohtaa sattuman voimaa . Kun kaksi asiaa tapahtuu samanaikaisesti, on houkuttelevaa nähdä syy-yhteys. Mutta kuten yllä oleva typerä kaavio, pelihalleilla ja CS-asteilla, monet ovat vain sattumia.

Loppujen lopuksi - miksi välitämme?

Ehkä yrität selvittää, saako tietty uusi lääke potilaat paremmin. Tai haluat tietää, mikä saa ihmiset ostamaan tietyn tuotteen.

Motivaatiostasi riippumatta on usein erittäin hyödyllistä selvittää, aiheuttaako A B: n, sekä miten ja miksi.

Mutta kuten olemme nähneet, se ei ole niin helppoa. Sinun täytyy hallita niin monta tekijää kuin voit, vähentää muuttujien ja sattumien sekoittamisen todennäköisyyttä ja korjata tiedot asiaankuuluviksi.

Emme pääse syvempään filosofiseen kysymykseen siitä, kuinka voimme todellakin selvittää syy-yhteyden epäilemättä. Se on toista kertaa.

Ainakin nyt tiedät, että vaikka kaksi tapahtumaa tai muuttujaa saattaa näyttää olevan yhteydessä toisiinsa, se ei tarkoita, että yhdellä on suora syy-yhteys toiseen.