Opi valitsemaan parhaiten suoriutuva lineaarinen regressio yksivaihemalleille

Selvitä, mikä lineaarinen regressiomalli sopii parhaiten tietoihisi

Edellisen artikkelin jälkeisen kysymyksen innoittamana haluan puuttua ongelmaan, joka usein nousee esiin kokeillessani erilaisia ​​lineaarisia malleja: Sinun on tehtävä valinta, mitä mallia haluat käyttää. Tarkemmin sanottuna Khalifa Ardi Sidqi kysyi:

"Kuinka selvittää, mikä malli sopii parhaiten tietoihini? Katsoanko vain R-neliötä, SSE: tä jne.? Koska kyseisen mallin (neliö-, juuri- jne.) Tulkinta on hyvin erilainen, eikö siitä ole kysymys? "

Kysymyksen toiseen osaan voidaan vastata helposti. Etsi ensin malli, joka parhaiten sopii tietoihisi, ja tulkitse sitten sen tulokset. On hyvä, jos sinulla on ideoita tietojen selittämiseen. Tulkitse kuitenkin vain paras malli.

Tämän artikkelin loppuosa käsittelee hänen kysymyksensä ensimmäistä osaa. Huomaa, että jaanminun lähestymistapanimitenValitse malli. On olemassa useita tapoja, ja toiset saattavat tehdä sen eri tavalla. Mutta kuvaan tapaa, joka toimii minulle parhaiten.

Lisäksi tämä lähestymistapa koskee vain yksimuuttujaisia ​​malleja . Yksimuuttujamalleissa on vain yksi tulomuuttuja. Suunnittelen uuden artikkelin, jossa näytän sinulle, kuinka arvioida usean muuttujan malleja, joissa on enemmän syötemuuttujia. Keskittykäämme tänä päivänä kuitenkin perusasioihin ja yksimuuttujamalleihin.

Harjoittelemiseen ja tuntemiseen tästä kirjoitin pienen ShinyAppin. Käytä sitä ja pelaa eri tietojoukkojen ja mallien kanssa. Huomaa, kuinka parametrit muuttuvat ja tulevat varmemmiksi arvioimalla yksinkertaisia ​​lineaarisia malleja. Lopuksi voit käyttää sovellusta myös puitteina tiedoillesi. Kopioi se vain Githubista.

Käytä Adjusted R2 -mallia yksivaiheisille malleille

Jos käytät vain yhtä tulomuuttujaa, adjusted R2arvo antaa sinulle hyvän kuvan mallisi suorituskyvystä. Se kuvaa kuinka suuri vaihtelu selittyy mallillasi.

Päinvastoin kuin yksinkertainen R2, adjusted R2ottaa huomioon panostekijöiden määrän. Se rankaisee liian monta syöttökerrointa ja suosii yksinkertaisia ​​malleja.

Yllä olevassa kuvakaappauksessa näet kaksi mallia, joiden arvo on 71,3% ja 84,32%. Ilmeisesti toinen malli on parempi kuin ensimmäinen. Mallit, joiden arvo on pieni, voivat silti olla hyödyllisiä, koska ne adjusted R2ovat herkkiä tietojesi melutasolle. Vertaile sellaisenaan tätä mallien indikaattoria vain samaan tietojoukkoon kuin vertaamalla sitä eri tietojoukkoihin.

SSE: tä ei yleensä tarvita

Ennen kuin jatkat, varmista, että puhumme samasta SSE: stä. Wikipediassa SSE viittaa neliövirheiden summaan. Joissakin tilastokirjoissa SSE voi viitata selitettyyn neliösummaan (täsmälleen päinvastainen). Joten toistaiseksi oletetaan, että SSE viittaa neliövirheiden summaan.

Siksi se adjusted R2on suunnilleen 1- SSE / SST. SST viittaa neliöiden kokonaismäärään.

En halua sukeltaa syvemmälle tämän takana olevaan matematiikkaan. Haluan näyttää sinulle, että adjusted R2se lasketaan SSE: n kanssa . Joten SSE ei yleensä anna sinulle lisätietoja .

Lisäksi adjusted R2se normalisoidaan siten, että se on aina nollan ja yhden välillä. Joten sinun ja muiden on helpompi tulkita tuntematon malli adjusted R275%: lla eikä SSE: llä 394 - vaikka molemmat luvut saattavat selittää saman mallin.

Katsokaa jäännöksiä tai virhetermejä!

Usein jätetään huomiotta virhetermit tai ns. Jäännökset. He kertovat sinulle usein enemmän kuin mitä luulet.

Jäännökset ovat ennustettujen arvojen ja todellisten arvojen välinen ero.

Niiden etuna on, että ne voivat näyttää sekä virheidesi suuruuden että suunnan. Katsotaanpa esimerkki :

Tässä yritin ennustaa polynomiaineistoa, jolla on lineaarinen funktio. Jäännösten analysointi osoittaa, että on alueita, joilla mallilla on ylös- tai alaspäin suuntautuva poikkeama.

Ja t; 100, jäännökset ovat yli nollan. Joten tällä alueella todelliset arvot ovat olleet suurempia kuin ennustetut arvot - mallissamme on alaspäin suuntautuva puolue.50 < x &l

Ja 100 < x &lt; 150, jäännökset ovat kuitenkin alle nollan. Todelliset arvot ovat siis olleet pienempiä kuin ennustetut arvot - mallilla on ylöspäin suuntautuva puolue.

On aina hyvä tietää, ehdottaako mallisi liian korkeita vai matalia arvoja. Mutta et yleensä halua olla tällaisia ​​malleja.

Jäännösten tulisi olla keskimäärin nollia (kuten keskiarvo osoittaa) ja niiden tulisi olla jakautuneet tasaisesti. Saman tietojoukon ennustaminen polynomifunktion kanssa 3 degreesehdottaa paljon parempaa sopivuutta:

Lisäksi voit tarkkailla, lisääntyvätkö virheesi varianssit. Tilastoissa tätä kutsutaan heteroskedastisuudeksi. Voit korjata tämän helposti vakailla vakiovirheillä. Muuten hypoteesitestisi ovat todennäköisesti väärät.

Histogrammi jäännöksistä

Lopuksi histogrammi esittää yhteenvedon virhetermiesi suuruudesta. Se antaa tietoja virheiden kaistanleveydestä ja osoittaa kuinka usein virheitä tapahtui.

Yllä olevat kuvakaappaukset esittävät kahta mallia samalle tietojoukolle. Vuonna vasemmalla histogrammin, virheitä esiintyy alueella -338ja 520.

Vuonna oikeassa histogrammissa, virheet tapahtuvat -293ja 401. Joten poikkeamat ovat paljon pienemmät. Lisäksi suurin osa oikean histogrammin mallin virheistä on lähempänä nollaa. Joten suosisin oikeaa mallia.

Yhteenveto

Lineaarista mallia valittaessa on pidettävä mielessä nämä tekijät:

  • Vertaa vain saman tietojoukon lineaarisia malleja.
  • Etsi malli, jolla on korkea säätö R2
  • Varmista, että tässä mallissa on tasaisesti jakautuneet jäännökset nollan ympäri
  • Varmista, että tämän mallin virheet ovat pienellä kaistanleveydellä

Jos sinulla on kysyttävää, kirjoita kommentti alla tai ota yhteyttä minuun. Arvostan palautettasi.