Sijoitin jokaisen Intro to Data Science -kurssin Internetiin tuhansien datapisteiden perusteella

Vuosi sitten pudotin yhdestä Kanadan parhaista tietojenkäsittelytieteen ohjelmista. Aloin luoda oman tietojenkäsittelytieteen maisteriohjelmani käyttämällä online-resursseja. Tajusin, että voisin oppia kaiken tarvittavan edX: n, Courseran ja Udacityn kautta. Ja voisin oppia sen nopeammin, tehokkaammin ja murto-osalla kustannuksista.

Olen melkein valmis nyt. Olen käynyt monia datatieteeseen liittyviä kursseja ja tarkastanut osia monista muista. Tiedän vaihtoehdot ja mitä taitoja tarvitaan oppijoille, jotka valmistautuvat data-analyytikkoon tai datatieteilijän rooliin. Muutama kuukausi sitten aloin luoda arvostelupohjaisen oppaan, joka suosittelee parhaita kursseja kullekin aineelle datatieteessä.

Sarjan ensimmäiseen oppaaseen suosittelin muutamia koodausluokkia aloittelijoille. Sitten se oli tilastoja ja todennäköisyysluokkia.

Nyt tietojenkäsittelyn johdannoista.

(Älä huoli, jos et ole varma siitä, mitä tietojenkäsittelykurssi sisältää. Selitän pian.)

Tässä oppaassa vietin yli 10 tuntia yrittäessäni tunnistaa kaikki tammikuusta 2017 lähtien tarjotut online-tietojenkäsittelytietokurssit, poimien tärkeimmät tiedot niiden opetussuunnitelmista ja arvosteluista sekä koota heidän luokituksensa. Tätä tehtävää varten käännyin muuhun kuin avoimen lähdekoodin Class Central -yhteisöön ja sen tuhansien tietysti luokitusten ja arvostelujen tietokantaan.

Vuodesta 2011 lähtien Class Centralin perustaja Dhawal Shah on seurannut verkkokursseja tarkemmin kuin kukaan muu maailmassa. Dhawal auttoi minua henkilökohtaisesti kokoamaan tämän luettelon resursseista.

Kuinka valitsimme harkittavia kursseja

Jokaisen kurssin on täytettävä kolme kriteeriä:

  1. Sen on opetettava tietojenkäsittelyprosessia. Lisää siitä pian.
  2. Sen on oltava tilauksesta tai tarjottava muutaman kuukauden välein.
  3. Sen on oltava interaktiivinen verkkokurssi, joten ei kirjoja tai vain luku -oppaita . Vaikka nämä ovat kannattavia tapoja oppia, tässä oppaassa keskitytään kursseihin.

Uskomme, että käsitelimme kaikki merkittävät kurssit, jotka sopivat yllä oleviin kriteereihin. Koska Udemystä on näennäisesti satoja kursseja, päätimme ottaa huomioon vain kaikkein arvostetuimmat ja parhaiten arvioidut kurssit. Aina on kuitenkin mahdollisuus, että menetimme jotain. Joten ilmoita meille kommenttiosassa, jos jätimme hyvän kurssin.

Kuinka arvioimme kursseja

Laadimme keskimääräisen luokituksen ja arvostelujen lukumäärän Class Centralilta ja muilta arvostelusivustoilta laskeakseen painotetun keskiarvon kullekin kurssille. Luimme tekstiarvostelut ja käytimme tätä palautetta täydentämään numeerisia arvosanoja.

Teimme subjektiivisia opetussuunnitelmia kahden tekijän perusteella:

1. Tietojenkäsittelyprosessin kattavuus. Harjataako kurssi tiettyjä aiheita vai ohitetaanko niitä? Kattaako se tiettyjä aiheita liian yksityiskohtaisesti? Katso seuraavasta osiosta, mitä tämä prosessi sisältää.

2. Yhteisten tietojenkäsittelytyökalujen käyttö. Opetetaanko kurssilla suosittuja ohjelmointikieliä, kuten Python ja / tai R? Nämä eivät ole välttämättömiä, mutta hyödyllisiä useimmissa tapauksissa, joten näille kursseille annetaan pieni etusija.

Mikä on tietojenkäsittelyprosessi?

Mikä on datatiede? Mitä datatieteilijä tekee? Nämä ovat perustyyppisiä kysymyksiä, joihin tietojenkäsittelykurssin tulisi vastata. Seuraava Harvardin professoreiden Joe Blitzsteinin ja Hanspeter Pfisterin infografika hahmottaa tyypillisen tietojenkäsittelyprosessin , joka auttaa meitä vastaamaan näihin kysymyksiin.

Tavoitteenamme tässä tietojenkäsittelykurssin johdannossa on tutustua datatieteen prosessiin. Emme halua liian syvällistä prosessin tiettyjen näkökohtien kattamista, joten otsikon "intro to" -osa.

Kullekin näkökohdalle ihanteellinen kurssi selittää keskeiset käsitteet prosessin puitteissa, esittelee yleisiä työkaluja ja tarjoaa muutaman esimerkin (mieluiten käytännönläheinen).

Etsimme vain johdantoa. Siksi tämä opas ei sisällä täydellisiä erikoisaloja tai ohjelmia, kuten Johns Hopkins Universityn Courseera-tietojenkäsittelytieteen erikoistuminen tai Udacityn Data Analyst Nanodegree. Nämä kurssikoostumukset ohittavat tämän sarjan tarkoituksen: löytää jokaiselle aineelle parhaat yksittäiset kurssit datatieteellisen koulutuksen muodostamiseksi. Tämän artikkelisarjan kolme viimeistä opasta käsittelevät yksityiskohtaisesti kutakin tietojenkäsittelyn osa-aluetta.

Vaaditaan peruskoodaus, tilastot ja todennäköisyyskokemus

Useat alla luetellut kurssit edellyttävät perusohjelmointia, tilastoja ja todennäköisyyskokemusta. Tämä vaatimus on ymmärrettävä, kun otetaan huomioon, että uusi sisältö on kohtuullisen edistynyt ja että näille aiheille on usein omistettu useita kursseja.

Tämä kokemus voidaan hankkia suosituksemme avulla tämän tietotieteen uraoppaan kahdessa ensimmäisessä artikkelissa (ohjelmointi, tilastot).

Paras tietojenkäsittelykurssin valinta on…

  • Data Science AZ ™: Sisältää tosielämän datatieteen harjoituksia (Kirill Eremenko / Udemy)

Kirill Eremenkon Data Science AZ ™ on Udemy on selkeä voittaja yli 20 pätevän kurssin datatieteen prosessin laajuuden ja kattavuuden suhteen. Sillä on 4,5 tähden painotettu keskiarvoluokitus yli 3071 arvostelua, mikä sijoittaa sen arvioitujen ja arvostetuimpien kurssien joukkoon.

Siinä hahmotellaan koko prosessi ja annetaan todellisia esimerkkejä. 21 tunnin sisällöllä se on hyvä pituus. Tarkastajat rakastavat ohjaajan toimittamista ja sisällön järjestämistä. Hinta vaihtelee usein esiintyvien Udemy-alennusten mukaan, joten saatat pystyä ostamaan pääsyn vain 10 dollarilla.

Vaikka se ei tarkista "yleisten tietojenkäsittelytyökalujen käyttö" -ruutua , muita kuin Python / R-työkaluvalintoja (gretl, Tableau, Excel) käytetään tehokkaasti kontekstissa. Eremenko mainitsee seuraavat selittäessään gretl-valintaa (gretl on tilastollinen ohjelmistopaketti), vaikka se koskee kaikkia hänen käyttämiään työkaluja (korostus minun).

Gretlissä voimme tehdä saman mallinnuksen kuin R: ssä ja Pythonissa, mutta meidän ei tarvitse koodata. Se on iso juttu täällä. Jotkut teistä saattavat jo tuntea R: n hyvin, mutta jotkut eivät ehkä tiedä sitä ollenkaan. Tavoitteenani on näyttää sinulle, kuinka rakentaa vankka malli ja antaa sinulle kehys, jota voit käyttää missä tahansa valitsemassasi työkalussa . gretl auttaa meitä välttämään jumittumista koodaukseemme.

Yksi merkittävä arvostelija pani merkille seuraavat:

Kirill on paras verkosta löytämäni opettaja. Hän käyttää tosielämän esimerkkejä ja selittää yleisiä ongelmia, jotta saat syvällisemmän käsityksen kurssityöstä. Hän tarjoaa myös paljon tietoa siitä, mitä tarkoittaa olla tiedetieteilijä työskentelemästä riittämättömän datan kanssa aina työn esittelemiseen C-luokan johdolle. Suosittelen tätä kurssia aloitteleville opiskelijoille keskianalyytikoille!

Suuri Python-keskitetty esittely

  • Johdatus tietojen analysointiin (Udacity)

Udacityn Intro to Data Analysis on suhteellisen uusi tarjonta, joka on osa Udacityn suosittua Data Analyst Nanodegree -tuotetta. Se kattaa tietojenkäsittelyprosessin selkeästi ja yhtenäisesti Pythonin avulla, vaikka siitä puuttuu hieman mallinnusnäkökulma. Arvioitu aikajana on 36 tuntia (kuusi tuntia viikossa kuuden viikon aikana), vaikka kokemukseni mukaan se on lyhyempi. Sillä on 5 tähden painotettu keskiarvoluokitus kahdessa arvostelussa. Se on ilmainen.

Videot ovat hyvin tuotettuja ja ohjaaja (Caroline Buckey) on selkeä ja mukava. Paljon ohjelmointikyselyjä pakottaa videoissa opitut käsitteet voimaan. Opiskelijat lähtevät kurssilta luottavaisina uusiin ja / tai parannettuihin NumPy- ja Pandas-taitoihinsa (nämä ovat suosittuja Python-kirjastoja). Lopullinen projekti - joka luokitellaan ja tarkistetaan Nanodegree-luokassa, mutta ei ilmaisella yksittäisellä kurssilla - voi olla hieno lisä salkkuun.

Vaikuttava tarjous ilman tarkistustietoja

  • Datatieteen perusteet (Big Data University)

Data Science Fundamentals on neljän kurssin sarja, jonka tarjoaa IBM: n Big Data University. Se sisältää kursseja nimeltä Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools ja R 101.

Se kattaa koko datatieteen prosessin ja esittelee Pythonin, R: n ja useita muita avoimen lähdekoodin työkaluja. Kursseilla on valtava tuotantoarvo. Arvioidaan 13–18 tunnin ponnistus riippuen siitä, suoritatko lopussa R 101 -kurssin, mikä ei ole välttämätöntä tämän oppaan tarkoituksiin. Valitettavasti sillä ei ole tarkistusdataa tärkeimmistä arvostelusivustoista, joita käytimme tässä analyysissä, joten emme voi vielä suositella sitä yllä oleville kahdelle vaihtoehdolle. Se on ilmainen.

Kilpailu

Valinnallamme # 1 oli painotettu keskiarvo 4,5 viidestä tähdestä yli 3068 arvostelusta. Katsotaanpa muita vaihtoehtoja, lajiteltu laskevan luokituksen mukaan. Alla on useita R-kursseja, jos olet asettanut esittelyn kyseisellä kielellä.

  • Python datatieteelle ja koneoppimiselle Bootcamp (Jose Portilla / Udemy): Koko prosessin kattavuus työkalupainotteisella fokuksella (Python). Vähemmän prosessiohjattua ja enemmän hyvin yksityiskohtaista johdantoa Pythoniin. Upea kurssi, vaikkakaan ei ihanteellinen tämän oppaan soveltamisalaan. Se, kuten alla oleva Josen R-kurssi, voi kaksinkertaistaa sekä Python / R-introina että datatieteen introina. 21,5 tuntia sisältöä. Sillä on 4,7 tähden painotettu keskiarvo yli 1644 arvosteluun. Kustannukset vaihtelevat Udemy-alennusten mukaan, jotka ovat usein.
  • Tietojenkäsittelytieteen ja koneoppimisen Bootcamp R: llä (Jose Portilla / Udemy): Koko prosessin kattavuus työkalupainotteisella tarkennuksella (R). Vähemmän prosessiohjattu ja enemmän hyvin yksityiskohtainen esittely R.Amazing -kurssille, vaikkakaan ei ihanteellinen tämän oppaan soveltamisalaan. Se, kuten edellä oleva Josen Python-kurssi, voi kaksinkertaistaa sekä introina Python / R: lle että introina tietotieteelle. 18 tuntia sisältöä. Sillä on 4,6 tähden painotettu keskiarvo yli 847 arvosteluun. Kustannukset vaihtelevat usein käyvien Udemy-alennusten mukaan.
  • Tietojenkäsittely ja koneoppiminen Pythonin kanssa - Hands On! (Frank Kane / Udemy): Osittainen prosessin kattavuus. Keskittyy tilastoihin ja koneoppimiseen. Kohtuullinen pituus (yhdeksän tuntia sisältöä). Käyttää Pythonia. Sillä on 4,5 tähden painotettu keskimääräinen luokitus yli 3104 arvostelua. Kustannukset vaihtelevat usein käyvien Udemy-alennusten mukaan.
  • Johdatus datatieteeseen (Data Hawk Tech / Udemy): Koko prosessin kattavuus, vaikka rajoitettu kattavuus. Melko lyhyt (kolme tuntia sisältöä). Kattaa lyhyesti sekä R: n että Pythonin. Sillä on 4,4 tähden painotettu keskiarvo yli 62 arvosteluun. Kustannukset vaihtelevat usein käyvien Udemy-alennusten mukaan.
  • Sovellettu tietotiede: Johdanto (Syracuse University / Open Education by Blackboard): Koko prosessin kattavuus, vaikkakaan ei tasaisesti. Keskittyy voimakkaasti perustilastoihin ja R.Liian käytetty ja liian vähän prosessikeskeisyyttä tämän oppaan tarkoituksiin. Verkkokurssikokemus tuntuu eristyneeltä. Sillä on 4,33 tähden painotettu keskiarvo yli 6 arvosteluun. Vapaa.
  • Johdatus tietojenkäsittelyyn (Nina Zumel & John Mount / Udemy): Vain osittainen prosessien kattavuus, vaikkakin hyvä syvyys tietojen valmisteluun ja mallintamiseen. Okei pituus (kuusi tuntia sisältöä). Käyttää R. Sillä on 4,3 tähden painotettu keskiarvo yli 101 arvosteluun. Kustannukset vaihtelevat Udemy-alennusten mukaan, jotka ovat usein.
  • Sovellettu tietojenkäsittely Pythonilla (V2 Maestros / Udemy): Täysi prosessin kattavuus ja hyvä kattavuuden syvyys prosessin jokaiselle osa-alueelle. Kohtuullinen pituus (8,5 tuntia sisältöä). Käyttää Pythonia. Sillä on 4,3 tähden painotettu keskiarvo yli 92 arvosteluun. Kustannukset vaihtelevat Udemy-alennusten mukaan, jotka ovat usein.
  • Haluatko olla datatieteilijä? (V2 Maestros / Udemy): Koko prosessin kattavuus, vaikkakin rajallinen. Melko lyhyt (3 tuntia sisältöä). Rajoitettu työkalun kattavuus. Sillä on 4,3 tähden painotettu keskiarvo yli 790 arvosteluun. Kustannukset vaihtelevat Udemy-alennusten mukaan, jotka ovat usein.
  • Data to Insight: Johdatus tietojen analysointiin (Aucklandin yliopisto / FutureLearn): Kattavuuden laajuus epäselvä. Väittää keskittyvänsä tietojen etsintään, löytämiseen ja visualisointiin. Ei saatavana pyynnöstä. 24 tuntia sisältöä (kolme tuntia viikossa yli kahdeksan viikon ajan). Sillä on 4 tähden painotettu keskiarvo yli 2 arvosteluun. Ilmainen ja maksullinen varmenne käytettävissä.
  • Data Science Orientation (Microsoft / edX): Osittainen prosessin kattavuus (mallinnus puuttuu). Käyttää Exceliä, mikä on järkevää, koska se on Microsoftin merkkituote. 12–24 tuntia sisältöä (2–4 tuntia viikossa kuuden viikon ajan). Sillä on 3,95 tähden painotettu keskiarvo yli 40 arvosteluun. Ilmainen ja vahvistettu sertifikaatti saatavana 25 dollaria.
  • Data Science Essentials (Microsoft / edX): Koko prosessin kattavuus ja hyvä kattavuus jokaiselle osa-alueelle. Kattaa R, Python ja Azure ML (Microsoftin koneoppimisalusta). Useat yhden tähden arvostelut viittaavat työkalun valintaan (Azure ML) ja ohjaajan heikkoon toimitukseen. 18–24 tuntia sisältöä (kolme – neljä tuntia viikossa kuuden viikon ajan). Sillä on 3,81 tähden painotettu keskiarvo yli 67 arvosteluun. Ilmainen ja vahvistettu sertifikaatti saatavana 49 dollaria.
  • Applied Data Science with R (V2 Maestros / Udemy): R-kumppani V2 Maestrosin Python-kurssille yllä. Koko prosessin kattavuus ja hyvä kattavuuden syvyys prosessin jokaiselle osa-alueelle Kohtuullinen pituus (11 tuntia sisältöä). Käyttää R. Sillä on 3,8 tähden painotettu keskiarvo yli 212 arvosteluun. Kustannukset vaihtelevat usein käyvien Udemy-alennusten mukaan.
  • Johdatus tietojenkäsittelyyn (Udacity): Osittainen prosessin kattavuus, vaikkakin hyvä syvyys käsitellyille aiheille. Puuttuu etsinnän näkökulma, vaikka Udacitylla on suuri, täydellinen kurssi tutkimustietojen analysoinnista (EDA). Väittää olevansa 48 tuntia pitkä (kuusi tuntia viikossa yli kahdeksan viikon ajan), mutta kokemukseni mukaan se on lyhyempi. Joidenkin arvosteluiden mielestä edistyneen sisällön määritys puuttuu. Tuntuu organisoitumattomalta. Käyttää Pythonia. Sillä on 3,61 tähden painotettu keskiarvo yli 18 arvosteluun. Vapaa.
  • Johdatus tietojenkäsittelyyn Pythonissa (Michiganin yliopisto / Coursera): Osittainen prosessin kattavuus. Ei mallintamista ja visualisointia, vaikka Applied Data Science with Python Specialization -kurssit # 2 ja # 3 kattavat nämä näkökohdat. Kaikkien kolmen kurssin suorittaminen olisi liian syvällistä näiden oppaiden kannalta. Käyttää Pythonia. Neljä viikkoa pitkä. Sillä on 3,6 tähden painotettu keskiarvo yli 15 arvosteluun. Saatavilla ilmaisia ​​ja maksettuja vaihtoehtoja.
  • Tietopohjainen päätöksenteko (PwC / Coursera): Osittainen kattavuus (mallinnus puuttuu) ja keskittyminen liiketoimintaan. Esittelee monia työkaluja, kuten R, Python, Excel, SAS ja Tableau. Neljä viikkoa pitkä. Sillä on 3,5 tähden painotettu keskiarvo yli 2 arvosteluun. Saatavilla ilmaisia ​​ja maksettuja vaihtoehtoja.
  • Crash Course in Data Science (Johns Hopkins University / Coursera): Erittäin lyhyt katsaus koko prosessiin. Liian lyhyt tämän sarjan tarkoituksiin. Kaksi tuntia pitkä. Sillä on 3,4 tähden painotettu keskiarvo yli 19 arvosteluun. Saatavilla ilmaisia ​​ja maksettuja vaihtoehtoja.
  • Data Scientistin työkalupakki (Johns Hopkins University / Coursera): Erittäin lyhyt katsaus koko prosessiin. Lisää perustuskurssista Johns Hopkinsin yliopiston tietojenkäsittelytieteelle. Väittää sisältävänsä 4–16 tuntia sisältöä (yksi-neljä tuntia viikossa neljän viikon aikana), vaikka yksi arvostelija totesi, että se saattoi valmistua kahdessa tunnissa. Sillä on 3,22 tähden painotettu keskiarvo yli 182 arvosteluun. Saatavilla ilmaisia ​​ja maksettuja vaihtoehtoja.
  • Tiedonhallinta ja visualisointi (Wesleyan University / Coursera): Osittainen prosessin kattavuus (mallinnus puuttuu). Neljä viikkoa pitkä. Hyvä tuotantoarvo. Käyttää Python ja SAS. Sillä on 2,67 tähden painotettu keskiarvo yli 6 arvosteluun. Saatavilla ilmaisia ​​ja maksettuja vaihtoehtoja.

Seuraavilla kursseilla ei ollut arvosteluja tammikuussa 2017.

  • CS109 Data Science (Harvardin yliopisto): Koko prosessin kattavuus syvällisesti (todennäköisesti liian syvällisesti tämän sarjan tarkoituksiin). Täysi 12 viikon perustutkinto. Kurssilla navigointi on vaikeaa, koska kurssia ei ole suunniteltu verkkokäyttöön. Harvardin todelliset luennot kuvataan. Yllä oleva tietojenkäsittelyprosessi on peräisin tältä kurssilta. Käyttää Pythonia. Ei tarkistusdataa. Vapaa.
  • Johdatus yritystietojen analyysiin (University of Colorado Boulder / Coursera): Osittainen prosessikattavuus (puuttuu mallinnus- ja visualisointiasiat) keskittyen liiketoimintaan. Tietojenkäsittelyprosessi on naamioitu "Information-Action Value Chainiksi" heidän luennoissaan. Neljä viikkoa pitkä. Kuvaa useita työkaluja, vaikka se kattaa vain SQL: n missä tahansa syvyydessä. Ei tarkistusdataa. Saatavilla ilmaisia ​​ja maksettuja vaihtoehtoja.
  • Johdatus tietojenkäsittelyyn (Lynda): Koko prosessin kattavuus, vaikkakin rajallinen. Melko lyhyt (kolme tuntia sisältöä). Esittelee sekä R: n että Pythonin. Ei tarkistusdataa. Hinta riippuu Lynda-tilauksesta.

Kääri se ylös

Tämä on kolmasosa kuusiosaisesta sarjasta, joka kattaa parhaat verkkokurssit, joiden avulla voit aloittaa itsesi datatieteen kentälle. Esitimme ohjelmoinnin ensimmäisessä artikkelissa ja tilastot ja todennäköisyydet toisessa artikkelissa. Sarjan loppuosa kattaa muut tietojenkäsittelyn ydinosaamiset: tietojen visualisoinnin ja koneoppimisen.

Jos haluat oppia datatiedettä, aloita yhdellä näistä ohjelmointikursseista

Jos haluat oppia datatiedettä, ota muutama näistä tilastoluokista

Viimeinen pala on yhteenveto näistä artikkeleista, sekä parhaat online-kurssit muille avainaiheille, kuten datan muokkaus, tietokannat ja jopa ohjelmistotuotanto.

Jos etsit täydellistä luetteloa Data Science -verkkokursseista, löydät ne Class Centralin Data Science and Big Data subject -sivulta.

Jos pidit tämän lukemisesta, tutustu joihinkin Class Centralin muihin kappaleisiin:

Tässä on 250 Ivy League -kurssia, joihin voit osallistua verkossa nyt ilmaiseksi

250 MOOC: ta Brownista, Columbiasta, Cornellista, Dartmouthista, Harvardista, Pennistä, Princetonista ja Yalesta.

50 parasta ilmaista yliopistokurssia tietojen mukaan

Kun aloitin Class Centralin marraskuussa 2011, oli noin 18 ilmaista verkkokurssia, ja melkein kaikki…

Jos sinulla on ehdotuksia ohitetuista kursseista, ilmoita siitä minulle vastauksissa!

Jos pidit tästä hyödyllisenä, napsauta? joten useammat ihmiset näkevät sen täällä Mediumissa.

Tämä on tiivistetty versio alkuperäisestä artikkelistani, joka julkaistiin Class Centralissa, johon olen lisännyt kurssikuvauksia, opetussuunnitelmia ja useita arvosteluja.