Kuinka aloittaa Databricksin käyttö

Kun aloitin Sparkin oppimisen Pysparkin kanssa, törmäsin Databricks-alustaan ​​ja tutkin sitä. Tämän alustan avulla oli helppo määrittää ympäristö Spark-tietokehysten ajamiseksi ja koodauksen harjoittamiseksi. Tämä viesti sisältää joitain vaiheita, jotka voivat auttaa sinua aloittamaan Databricksin käytön.

Databricks on Apache Sparkin päällä toimiva alusta. Siinä on mukavasti kannettavan järjestelmän asetukset. Klustereita voidaan helposti luoda pilvessä, ja se sisältää myös integroidun työtilan etsintään ja visualisointiin.

Voit myös ajoittaa minkä tahansa olemassa olevan kannettavan tai paikallisesti kehitetyn Spark-koodin siirtymään prototyypistä tuotantoon ilman uudelleensuunnittelua.

1. Määritä Databricks-tili

Aloita opetusohjelman siirtymällä tähän linkkiin ja valitsemalla tilisi avaamiseksi ilmainen yhteisöversio. Tässä vaihtoehdossa on yksi klusteri, jossa on jopa 6 Gt vapaata tallennustilaa. Sen avulla voit luoda perusmuistikirjan. Tarvitset kelvollisen sähköpostiosoitteen vahvistaaksesi tilisi.

Havaitset tämän näytön, kun olet kirjautunut tilillesi.

2. Uuden klusterin luominen

Aloitamme luomalla uusi klusteri ohjelmien ajamiseksi. Napsauta pääsivulla ”Klusteri” ja kirjoita klusterille uusi nimi.

Seuraavaksi sinun on valittava "Databricks Runtime" -versio. Databricks Runtime on joukko ydinkomponentteja, jotka toimivat Databricksin hallinnoimissa klustereissa. Se sisältää Apache Sparkin, mutta lisää myös useita komponentteja ja päivityksiä työkalun käytettävyyden ja suorituskyvyn parantamiseksi.

Voit valita minkä tahansa Databricks Runtime -version - olen valinnut 3,5 LTS (sisältää Apache Spark 2.2.1, Scala 2.11). Sinulla on myös mahdollisuus valita Python 2 ja 3.

Klusterin luominen kestää muutaman minuutin. Jonkin ajan kuluttua sinun pitäisi pystyä näkemään aktiivinen klusteri kojelaudassa.

3. Uuden muistikirjan luominen

Aloitetaan ja luodaan uusi muistikirja, jolla voit käyttää ohjelmaa.

Napsauta pääsivulla "Uusi muistikirja" ja kirjoita muistikirjan nimi. Valitse haluamasi kieli - valitsin Pythonin täältä. Voit nähdä, että Databricks tukee useita kieliä, kuten Scala, R ja SQL.

Kun tiedot on syötetty, huomaat, että muistikirjan asettelu on hyvin samanlainen kuin Jupyter-muistikirja. Testaamalla muistikirja tuodaan pyspark.

Komento suoritettiin 0,15 sekunnissa ja antaa myös klusterin nimen, jolla se toimii. Jos koodissa on virheitä, se näkyy cmd-ruudun alla.

Voit napsauttaa näppäimistön kuvaketta sivun oikeassa yläkulmassa nähdäksesi käyttöjärjestelmäkohtaiset pikavalinnat.

Tärkeimmät pikavalinnat ovat:

  • Suorita solu painamalla Vaihto + Enter
  • Ctrl + Enter jatkaa saman solun siirtymistä seuraavalle solulle

Huomaa, että nämä pikakuvakkeet ovat tarkoitettu Windowsille. Voit tarkistaa käyttöjärjestelmäkohtaiset pikakuvakkeet näppäimistökuvakkeesta.

4. Tietojen lataaminen Databricksiin

Siirry vasemman palkin Taulukot-osioon ja osoita Luo taulukko. Voit ladata tiedoston tai muodostaa yhteyden Spark-tietolähteeseen tai johonkin muuhun tietokantaan.

Ladataan yleisesti käytetty iiristiedostotiedosto tähän (jos sinulla ei ole tietoaineistoa, käytä tätä linkkiä)

Kun olet ladannut tiedot, luo taulukko käyttöliittymällä, jotta voit visualisoida taulukon ja esikatsella sitä ryhmässä. Kuten näette, voit tarkkailla taulukon ominaisuuksia. Spark yrittää tunnistaa kunkin sarakkeen tietotyypin ja antaa sinun muokata sitä.

Nyt minun täytyy laittaa otsikot sarakkeet, jotta voin tunnistaa kunkin sarakkeen niiden otsikko sijasta _c0, _c1ja niin edelleen.

Laitoin heidän otsikkonsa väliseinän pituudeksi, hupun leveydeksi, terälehden pituudeksi, terälehden leveydeksi ja luokaksi. Täällä Spark havaitsi neljän ensimmäisen sarakkeen tietotyypin virheellisesti merkkijonona, joten muutin sen halutuksi tietotyypiksi - Float.

5. Kuinka käyttää tietoja muistikirjasta

Spark on kehys, jota voidaan käyttää suurten tietojen analysointiin SQL: n, koneoppimisen, kaavioiden käsittelyn tai reaaliaikaisen suoratoistoanalyysin avulla. Työskentelemme SparkSQL: n ja datakehysten kanssa tässä opetusohjelmassa.

Aloitetaan työskenteleminen muistikirjan tietojen kanssa. Lataamamme tiedot asetetaan nyt taulukkomuodossa. Tarvitsemme SQL-kyselyn lukemaan tiedot ja asettamaan ne datakehykseen.

Tyyppi df = sqlContext.sql(“SELECT * FROM iris_data”)iiriksen tietojen lukemiseksi datakehykseksi.

Voit tarkastella datakehyksen viittä ensimmäistä riviä yksinkertaisesti suorittamalla komennon:

display(df.limit(5))

Huomaa pylväskaavion kuvake alareunassa. Kun napsautat, voit tarkastella Databricksiin tuomiasi tietoja. Voit tarkastella täydellisten tietojen pylväskaaviota suorittamalla display(df)sen sijaan display(df.limit(5)).

Pudotusvalikkopainikkeen avulla voit visualisoida tietoja eri kaavioissa, kuten palkkina, piirakana, sirontana ja niin edelleen. Se antaa myös piirtovaihtoehtoja juovan mukauttamiseksi ja vain tiettyjen sarakkeiden visualisoimiseksi.

Voit myös näyttää matplotlib- ja ggplot-luvut Databricksissa. Esittelyä varten katso Matplotlib ja ggplot Python-muistikirjoissa.

Voit tarkastella kaikkia tietojen sarakkeita kirjoittamalla df.columns

Voit laskea, kuinka monta riviä Dataframe-kehyksessä on (ja nähdä, kuinka kauan täysi tarkistus etälevyltä / S3: sta kestää), suorita df.count().

6. Spark-tietokehyksen muuntaminen Pandas-tietokehykseksi.

Nyt, jos olet tyytyväinen pandas-tietokehysten käyttämiseen ja haluat muuntaa Spark-tietokehyksen pandiksi, voit tehdä tämän asettamalla komennon

import pandas as pdpandas_df=df.to_pandas()

Nyt voit käyttää pandas_dfpandasoperaatioita datakehyksessä.

7. Spark-käyttöliittymän tarkastelu

Spark-käyttöliittymä sisältää runsaasti tietoa, jota tarvitaan Spark-töiden virheenkorjaukseen. On joukko upeita visualisointeja, joten katsotaanpa niitä ydin.

Spark-käyttöliittymään menemiseksi sinun on mentävä sivun yläosaan, jossa on joitain valikkovaihtoehtoja, kuten "Tiedosto", "Näytä", "Koodi", "Käyttöoikeudet" ja muut. Löydät klusterin nimen yläreunassa ”Liitteenä” -kohdan vieressä ja pudotusvalikkopainikkeen vieressä. Napsauta avattavaa painiketta ja valitse Näytä Spark UI. Uusi välilehti avautuu, ja siinä on paljon tietoa kannettavassasi.

Käyttöliittymänäkymä antaa paljon tietoa kustakin klusterissa suoritetusta työstä, vaiheista, ympäristöstä ja suoritetuista SQL-kyselyistä. Tästä käyttöliittymästä voi olla apua sovellusten virheenkorjauksessa. Lisäksi tämä käyttöliittymä antaa hyvän visualisoinnin Spark-suoratoistotilastoista. Tästä linkistä saat lisätietoja Spark-käyttöliittymän jokaisesta osa-alueesta.

Kun olet valmis muistikirjan kanssa, voit mennä eteenpäin ja julkaista sen tai viedä tiedoston eri tiedostomuodoissa siten, että joku muu voi käyttää sitä ainutlaatuisen linkin avulla. Olen liittänyt muistikirjani HTML-muodossa.

Käärimistä

Tämä on lyhyt kuvaus siitä, miten voit aloittaa Databricksin käytön nopeasti ja suorittaa ohjelmat. Databricksin käytön etuna on, että se tarjoaa end-to-end-palvelun analytiikan, tietovaraston ja koneoppimissovellusten rakentamiseen. Koko Spark-klusteria voidaan hallita, valvoa ja suojata Databricks-palvelun itsepalvelumallilla.

Tässä on mielenkiintoisia linkkejä datatieteilijöille ja datainsinööreille. Tässä on myös opetusohjelma, jonka pidin erittäin hyödyllisenä ja joka on loistava aloittelijoille.