Pika yleiskatsaus Apache Hadoop -kehykseen

Hadoop, joka tunnetaan nyt nimellä Apache Hadoop, nimettiin leluelefantin mukaan, joka kuului perustaja Doug Cuttingin pojalle. Doug valitsi avoimen lähdekoodin projektille nimen, koska se oli helppo kirjoittaa, lausua ja löytää hakutuloksista. Alkuperäinen keltainen täytetty norsu, joka inspiroi nimeä, näkyy Hadoopin logossa.

Mikä on Apache Hadoop?

Apache Hadoop -ohjelmistokirjasto on kehys, joka mahdollistaa suurten tietojoukkojen hajautetun käsittelyn tietokoneiden klustereissa yksinkertaisia ​​ohjelmointimalleja käyttämällä. Se on suunniteltu laajentamaan yksittäisiltä palvelimilta tuhansille koneille, joista jokainen tarjoaa paikallisen laskennan ja tallennustilan. Sen sijaan, että luotettaisiin laitteistoihin korkean käytettävyyden tarjoamiseksi, kirjasto itsessään on suunniteltu havaitsemaan ja käsittelemään viat sovelluskerroksessa, joten se tarjoaa erittäin saatavilla olevan palvelun tietokoneryhmän päällä, joista jokainen voi olla altis vikoille.

Lähde: Apache Hadoop

Vuonna 2003 Google julkaisi paperinsa Google-tiedostojärjestelmässä (GFS). Siinä kuvataan oma hajautettu tiedostojärjestelmä, jonka tarkoituksena on tarjota tehokas pääsy suuriin tietomääriin hyödykelaitteiston avulla. Vuotta myöhemmin Google julkaisi toisen paperin nimeltä "MapReduce: yksinkertaistettu tietojenkäsittely suurissa klustereissa". Tuolloin Doug työskenteli Yahoossa. Nämä paperit olivat inspiraationa hänen avoimen lähdekoodin projektiinsa Apache Nutch. Vuonna 2006 projektikomponentit, jotka silloin tunnettiin nimellä Hadoop, siirtyivät pois Apache Nutchista ja vapautettiin.

Miksi Hadoop on hyödyllinen?

Joka päivä luodaan miljardeja gigatavuja tietoja eri muodoissa. Joitakin esimerkkejä usein luotuista tiedoista ovat:

  • Metatiedot puhelimen käytöstä
  • Sivuston lokit
  • Luottokorttitapahtumat
  • Sosiaalisen median viestit
  • Videot
  • Lääketieteellisistä laitteista kerätyt tiedot

”Suurilla tiedoilla” tarkoitetaan tietojoukkoja, jotka ovat liian suuria tai monimutkaisia ​​käsiteltäviksi perinteisiä ohjelmistosovelluksia käyttämällä. Tietojen monimutkaisuuteen vaikuttavat tekijät ovat tietojoukon koko, käytettävissä olevien prosessorien nopeus ja tietojen muoto.

Julkaisun aikaan Hadoop pystyi käsittelemään tietoja laajemmassa mittakaavassa kuin perinteiset ohjelmistot.

Ydin Hadoop

Tiedot tallennetaan Hadoop Distributed File System (HDFS) -järjestelmään. Kartan pienennystä käyttämällä Hadoop käsittelee tietoja rinnakkain (käsitellään useita osia samanaikaisesti) eikä yhdessä jonossa. Tämä vähentää suurten tietojoukkojen käsittelyyn tarvittavaa aikaa.

HDFS toimii tallentamalla suuria paloiksi jaettuja tiedostoja ja kopioimalla ne monille palvelimille. Useiden kopioiden käyttäminen tiedostoista luo tarpeettomuuden, joka suojaa tietojen menetykseltä.

Hadoop-ekosysteemi

Hadoopia täydentääkseen on olemassa monia muita ohjelmistopaketteja. Nämä ohjelmat sisältävät Hadoop-ekosysteemin. Jotkin ohjelmat helpottavat tietojen lataamista Hadoop-klusteriin, kun taas toiset helpottavat Hadoopin käyttöä.

Hadoop-ekosysteemi sisältää:

  • Apache Hive
  • Apache-sika
  • Apache HBase
  • Apache Phoenix
  • Apache Spark
  • Apache ZooKeeper
  • Cloudera Impala
  • Apache Flume
  • Apache Sqoop
  • Apache Oozie

Lisää tietoa:

  • Apache Hadoop