Sisällysluettelo:
- Kuinka Hadoop sai alkunsa?
- Mikä on niin tärkeää Hadoopissa?
- Mikä on luettu skeema?
- Mikä on Hive?
- Millaisia tietoja Hadoop analysoi?
- Voitko antaa todellisen esimerkin Hadoopista?
- Onko Hadoop jo vanhentunut vai vain surkeutunut?
Mikä on Hadoop? Se on keltainen lelu norsu. Etkö ole sitä mitä odotit? Entä tästä: Doug Cutting - tämän avoimen lähdekoodin ohjelmistoprojektin luoja - lainasi nimen pojaltansa, joka sattui kutsumaan hänen lelu-elefanttinsa Hadoopiksi. Lyhyesti sanottuna, Hadoop on Apache Software Foundation -säätiön kehittämä ohjelmistokehys, jota käytetään kehittämään dataintensiivistä, hajautettua laskentaa. Ja se on avainasemassa toisessa hakusananlukijassa, jonka lukijat eivät koskaan näytä saavan tarpeeksi: suurta dataa. Tässä on seitsemän asiaa, jotka sinun pitäisi tietää tästä ainutlaatuisesta, vapaasti lisensoidusta ohjelmistosta.
Kuinka Hadoop sai alkunsa?
Kaksitoista vuotta sitten Google rakensi alustan manipuloidakseen valtavia määriä tietoja, joita se kerää. Kuten yritys usein tekee, Google antoi mallinsa yleisön saataville kahden paperin muodossa: Google File System ja MapReduce.
Samaan aikaan Doug Cutting ja Mike Cafarella työskentelivät uuden hakukoneen Nutchin kanssa. Nämä kaksi kamppailivat myös kuinka käsitellä suuria määriä dataa. Sitten kaksi tutkijaa saivat Google-lehden tuulen. Tämä onnekas risteys muutti kaiken tuomalla Cutting ja Cafarella parempaan tiedostojärjestelmään ja tapaan seurata tietoja, mikä lopulta johtaa Hadoopin luomiseen.
Mikä on niin tärkeää Hadoopissa?
Nykyään tietojen kerääminen on helpompaa kuin koskaan. Kaikkien näiden tietojen saaminen tarjoaa monia mahdollisuuksia, mutta myös haasteita:- Valtavat tietomäärät vaativat uusia käsittelymenetelmiä.
- Kaapattavat tiedot ovat jäsentämättömässä muodossa.
Seuraavaksi heidän oli käsiteltävä jäsentämätöntä tietoa tai tietoja muodoissa, joita tavanomaiset relaatiotietokantajärjestelmät eivät kyenneet käsittelemään. Leikkaus ja Cafarella suunnittelivat Hadoopin toimimaan kaiken tyyppisissä tiedoissa: jäsennellyissä, jäsentämättömissä, kuvissa, äänitiedostoissa, jopa tekstissä. Tämä Cloudera (Hadoop-integraattori) -kirja selittää miksi tämä on tärkeää:
-
"Tekemällä kaikki tietosi käytettäväksi, ei vain tietokantoihin, Hadoop antaa sinulle mahdollisuuden paljastaa piilotetut suhteet ja paljastaa vastaukset, jotka ovat aina olleet vain ulottumattomissa. Voit alkaa tehdä enemmän päätöksiä kovien tietojen perusteella, ei haasteiden sijaan, ja katsoa täydellisissä tietokokonaisuuksissa, ei vain näytteitä ja yhteenvetoja. "
Mikä on luettu skeema?
Kuten aiemmin mainittiin, yksi Hadoopin eduista on sen kyky käsitellä jäsentämätöntä tietoa. Tietyssä mielessä se on "tölkin potkut tiellä". Lopulta tiedot tarvitsevat jonkinlaista rakennetta sen analysoimiseksi.
Tällöin lukema skeema tulee peliin. Luettu kaavio on sulatus siihen, missä muodossa tiedot ovat, mistä tiedot löytyvät (muista, että tiedot ovat hajallaan useiden palvelimien välillä), ja mitä datalle on tehtävä - ei yksinkertainen tehtävä. On sanottu, että datan käsitteleminen Hadoop-järjestelmässä vaatii liiketoiminta-analyytikon, tilastotieteen ja Java-ohjelmoijan taitoja. Valitettavasti ihmisillä, joilla ei ole pätevyyttä, ei ole paljon.
Mikä on Hive?
Jos Hadoop menestyi, tietojen käsittelyä oli yksinkertaistettava. Joten avoimen lähdekoodin joukko sai töihin ja loi Hive:-
"Hive tarjoaa mekanismin rakenteen rakentamiseksi näille tiedoille ja tietojen kyselylle SQL-tyyppisellä kielellä, jota kutsutaan HiveQL: ksi. Samanaikaisesti tämä kieli antaa myös perinteisille kartta- / pienennysohjelmoijille mahdollisuuden kytkeä mukautetut karttaajat ja pelkistimet, kun se on hankalaa tai tehoton ilmaista tätä logiikkaa HiveQL: ssä. "
Hive mahdollistaa molempien maailmojen parhaat puolet: SQL-komennot tunteva tietokantahenkilöstö voi käsitellä tietoja, ja lukuprosessin skeemalle tutut kehittäjät pystyvät silti luomaan räätälöityjä kyselyjä.
Millaisia tietoja Hadoop analysoi?
Web-analytiikka on ensimmäinen asia, joka tulee mieleen, kun analysoidaan Web-lokit ja verkkoliikenne verkkosivustojen optimoimiseksi. Esimerkiksi Facebook on ehdottomasti sisällytettävä verkkoanalytiikkaan. Hadoopilla lajitellaan yrityksen keräämien tietojen teratavua.
Yritykset käyttävät Hadoop-klustereita riskianalyysien, petosten havaitsemisen ja asiakaspohjaisen segmentoinnin tekemiseen. Hyötyyhtiöt analysoivat Hadoopin avulla sähköverkon anturitietoja, jotta ne voivat optimoida sähköntuotannon. Suuret yritykset, kuten Target, 3M ja Medtronics, käyttävät Hadoopia optimoimaan tuotejakelu, liiketoimintariskien arviointi ja asiakaspohjainen segmentointi.
Yliopistot sijoitetaan myös Hadoopiin. St. Thomasin yliopiston ohjelmistotekniikan apulaisprofessori Brad Rubin mainitsi, että hänen Hadoop-asiantuntemuksensa auttaa lajittelemaan runsaasti tietoja, jotka yliopiston tutkimusryhmät ovat keränneet.
Voitko antaa todellisen esimerkin Hadoopista?
Yksi tunnetuimmista esimerkeistä on TimesMachine. New York Times -kokoelmassa on koko sivun koko TIFF-kuvia, niihin liittyviä metatietoja ja artikkelitekstejä vuodesta 1851 vuoteen 1922, teratavuina dataa. NYT: n Derek Gottfrid, joka käyttää EC2 / S3 / Hadoop-järjestelmää ja erikoistunutta koodia:-
"Otetaan 405 000 erittäin suurta TIFF-kuvaa, 3, 3 miljoonaa artikkelia SGML: ssä ja 405 000 xml-tiedostoa, jotka kuvaavat artikkeleita suorakaiteen muotoisiksi alueiksi TIFF: ssä. Tiedot muutettiin verkkoystävällisemmiksi 810 000 PNG-kuvaksi (pikkukuvat ja kokonaiset kuvat) ja 405 000 JavaScript-tiedostoksi. "
Gottfrid mainitsi Amazon Web Services -pilven palvelimia käyttävänsä pystyvän käsittelemään kaikki TimesMachine-tietokoneelle vaadittavat tiedot alle 36 tunnissa.
Onko Hadoop jo vanhentunut vai vain surkeutunut?
Hadoop on ollut olemassa jo yli kymmenen vuotta. Se on monien mielestä vanhentunut. Yksi asiantuntija, tohtori David Rico, on sanonut, että "IT-tuotteet ovat lyhytaikaisia. Koiravuosina Googlen tuotteita on noin 70, kun taas Hadoop on 56".
Rico voi sanoa totuudenmukaisesti. Näyttää siltä, että Hadoop on parhaillaan tekemässä merkittävää uudistusta. Saadaksesi lisätietoja siitä, Rubin kutsui minut Twin Cities Hadoopin käyttäjäryhmän kokoukseen, ja keskustelun aiheena oli Johdanto lankaan:
-
"Apache Hadoop 2 sisältää uuden MapReduce-moottorin, jolla on useita etuja aikaisempaan toteutukseen verrattuna, mukaan lukien parempi skaalautuvuus ja resurssien käyttö. Uusi toteutus on rakennettu yleiseen resurssienhallintajärjestelmään hajautettujen sovellusten ajamiseksi nimeltään YARN."