Sisällysluettelo:
- Big Data on jäsentämätöntä tai puolittain rakennettua
- Ei ole järkeä tallentaa suuria tietoja, jos emme pysty käsittelemään sitä
- Kuinka Hadoop ratkaisee suurten tietojen ongelman
- Hadoopin liiketoimintatapa
Big data on … no … iso koko! Sitä, kuinka paljon tietoja voidaan luokitella isoiksi tiedoiksi, ei ole kovin selkeä, joten älkäämme juuttuko siihen keskusteluun. Pienelle yritykselle, joka on tottunut käsittelemään dataa gigatavuina, 10 TB dataa olisi BIG. Kuitenkin sellaisille yrityksille kuin Facebook ja Yahoo, petabyytit ovat suuret.
Pelkästään suurien tietojen koko tekee mahdottomaksi (tai ainakin kustannuksia estävän) tallentamisen perinteiseen tallennustilaan, kuten tietokantoihin tai tavanomaisiin tiedostoihin. Puhumme gigatavujen tietojen tallennuskustannuksista. Perinteisten tallennusrekisterien käyttäminen voi maksaa paljon rahaa suurten tietojen tallentamiseen.
Tässä tarkastellaan suuria tietoja, niiden haasteita ja miten Hadoop voi auttaa niiden ratkaisemisessa. Ensinnäkin, big datan suurimmat haasteet.
Big Data on jäsentämätöntä tai puolittain rakennettua
Paljon suurta dataa on jäsentämätöntä. Esimerkiksi napsauttamalla stream-lokitiedot saattavat näyttää seuraavalta:
aikaleima, käyttäjätunnus, sivu, viittaussivu
Rakenteen puute tekee relaatiotietokannoista, jotka eivät ole sopivia suurten tietojen tallentamiseen. Lisäksi monet tietokannat eivät selviä miljardeja rivejä tietoja.
Ei ole järkeä tallentaa suuria tietoja, jos emme pysty käsittelemään sitä
Suurien tietojen tallentaminen on osa peliä. Meidän on käsiteltävä se tiedustelupalvelun saamiseksi siitä. Perinteiset tallennusjärjestelmät ovat melko "tyhmiä" siinä mielessä, että ne vain tallentavat bittejä. Ne eivät tarjoa mitään käsittelytehoa.
Perinteisessä tietojenkäsittelymallissa on tietoja, jotka on tallennettu tallennus klusteriin, joka kopioidaan laskentoklusteriin käsittelyä varten. Tulokset kirjoitetaan takaisin tallennus klusteriin.
Tämä malli ei kuitenkaan aivan toimi isojen tietojen kanssa, koska niin suuren datan kopioiminen laskentaklusteriin voi olla liian aikaa vievää tai mahdotonta. Joten mikä on vastaus?
Yksi ratkaisu on prosessoida iso data paikallaan, kuten varastointi klusterissa, joka kaksinkertaistuu laskennallisena klusterina.
Joten kuten edellä olemme nähneet, iso data uhmaa perinteistä tallennusta. Joten miten käsittelemme suuria tietoja?
Kuinka Hadoop ratkaisee suurten tietojen ongelman
Hadoop on rakennettu toimimaan klusterikoneissaAloitetaan esimerkillä. Oletetaan, että meidän on tallennettava paljon kuvia. Aloitamme yhdellä levyllä. Kun ylitämme yhden levyn, saatamme käyttää muutamia koneessa pinottuja levyjä. Kun maksimoimme kaikki levyt yhdellä koneella, meidän on saatava joukko koneita, joissa jokaisessa on joukko levyjä.
Näin Hadoop on rakennettu. Hadoop on suunniteltu toimimaan koneiden klusterissa alusta alkaen.
Hadoop-klusterit skaalautuvat vaakatasossa
Lisää tallennus- ja laskentatehoa voidaan saavuttaa lisäämällä lisää solmuja Hadoop-klusteriin. Tämä poistaa tarpeen ostaa enemmän ja tehokkaampia ja kalliimpia laitteita.
Hadoop pystyy käsittelemään jäsentämätöntä / osittain jäsentämätöntä tietoa
Hadoop ei valvo järjestelmää tallentamiinsa tietoihin. Se pystyy käsittelemään mielivaltaista tekstiä ja binaaritietoja. Joten Hadoop voi sulauttaa kaiken rakenteettoman tiedon helposti.
Hadoop-klusterit tarjoavat tallennusta ja laskentaa
Näimme, kuinka erilliset tallennus- ja käsittely klusterit eivät ole parhaiten sopivia suurille tiedoille. Hadoop-klusterit tarjoavat kuitenkin tallennustilan ja hajautetun laskennan yhdessä.
Hadoopin liiketoimintatapa
Hadoop tarjoaa isojen tietojen tallennuksen kohtuulliseen hintaanSuurten tietojen tallentaminen perinteistä tallennusta käyttämällä voi olla kallista. Hadoop on rakennettu hyödykelaitteiden ympärille, joten se voi tarjota melko suuren tallennustilan kohtuulliseen hintaan. Hadoop-kenttää on käytetty kentällä petabyytin mittakaavassa.
Yksi Clouderan tekemä tutkimus ehdotti, että yritykset käyttävät yleensä noin 25 000–50 000 dollaria teratavua kohti vuodessa. Hadoopin kanssa tämä hinta putoaa muutamaan tuhanteen dollariin teratavulta vuodessa. Koska laitteistot halvempaa, kustannukset laskevat edelleen.
Hadoop sallii uuden tai useamman datan sieppauksen
Joskus organisaatiot eivät kaappaa tietyn tyyppisiä tietoja, koska niiden tallentaminen oli liian kustannuksellista. Koska Hadoop tarjoaa tallennuksen kohtuulliseen hintaan, tämäntyyppiset tiedot voidaan siepata ja tallentaa.
Yksi esimerkki olisi verkkosivustojen napsautuslokit. Koska näiden lokien määrä voi olla erittäin suuri, harvat organisaatiot eivät kiinni niitä. Nyt Hadoopilla on mahdollista tallentaa ja tallentaa lokit.
Hadoopin avulla voit tallentaa tietoja pidempään
Tallennetun tiedon määrän hallitsemiseksi yritykset puhdistavat säännöllisesti vanhemmat tiedot. Esimerkiksi vain viimeisen kolmen kuukauden lokit voitiin tallentaa, kun taas vanhemmat lokit poistettiin. Hadoopilla on mahdollista tallentaa historiallista tietoa pidempään. Tämä sallii uuden analyysin tekemisen vanhemmille historiallisille tiedoille.
Ota esimerkiksi napsautuslokeja verkkosivustolta. Muutama vuosi sitten nämä lokit tallennettiin lyhyeksi ajaksi tilastojen, kuten suosittujen sivujen, laskemiseksi. Nyt Hadoopin kanssa on kannattavaa tallentaa näitä napsautuslokeja pidempään aikaan.
Hadoop tarjoaa skaalattavaa analytiikkaa
Kaikkia näitä tietoja ei ole tarpeellista tallentaa, jos emme pysty analysoimaan niitä. Hadoop ei vain tarjoa hajautettua tallennusta, vaan myös hajautettua prosessointia, mikä tarkoittaa, että pystymme puristamaan suuren määrän dataa samanaikaisesti. Hadoopin laskennallinen kehys on nimeltään MapReduce. MapReduce on todistettu petatavujen mittakaavassa.
Hadoop tarjoaa runsaasti analytiikkaa
Native MapReduce tukee Javaa ensisijaisena ohjelmointikielenä. Muita kieliä, kuten Ruby, Python ja R, voidaan myös käyttää.
Mukautetun MapReduce-koodin kirjoittaminen ei tietenkään ole ainoa tapa analysoida tietoja Hadoopissa. Korkeamman tason karttaa voidaan käyttää. Esimerkiksi Pig-niminen työkalu vie englantia kuten tiedonsiirtokieli ja kääntää ne MapReduce-muotoon. Toinen työkalu, Hive, ottaa SQL-kyselyitä ja suorittaa ne MapReduce-sovelluksella.
Business Intelligence (BI) -työkalut voivat tarjota entistä korkeamman tason analyysejä. Tämän tyyppiseen analyysiin on olemassa työkaluja.
Tämä sisältö on katkelma Mark Kerznerin ja Sujee Maniyamin julkaisusta "Hadoop Illuminated". Se on asetettu saataville Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported -lisenssillä.