Koti Trends Mikä $ @! on hadoop?

Mikä $ @! on hadoop?

Sisällysluettelo:

Anonim

Kaikki puhuvat Hadoopista, kuumasta uudesta tekniikasta, joka on kehittäjien keskuudessa erittäin arvostettu ja saattaa vain muuttaa maailmaa (jälleen). Mutta mitä se on joka tapauksessa? Onko se ohjelmointikieli? Tietokanta? Käsittelyjärjestelmä? Intialainen tee kodikas?


Laaja vastaus: Hadoop on kaikki nämä asiat (paitsi tee kodikas) ja paljon muuta. Se on ohjelmistokirjasto, joka tarjoaa ohjelmointikehyksen toisen modernin buzzwordin: big datan halvalle, hyödylliselle käsittelylle.

Mistä Hadoop tuli?

Apache Hadoop on osa Apache Software Foundation -säätiön hanketta, joka on voittoa tavoittelematon organisaatio, jonka tehtävänä on "tarjota ohjelmistoja yleisen edun hyväksi". Sellaisena Hadoop-kirjasto on ilmainen avoimen lähdekoodin ohjelmisto, joka on kaikkien kehittäjien saatavilla.


Google keksi todellisen Hadoop-tekniikkaa hyödyntävän tekniikan. Alkuaikoina ei-aivan jättiläinen hakukone tarvitsi tavan indeksoida Internetistä keräämiäsä valtavia tietomääriä ja muuttaa siitä käyttäjille merkityksellisiä, osuvia tuloksia. Koska markkinoilla ei ole mitään, joka vastaisi heidän vaatimuksia, Google rakensi oman alustansa.


Nämä innovaatiot julkaistiin avoimen lähdekoodin projektissa nimeltä Nutch, jota Hadoop myöhemmin käytti säätiönä. Pohjimmiltaan Hadoop käyttää Googlen voimaa isoihin tietoihin tavalla, joka on edullista kaiken kokoisille yrityksille.

Kuinka Hadoop vaikuttaa?

Kuten aiemmin mainittiin, Hadoop ei ole yksi asia - se on monia asioita. Ohjelmistokirjasto, joka on Hadoop, koostuu neljästä pääosasta (moduuleista) ja joukosta lisäratkaisuja (kuten tietokannat ja ohjelmointikielet), jotka parantavat sen reaalimaailman käyttöä. Neljä moduulia ovat:

  • Hadoop Common: Tämä on kokoelma yleisiä apuohjelmia (yhteinen kirjasto), joka tukee Hadoop-moduuleja.
  • Hadoop-hajautettu tiedostojärjestelmä (HDFS): Vakaa hajautettu tiedostojärjestelmä, jolla ei ole rajoituksia tallennetulle tiedolle (tarkoittaen, että tiedot voivat olla joko jäsenneltyjä tai jäsentämättömiä ja kaavamaisia, missä monet DFS-järjestelmät tallentavat vain jäsenneltyä tietoa), joka tarjoaa suuren suorituskyvyn pääsyn redundanssilla ( HDFS mahdollistaa tietojen tallentamisen useille koneille - joten jos yksi kone epäonnistuu, saatavuus ylläpidetään muiden koneiden kautta).
  • Hadoop YARN: Tämä kehys vastaa työn aikataulusta ja klusterresurssien hallinnasta; se varmistaa, että tiedot on jaettu riittävästi useille koneille redundanssin ylläpitämiseksi. YARN on moduuli, joka tekee Hadoopista edullisen ja kustannustehokkaan tavan käsitellä suurta dataa.
  • Hadoop MapReduce: Tämä Google-tekniikkaan rakennettu YARN-pohjainen järjestelmä suorittaa suurten (rakenteellisten ja jäsentämättömien) tietojoukkojen rinnakkaisprosessoinnin. MapReduce löytyy myös useimmista nykypäivän suurista tietojenkäsittelykehyksistä, mukaan lukien MPP- ja NoSQL-tietokannat.
Kaikki nämä yhdessä toimivat moduulit tuottavat hajautetun prosessoinnin suurille datasarjoille. Hadoop-kehys käyttää yksinkertaisia ​​ohjelmointimalleja, jotka toistetaan tietokoneklustereissa, mikä tarkoittaa, että järjestelmä voi skaalata yksittäisistä palvelimista tuhansiksi koneiksi lisäämään prosessointitehoa sen sijaan, että luottaisi pelkästään laitteisiin.


Laitteisto, joka pystyy käsittelemään suuren datan käsittelemiseen tarvittavaa prosessointitehoa, on lievästi sanottuna kallis. Tämä on Hadoopin todellinen innovaatio: kyky hajottaa valtavia määriä prosessointitehoa useille pienemmille koneille, jokaisella on oma paikallinen laskenta ja tallennus, sekä sisäänrakennettu redundanssi sovellustasolla virheiden estämiseksi.

Mitä Hadoop tekee?

Yksinkertaisesti sanottuna Hadoop tekee isoista tiedoista kaikkien saatavilla ja käytettäväksi.


Ennen Hadoopia suuria tietoja käyttäneet yritykset tekivät niin lähinnä relaatiotietokantoihin ja yritystietovarastoihin (jotka käyttävät valtavia määriä kalliita laitteita). Vaikka nämä työkalut ovat erinomaisia ​​strukturoidun datan - joka on jo lajiteltu ja järjestetty hallittavalla tavalla - prosessoimiseksi, rakenteellisten tietojen käsittelykyky oli erittäin rajallinen, niin paljon, että sitä ei käytännössä ollut. Jotta tietoja voitaisiin käyttää, tiedot oli ensin järjestettävä siten, että ne sopisivat taulukoihin.


Hadoop-kehys muuttaa tätä vaatimusta ja tekee sen halvalla. Hadoopilla massiiviset tietomäärät 10 - 100 gigatavua tai enemmän, sekä rakenteellisia että rakenteettomia, voidaan käsitellä tavallisilla (hyödyke) palvelimilla.


Hadoop tuo potentiaalisia suuria tietosovelluksia kaiken kokoisille yrityksille kaikilla toimialoilla. Avoimen lähdekoodin puitteiden avulla rahoitusyritykset voivat luoda hienostuneita malleja salkun arviointiin ja riskianalyysiin tai online-vähittäiskauppiaiden hienosäätää hakuvastauksiaan ja ohjata asiakkaita todennäköisemmin ostamiin tuotteisiin.


Hadoopin avulla mahdollisuudet ovat todella rajattomat.

Mikä $ @! on hadoop?