K:
Kuinka voin oppia Hadoopin avulla analysoimaan suuria tietoja?
V:Apache-ohjelmistojoukosta, joka tunnetaan nimellä Hadoop, on tulossa erittäin suosittu resurssi suurten tietojoukkojen käsittelemiseen. Tämän tyyppinen tietojenkäsittelyohjelmistokehys on rakennettu auttamaan tietojen aggregointia tietyillä tavoilla suunnitelmien pohjalta, jotka voivat tehdä tietyn tyyppisiä dataprojekteja tehokkaammiksi. Hadoop on kuitenkin vain yksi monista työkaluista suurten tietojoukkojen käsittelemiseksi.
Yksi ensimmäisistä ja perusteellisimmista tavoista oppia isojen tietojen analysoinnista Hadoopin kanssa on ymmärtää joitain Hadoopin ylimmän tason komponentteja ja mitä se tekee. Näihin kuuluvat Hadoop YARN "resurssienhallintaympäristö", jota voidaan soveltaa tietyntyyppisiin verkkoasetuksiin, sekä Hadoop MapReduce -sarja toimintoja, jotka koskevat suuria tietojoukkoja. Mukana on myös Hadoopin hajautettu tiedostojärjestelmä (HDFS), joka auttaa tallentamaan tietoja hajautettuihin järjestelmiin, jotta se voidaan nopeasti ja tehokkaasti indeksoida tai noutaa.
Tämän lisäksi ne, jotka haluavat tuntea Hadoopin, voivat tarkastella erillisiä julkaistuja lähteitä ammattilaisille, jotka selittävät ohjelmiston luotettavuustasolla. Tämä esimerkki Chris Stucchiosta henkilökohtaisessa blogissa tarjoaa erinomaisen joukon pisteitä Hadoopista ja data-asteikosta. Yksi perustoiminnoista on se, että Hadoopia voidaan käyttää yleisemmin kuin on tarpeen, eikä se välttämättä ole paras ratkaisu yksittäiseen projektiin. Tällaisten resurssien tarkistaminen auttaa ammattilaisia tuntemaan paremmin Hadoopin käytön yksityiskohdat missä tahansa skenaariossa. Stucchio tarjoaa myös metafooria Hadoopin toimintojen yhdistämiseksi tiettyihin fyysisiin tehtäviin. Tässä esimerkissä lasketaan kirjastossa olevien kirjojen lukumäärä, kun taas Hadoop-funktio saattaa hajottaa kyseisen kirjaston osioiksi, jolloin saadaan yksittäisiä laskelmia, jotka on sekoitettu yhteen kokonaistietotulokseen.
Yksityiskohtaisempi tapa, jolla ammattilaiset voivat oppia lisää Hadoopista ja sen soveltamisesta isoihin tietoihin, on erityisten koulutusresurssien ja -ohjelmien avulla. Esimerkiksi verkko-oppimisyrityksellä Clouderalla, joka on merkittävä etäkoulutustilaisuuksien tarjoaja, on useita mielenkiintoisia vaihtoehtoja Hadoopin käytön ja samanlaisten tietojenkäsittelyn ympärillä.