Koti It-Business Tiedot, suuret ja pienet: missä on todellinen arvo?

Tiedot, suuret ja pienet: missä on todellinen arvo?

Sisällysluettelo:

Anonim

Big data on yleissana, jota käytetään viittaamaan suurten tietomäärien käsittelemiseen. Me kaikki ymmärrämme, että mitä suurempi tietomäärä, sitä monimutkaisemmaksi se tulee. Perinteiset tietokantaratkaisut eivät usein pysty hallitsemaan suuria tietomääriä kunnolla niiden monimutkaisuuden ja koon vuoksi. Siksi suurten tietomäärien hallinta ja todellisen oivalluksen saaminen on haastava tehtävä. Samaa "arvo" -käsitettä voidaan soveltaa myös pieniin tietoihin.

Kuinka suuria tietoja käytetään

RDBMS-konseptiin perustuvat perinteiset tietokantaratkaisut voivat hallita transaktiotietoja erittäin hyvin ja niitä käytetään laajasti eri sovelluksissa. Mutta kun kyse on suuren tietosarjan (arkistoidut tiedot, teratavuina tai petatavuina) käsittelystä, nämä tietokantaratkaisut epäonnistuvat usein. Nämä tietojoukot ovat liian suuria ja useimmiten ne eivät sovi perinteisten tietokantojen arkkitehtuuriin. Nykyään isoista tiedoista on tullut kustannustehokas tapa lähestyä suurempien tietosarjojen käsittelyä. Organisaation kannalta isodatan käyttö voidaan jakaa seuraaviin luokkiin, joissa bigdatan todellinen arvo on:

  • Analyyttinen käyttö

    Suurten tietojen analyytikot ovat paljastaneet monia tärkeitä piilotettuja näkökohtia tiedoista, jotka ovat liian kalliita käsitellä. Esimerkiksi, jos joudumme tarkistamaan opiskelijoiden trendi-kiinnostuksen tietystä uudesta aiheesta, voimme tehdä tämän analysoimalla päivittäisiä osallistumistilastoja ja muita sosiaalisia ja maantieteellisiä tietoja. Nämä tosiasiat tallennetaan tietokantaan. Jos emme pääse näihin tietoihin tehokkaalla tavalla, emme näe tuloksia.

  • Ota käyttöön uusia tuotteita

    Lähitulevaisuudessa monet uudet verkkoyritykset, kuten Facebook, ovat alkaneet käyttää suuria tietoja ratkaisuna uusien tuotteiden lanseeraamiseen. Me kaikki tiedämme, kuinka suosittu Facebook on - se on onnistuneesti laatinut tehokkaan käyttökokemuksen isoilla tiedoilla.

Missä on todellinen arvo?

Eri suuret dataratkaisut eroavat toisistaan ​​lähestymistavassa, jossa ne tallentavat dataa, mutta lopulta kaikki tallentavat tietoja tasaisessa tiedostorakenteessa. Yleensä Hadoop koostuu tiedostojärjestelmästä ja joistakin käyttöjärjestelmätason abstraktioista. Tähän sisältyy MapReduce-moottori ja Hadoop Distributed File System (HDFS). Yksinkertainen Hadoop-klusteri sisältää yhden isäntäsolmun ja useita työntekijäsolmuja. Pääsolmu koostuu seuraavista:

  • Tehtävien seuranta
  • Job Tracker
  • Nimi Solmu
  • Tietosolmu
Työntekijän solmu koostuu seuraavista:
  • Tehtävien seuranta
  • Tietosolmu

Joissakin toteutuksissa on vain datasolmu. Tietosolmu on todellinen alue, jolla data sijaitsee. HDFS tallentaa suuria tiedostoja (teratavuista petatavuihin) useille koneille. Jokaisen solmun datan luotettavuus saavutetaan toistamalla data kaikkien isäntien välillä. Siksi tiedot ovat saatavilla, vaikka yksi solmuista olisi alhaalla. Tämä auttaa saavuttamaan nopeamman vastauksen kyselyihin. Tämä käsite on erittäin hyödyllinen suurten sovellusten, kuten Facebook, tapauksessa. Käyttäjänä saamme vastauksen chat-pyyntöömme esimerkiksi melkein välittömästi. Mieti tilannetta, jossa käyttäjän on odotettava pitkään chattaillessaan. Jos viestiä ja sitä seuraavaa vastausta ei toimiteta heti, kuinka moni ihmistä käyttää näitä chattityökaluja?

Palaa takaisin Facebook-toteutukseen, jos tietoja ei replikoida klusterien välillä, houkutteleva toteutus ei ole mahdollista. Hadoop jakaa tiedot koneille suuremmassa klusterissa ja tallentaa tiedostot lohkojonona. Nämä lohkot ovat samankokoisia paitsi viimeinen lohko. Lohkon koko ja toistokerroin voidaan räätälöidä tarpeen mukaan. HDFS: n tiedostot noudattavat tiukasti kerran kirjoittamista -lähestymistapaa, joten niitä voi kirjoittaa tai muokata vain yksi käyttäjä kerrallaan. Päätökset lohkojen toisinnasta tehdään nimisolmulla. Nimesolmu vastaanottaa raportteja ja pulssivasteita jokaiselta datasolmulta. Pulssivasteilla varmistetaan vastaavan datasolmun saatavuus. Raportti sisältää tiedot datasolmun lohkoista.


Toinen iso tietotekniikka, Cassandra, käyttää myös samanlaista jakelukonseptia. Cassandra jakaa tietoja maantieteellisen sijainnin perusteella. Siksi Cassandrassa tiedot erotellaan datan käytön maantieteellisen sijainnin perusteella.

Joskus pienet tiedot tekevät suuremman (ja halvemman) vaikutuksen

Kuten Open Knowledge Foundation -säätiön Rufus Pollock toteaa, ei ole mitään järkeä luoda hypeen datan ympärille hyvää tietoa, kun taas pieni tieto on edelleen paikka, jossa todellinen arvo on.


Kuten nimestä voi päätellä, pieni data on datajoukko, joka on kohdennettu suuremmasta tietojoukosta. Pieni data aikoo siirtää painopisteen tiedon käytöstä ja sen tarkoituksena on myös torjua suuntausta siirtyä kohti suurta dataa. Pienet tiedot -lähestymistapa auttaa keräämään tietoja erityisiin vaatimuksiin perustuen vähemmän vaivaa käyttämällä. Seurauksena on, että se on tehokkaampi liiketoimintakäytäntö samalla kun toteutetaan liiketietoja.


Piendatan käsite pyörii ytimessä yrityksissä, jotka vaativat tuloksia, jotka edellyttävät lisätoimia. Nämä tulokset on haettava nopeasti ja myös seuraava toimenpide on suoritettava nopeasti. Siten voimme eliminoida sellaiset järjestelmät, joita yleisesti käytetään isojen tietojen analysoinnissa.


Yleisesti ottaen, jos tarkastellaan joitain erityisiä järjestelmiä, joita tarvitaan suurten tietojen hankkimiseen, yritys saattaa investoida paljon palvelimen tallennustilojen perustamiseen, käyttää hienostuneita huippuluokan palvelimia ja viimeisimpiä tiedon louhintasovelluksia käsittelemään erilaisia ​​bittiä tietoja, mukaan lukien käyttäjän toimien päivämäärät ja ajat, väestötiedot ja muut tiedot. Tämä koko tietojoukko siirtyy keskitettyyn tietovarastoon, jossa käytetään monimutkaisia ​​algoritmeja tietojen lajitteluun ja käsittelyyn, jotta ne voidaan näyttää yksityiskohtaisten raporttien muodossa.


Me kaikki tiedämme, että nämä ratkaisut ovat hyödyttäneet monia yrityksiä skaalautuvuuden ja saatavuuden suhteen; on organisaatioita, joiden mielestä näiden lähestymistapojen omaksuminen vaatii huomattavia ponnistuksia. On myös totta, että joissain tapauksissa vastaavat tulokset saavutetaan käyttämällä vähemmän vankasta tiedon louhintastrategiaa.


Pieni data tarjoaa organisaatioille tavan jäädä pakkomielle uusimpien ja uusimpien tekniikoiden kanssa, jotka tukevat kehittyneempiä liiketoimintaprosesseja. Pieniä tietoja edistävät yritykset väittävät, että liiketoiminnan kannalta on tärkeää käyttää resurssejaan tehokkaasti, jotta teknologian ylimääräiset kulut voidaan välttää tietyssä määrin.


Olemme keskustelleet paljon isojen tietojen ja pienten tietojen todellisuudesta, mutta meidän on ymmärrettävä, että oikean alustan (iso data tai pieni tieto) valitseminen oikealle käytölle on tärkein osa koko harjoitusta. Ja totuus on, että vaikka iso data voi tarjota paljon etuja, se ei ole aina paras.

Tiedot, suuret ja pienet: missä on todellinen arvo?