Sisällysluettelo:
- Tietoja eri lähteistä, joita on vaikea yhdistää ja kartoittaa
- Hadoop-asiantuntijat yrittävät yhdistää tietoja yhdessä
Hadoop on loistava paikka ladata tietoja analysointia varten tai mallintaa yhden tietolähteen suurempia määriä, jotka eivät ole mahdollisia nykyisissä järjestelmissä. Koska yritykset tuovat tietoja monista lähteistä Hadoopiin, eri lähteiden tietojen analysointiin on kuitenkin yhä enemmän tarvetta, mikä voi olla erittäin vaikeaa saavuttaa. Tämä viesti on ensimmäinen kolmiosaisesta sarjasta, joka selittää ongelmat, joita organisaatiot kohtaavat, kun ne yrittävät analysoida erilaisia tietolähteitä ja tyyppejä Hadoopissa ja miten ratkaista nämä haasteet. Tämän päivän viesti keskittyy ongelmiin, joita ilmenee, kun useita sisäisiä lähteitä yhdistetään. Kaksi seuraavaa viestiä selittävät, miksi nämä ongelmat monimutkaistuvat, kun ulkoisia tietolähteitä lisätään, ja kuinka uudet lähestymistavat auttavat niiden ratkaisemisessa.
Tietoja eri lähteistä, joita on vaikea yhdistää ja kartoittaa
Eri lähteistä tulevilla tiedoilla on erilaiset rakenteet, mikä vaikeuttaa tietotyyppien, jopa sisäisten lähteiden, yhdistämistä ja kartoittamista yhdessä. Tietojen yhdistäminen voi olla erityisen vaikeaa, jos asiakkailla on useita tilinumeroita tai organisaatio on hankkinut tai fuusioitunut muihin yrityksiin. Muutaman viime vuoden aikana jotkut organisaatiot ovat yrittäneet käyttää tietojen etsintää tai tietotiedesovelluksia analysoidakseen Hadoopiin tallennettuja tietoja useista lähteistä. Tämä lähestymistapa on ongelmallinen, koska siihen liittyy paljon arvauksia: käyttäjien on päätettävä, mitä vieraita avaimia käytetään eri tietolähteiden yhdistämiseen ja tehtävä oletuksia luotaessa tietomallin peittokuvia. Näitä arvauksia on vaikea testata ja ne ovat usein virheellisiä mittakaavassa sovellettaessa, mikä johtaa virheelliseen tietojen analysointiin ja lähteiden epäluottamukseen.
Hadoop-asiantuntijat yrittävät yhdistää tietoja yhdessä
Siksi organisaatiot, jotka haluavat analysoida tietoja eri tietolähteiden välillä, ovat turvautuneet Hadoopin asiantuntijoiden palkkaamiseen luomaan mukautettuja, lähdekohtaisia skriptejä yhdistämään tietojoukot yhteen. Nämä Hadoop-asiantuntijat eivät yleensä ole tietointegraation tai kokonaisuudenratkaisun asiantuntijoita, mutta he tekevät parhaansa vastatakseen organisaation välittömiin tarpeisiin. Nämä asiantuntijat käyttävät yleensä Pigia tai Javaa kirjoittaakseen kovia ja nopeita sääntöjä, jotka määrittelevät kuinka yhdistää tietyistä lähteistä peräisin oleva jäsennelty tieto, esimerkiksi sovittaa tietueita tilinumeroon. Kun kahden lähteen komentosarja on kirjoitettu, jos kolmas lähde on lisättävä, ensimmäinen komentosarja on heitettävä pois ja uusi komentosarja suunniteltava yhdistämään kolme erityistä lähdettä. Sama asia tapahtuu, jos toinen lähde lisätään ja niin edelleen. Tämä lähestymistapa ei ole vain tehoton, vaan myös epäonnistuu, kun sitä sovelletaan mittakaavassa, käsittelee reunatapauksia huonosti, voi johtaa suureen määrään kopioita tietueita ja yhdistää usein useita tietueita, joita ei pitäisi yhdistää.