Koti Laitteisto Iso rauta, tapaa suurta dataa: vapauttaa mainframe-tiedot hadoopilla ja kipinällä

Iso rauta, tapaa suurta dataa: vapauttaa mainframe-tiedot hadoopilla ja kipinällä

Anonim

Tekijä Techopedia Staff, 2. kesäkuuta 2016

Takeaway: Hadoop-ekosysteemiä käytetään suurkehyksissä käsittelemään suurta dataa nopeasti ja tehokkaasti.

Et ole tällä hetkellä kirjautunut sisään. Kirjaudu sisään tai kirjaudu sisään nähdäksesi videon.

Eric Kavanagh: Okei hyvät naiset ja herrat, on torstaina kello neljä itään, ja nykyään se tarkoittaa tietysti Hot Technologiesin aikaa. Kyllä, nimeni on Eric Kavanagh. Olen moderaattorisi tämän päivän verkkoseminaarille. Se on hyvää kamaa, ihmiset, “Big Iron, Meet Big Data” - Rakastan juuri sitä otsikkoa “Mainframe Data Liberating with Hadoop and Spark.” Aiomme puhua vanhasta tapaamisesta uutta. Vau! Kattamme kaiken, mitä olemme puhuneet viimeisen 50 vuoden IT-yrityksen aikana. Spark kohtaa keskusyksikön, rakastan sitä.

Sinulla on paikka todella ja riittävästi minusta. Vuosi on kuuma. Puhumme tämän sarjan kuumista aiheista, koska yritämme todella auttaa ihmisiä ymmärtämään tiettyjä tieteenaloja, tiettyjä tiloja. Mitä tarkoittaa esimerkiksi olla analyyttinen alusta? Mitä tarkoittaa suurten tietojen vapauttaminen mainframeista? Mitä kaikki nämä asiat tarkoittavat? Yritämme auttaa sinua ymmärtämään erityyppisiä tekniikoita, missä ne sopivat sekoitukseen ja miten voit hyödyntää niitä.

Meillä on tänään kaksi analyytikkoa ja sitten tietysti Tendü Yogurtçu Syncsortista. Hän on avaruudemme visionääri, erittäin iloinen voidessani olla verkossa tänään, omien Dez Blanchfieldin ja tohtori Robin Bloorin kanssa. Sanon vain pari nopeaa sanaa. Yksi on se, että ihmiset, teillä on suuri rooli tässä prosessissa, joten älä ole ujo esittämättä hyviä kysymyksiä. Haluaisimme päästä heille webcast-lähetyksen Q&A-komponentin aikana, joka on yleensä näytöksen lopussa. Minun on sanottava vain, että meillä on paljon hyvää sisältöä, joten olen innoissani kuullakseni, mitä näillä pojilla on sanottavaa. Ja sen kanssa aion luovuttaa sen Dez Blanchfieldille. Dez, lattia on sinun, ota se pois.

Dez Blanchfield: Kiitos, Eric, ja kiitos kaikille osallistumisesta tänään. Joten olen innostunut, kun saan mahdollisuuden puhua yhdestä maailman suosikkiasioistani, mainframeista. He eivät saa paljon rakkautta näinä päivinä. Mielestäni keskusyksikkö oli alkuperäinen iso tietoalusta. Jotkut väittävät, että he olivat ainoita tietokoneita tuolloin, ja se on hyvä asia huomata, mutta yli 60 vuoden ajan he ovat todella olleet konehuone, mikä iso tieto on myöhään ollut suosittua. Ja aion viedä sinut pienelle matkalle miksi uskon, että näin on.

Olemme nähneet matkan teknologialaitteistojen pinoissa mainframe-kehyksessä siirtymässä näytöllä näkemästäsi kuvasta. Tämä on vanha FACOM-keskusyksikkö, yksi suosikeistani. Olemme siirtyneet isoun rautafaasiin, 1990-luvun lopulla ja dot-com-puomiin. Tämä on Sun Microsystems E10000. Tämä asia oli ehdoton hirviö 96 prosessorilla. Alun perin 64, mutta sitä voidaan päivittää 96 prosessorilla. Jokainen CPU voisi ajaa 1 024 ketjua. Jokainen säie voi olla levitysnopeudella samanaikaisesti. Se oli vain hirviömäistä, ja se käytti tosiasiallisesti dot-com-puomia. Nämä ovat kaikki suuria yksisarvisia, kuten me niitä kutsumme, nyt toimimme, eikä vain suuryritykset, jotkut suuret verkkosivustot.

Ja sitten päädyimme tähän yleiseen hyödyke-PC-malliin. Me vain rakastelimme paljon halpoja koneita yhteen ja perustimme klusterin ja lähestyimme suurta rautahaastetta ja sitä, josta tuli suuria tietoja, etenkin Hadoop-projektin muodossa, joka syntyi avoimen lähdekoodin hakukoneesta Nutchista. Ja oleellisesti luomme uudelleen keskusyksikön ja paljon pieniä CPU: ita, jotka on liimattu yhteen ja kykenevät toimimaan L-polkujen muodossa ja suorittamalla erillisiä töitä tai työosien osia ja ne olivat monin tavoin varsin tehokkaita. Halvempi, jos aloitit pienemmiltä, ​​mutta aina nämä suuret klusterit ovat saaneet kalliimpia kuin keskusyksikkö.

Mielestäni näistä asioista on, että kiireessä dot-com-puomista siihen, josta tuli Web 2.0, ja jahtaaen nyt yksisarvisia, olemme unohtaneet, että tämä foorumi tarjoaa edelleen virran monille suurimmista missiokriittisistä järjestelmistämme. Kun ajattelemme mitä siellä tapahtuu mainframe-alustoilla. Se on todellakin suuria tietoja, erityisesti datatyöhevonen, mutta varmasti suuria tietoja. Perinteisiä yritys- ja hallintojärjestelmiä, kuten pankki- ja varainhoitoa sekä vakuutuksia, käytämme kaikki päivittäin.

Lentoyhtiöiden varaus- ja lennonhallintajärjestelmät, erityisesti lennonhallinta, kun reaaliaika on kriittinen. Lähes jokaisella osavaltiolla ja liittovaltion hallituksella on jossain vaiheessa ollut keskusyksikkö, ja monilla on aina ne. Vähittäiskauppa ja valmistus. Jotkut vanhasta ohjelmistosta, joka on juuri ollut olemassa eikä ole koskaan poistunut. Just jatkaa tehoa tuotantoympäristöissä ja varmasti vähittäiskaupassa. Lääketieteelliset järjestelmät. Puolustusjärjestelmät, varmasti puolustusjärjestelmät.

Viimeisen parin viikon aikana olen lukenut monia artikkeleita siitä, että jotkut ohjuksenhallintajärjestelmistä toimivat edelleen vanhoilla keskusyksiköillä, joille on vaikea löytää osia. He keksivät, kuinka päivittää uusiin pääkehyksiin. Kuljetus- ja logistiikkajärjestelmät. Nämä eivät ehkä kuulosta seksikkäiltä aiheilta, mutta näihin aiheisiin käsittelemme päivittäin eri linjoja. Ja joitain erittäin suuria tietoliikenneympäristöjä käytetään edelleen mainframe-alustoilla.

Kun mietit, minkä tyyppisiä tietoja siellä on, ne ovat kaikki kriittisiä. Ne ovat todella tärkeitä alustoja ja alustoja, joita pidämme itsestäänselvyytenä joka päivä, ja tekevät monin tavoin elämän mahdollista. Joten kuka edelleen käyttää keskusyksikköä ja kuka kaikki nämä ihmiset pitävät kiinni näistä isoista alustoista ja pitävät kaikkia näitä tietoja? No, kuten totesin täällä, uskon, että on helppoa pettää, kun tiedotusvälineet ovat siirtyneet isosta raudasta tavallisten myymäläklustereiden tai halpojen tietokoneiden tai x86-koneiden telineisiin ajattelemalla, että keskusyksikkö kuoli ja katosi. Mutta tietojen mukaan keskusyksikkö ei koskaan mennyt pois ja itse asiassa se on täällä jäädäkseen.

Tutkimus, jonka olen koonnut täällä parin viime viikon aikana, on osoittanut, että 70 prosenttia yrityksistä, etenkin suurten yritysten tiedoista, on edelleen tosiasiassa jossain muodossa mainframe. 73 prosenttia Fortune 500: sta johtaa edelleen ydinliiketoimintajärjestelmiä mainframeilla jossain. Itse asiassa täällä Australiassa meillä on useita organisaatioita, joilla on datakeskus keskellä kaupunkia. Se on todellinen maanalainen tietokone tehokkaasti, ja useita keskusyksiköitä vain juoksee siellä, tikittää ja onnellisesti tekevät työnsä. Ja hyvin harvat ihmiset tietävät, että kävelyllä kaduilla, heti jalkojensa alla yhdessä tietyssä osassa kaupunkia on tämä valtava tietokeskus, joka on täynnä keskusyksiköitä. Yhdeksänkymmentäkaksi 100: sta pankista ympäri maailmaa, sadan parhaan pankin joukossa, eli edelleen, ylläpitää pankkijärjestelmiä mainframeilla. 25 25 parhaasta vähittäiskaupan ketjusta ympäri maailmaa 23 käyttää mainframeja ylläpitämään edelleen vähittäiskaupan hallintajärjestelmiään EIP- ja BI-alustoilla.

Mielenkiintoista on, että kymmenestä kymmenestä vakuuttajasta 10 edelleen käyttää alustojaan mainframeilla, ja he tosiasiallisesti tarjoavat pilvipalvelunsa mainframelle. Jos käytät verkkoliittymää tai mobiilisovellusta jossain, jossa on väliohjelmiston käyttöliittymä, puhu tosiasiallisesti jotain todella raskaaa ja suurta takaosassa.

Löysin yli 225 valtion ja paikallishallinnon virastoa ympäri maailmaa, jotka toimivat edelleen mainframe-alustoilla. Olen varma, että siihen on paljon syytä. Ehkä heillä ei ole budjettia uuden raudan harkitsemiseksi, mutta se on valtava jalanjälki erittäin suurista ympäristöistä, jotka toimivat mainframeilla erittäin kriittisten tietojen kanssa. Ja kuten aiemmin mainitsin, useimmat maat käyttävät edelleen tärkeimpiä puolustusjärjestelmiään keskusyksiköissä. Olen varma, että monella tavalla he yrittävät päästä sinne pois, mutta sinä menet.

Vuonna 2015 IDC toteutti kyselyn, ja 350 tutkituista CIO: sta ilmoitti edelleen omistavansa ja hallinneensa suurta rautaa suurten keskusyksiköiden muodossa. Ja minua hämmästytti, että on todennäköistä, että se on enemmän kuin tällä hetkellä tuotannossa maailmanlaajuisesti toimivien suurten Hadoop-klustereiden lukumäärä - mielenkiintoinen pieni tilasto siellä. Aion mennä eteenpäin ja vahvistaa sen, mutta se oli iso numero. Kolmesataa viisikymmentä CIO: ta ilmoitti, että heillä on yksi tai useampia pääkehyksiä vielä tuotannossa.

Viime vuonna 2015 IBM antoi meille mahtavan Z13: n, joka on heidän mainframe-alustansa 13. toisto. Tiedotusvälineet menivät villiin juttuin tästä asiasta, koska he olivat hämmästyneitä siitä, että IBM valmisti edelleen mainframeja. Kun he nostivat konepellin ja katsellen mitä asian alla oli, he huomasivat, että se oli tosiasiassa tasalla melkein jokaisesta nykyaikaisesta alustasta, josta olimme innostuneita suurten tietojen, Hadoopin ja varmasti klusterien muodossa. Tämä juttu kärsi Sparkista ja nyt Hadoopista luonnollisesti. Voit käyttää tuhansia ja tuhansia Linux-koneita sillä, ja se näytti ja tuntui kuin muulta klusterilta. Se oli melko hämmästyttävä kone.

Useat organisaatiot ottivat nämä asiat esiin, ja itse asiassa tein joitain tietoja siitä, kuinka monta näitä koneita käyttää. Nyt olen ollut sitä mieltä, että 3270-tekstiterminaali on jo jonkin aikaa korvattu verkkoselaimilla ja mobiilisovelluksilla, ja sitä tukevaa tietoa on runsaasti. Luulen, että nyt olemme siirtymässä aikakauteen, jossa olemme huomanneet, että nämä keskusyksiköt eivät katoa ja että niistä on huomattava määrä tietoa. Joten mitä nyt teemme, on yksinkertaisesti lisätä sitä, mitä kutsun hyllystä poistuneiksi analytiikkatyökaluiksi. Nämä eivät ole räätälöityjä sovelluksia. Nämä ovat asioita, jotka ovat räätälöityjä kertaluonteisia. Nämä ovat asioita, jotka voit kirjaimellisesti vain ostaa pakattuun laatikkoon sinänsä, kytkeä sen keskusyksikköön ja tehdä analytiikkaa.

Kuten aiemmin totesin, keskusyksikkö on itse asiassa ollut olemassa jo yli 60 vuotta. Kun ajattelemme kuinka kauan se on, se on pidempi kuin useimpien elävien IT-ammattilaisten ura tosiasiallisesti ulottuu. Ja itse asiassa todennäköisesti jopa osan heidän elämästään. Vuonna 2002 IBM myi 2 300 keskusyksikköä. Vuonna 2013 se kasvoi 2 700 suurkertaan. Se on 2700 keskusyksikön myyntiä yhdessä vuodessa vuonna 2013. En voinut saada tarkkoja tietoja vuodesta 2015, mutta uskon, että se on nopeasti saavuttamassa 3 000 yksikköä, jotka myytiin vuodessa 2015, 2013. Ja odotan innolla voivani vahvistaa sen.

Kun julkaistiin Z13, mainoskehysalustan 13. iteraatio, joka mielestäni maksaa heille noin 1, 2 tai 1, 3 miljardia dollaria kehittää tyhjästä, IBM eli täällä on kone, joka näyttää ja tuntuu kuin mikä tahansa muu klusteri, joka meillä on tänään, ja se johtaa Hadoop ja Spark. Ja se voidaan varmasti yhdistää muihin analytiikoihin ja isoihin datatyökaluihin tai yhdistää aina johonkin olemassa olevista tai uusista Hadoop-klustereista. Olen sitä mieltä, että keskusyksikön sisällyttäminen isodatastrategiaan on välttämätöntä. On selvää, että jos sinulla on sellainen, sinulla on paljon tietoja ja haluat selvittää, miten se saadaan sieltä. Ja he jäävät keräämään pölyä monin tavoin, henkisesti ja henkisesti niin pitkälle kuin yritysmaailma menee, mutta he ovat täällä jäädäkseen.

Kaikkien analytiikkatyökaluidesi liitettävyyden ja käyttöliittymien keskusyksikön ylläpitämään tietoon tulisi olla keskeinen osa yritystäsi ja erityisesti valtion suuria datasuunnitelmia. Ja aina ohjelmisto huomaa heidät, tarkastelee heitä pitkään ja ymmärtää näiden asioiden sisällön ja yhdistää mielet, jotka alkavat saada vähän ymmärrystä ja tuntea siitä, mikä todella on konepellin alla. Ja sen kanssa aion luovuttaa rakkaalle kollegalleni tri Robin Bloorille ja hän lisää siihen pieneen matkaan. Robin, vie se pois.

Robin Bloor: No, kiitos. Okei, hyvin sen jälkeen, kun Dez on laulanut mainframe-kappaleen, tutustun siihen, mitä mielestäni tapahtuu vanhan mainframe-maailman ja uuden Hadoop-maailman suhteen. Luulen, että iso kysymys on, kuinka hallitset kaikkia tietoja? En usko, että suurkehystä haastetaan sen suurten dataominaisuuksien suhteen - sen iso tiedonkäyttökyky on erittäin suuri, kuten Dez on huomauttanut, se on erittäin kykenevä. Itse asiassa voit laittaa Hadoop-klusterit siihen. Missä se haastetaan, on kyse sen ekosysteemistä, ja käsittelen sitä tavallaan.

Tässä on joitain mainframe-paikannuksia. Sillä on korkeat sisäänpääsykustannukset, ja mitä on tosiasiallisesti tapahtunut aiemmin, 1990-luvun puolivälistä lähtien, kun suurtietokoneiden suosio alkoi heikentyä, se on yleensä menettänyt alhaisen päänsä, ihmiset, jotka olivat ostaneet halpoja keskusyksiköitä, ja se ei ollut Emme ole erityisen taloudellisia niille ihmisille. Mutta korkeammalla tosiasiallisesti keskikokoisella ja korkealla kantayksiköllä se silti todella oli, ja todistettavasti todellakin, uskomattoman edullista laskentaa.

Se on sanottava, että Linux pelasti sen, koska suurkehykseen asennettu Linux mahdollisti tietysti kaikkien Linux-sovellusten suorittamisen. Paljon Linux-sovelluksia meni sinne ennen kuin iso data oli edes sanaa tai kahta sanaa. Se on oikeastaan ​​melko erinomainen alusta yksityiselle pilvelle. Sen vuoksi se voi osallistua hybridipilvien käyttöönotossa. Yksi ongelmista on se, että mainframe-taitoja on vähän. Mainframe-taitot, jotka ovat olemassa, todella ikääntyvät siinä mielessä, että ihmiset lähtevät teollisuudesta eläkkeelle vuosi toisensa jälkeen ja heidät vain korvataan ihmismäärällä. Joten se on asia. Mutta se on silti edullinen tietojenkäsittely.

Alue, jolla se on tietenkin haastettu, on tämä koko Hadoop-asia. Se on kuva Doug Cuttingista alkuperäisen Hadoop-norsun kanssa. Hadoop-ekosysteemi on - ja se tulee pysymään - hallitseva big dataekosysteemi. Se tarjoaa paremman skaalauksen kuin mitä keskusyksikkö tosiasiallisesti voi saavuttaa, ja se on alhaisemmat kustannukset tietomuistona pitkällä matkalla. Hadoop-ekosysteemi on kehittymässä. Paras tapa miettiä tätä on kerran tietty laitteistoalusta ja sen kanssa toimiva käyttöympäristö tulee hallitsevaksi, ekosysteemi vain elää. Ja niin tapahtui IBM: n keskuskoneiden kanssa. No, myöhemmin tapahtui Digital VAX: n kanssa, tapahtui Sunin palvelimien kanssa, tapahtui Windowsin kanssa, tapahtui Linuxin kanssa.

Ja mitä tapahtui, on se, että Hadoop, jota aina ajattelen tai haluan ajatella tietynlaisena hajautettuna datana, ekosysteemi kehittyy uskomattoman nopeudella. Tarkoitan, jos mainitset vain useita vaikuttavia kirjoituksia, jotka ovat avoimen lähdekoodin, Spark, Flink, Kafka, Presto, ja sitten lisäät siihen, että jotkut tietokannat, NoSQL ja SQL -ominaisuudet, jotka nyt istuvat Hadoopilla. Hadoop on aktiivisin ekosysteemi, joka todella olemassa siellä, varmasti yrityslaskennassa. Mutta jos haluat käsitellä sitä tietokannana, siinä ei juuri ole vertailua siihen, mitä yleensä ajattelen todellisiksi tietokantoiksi, etenkin tietovarastoissa. Ja se selittää jossain määrin useiden suurten NoSQL-tietokantojen menestyksen, jotka eivät toimi Hadoopilla, kuten CouchDB ja niin edelleen.

Tietojärvellä sillä on paljon rikkaampi ekosysteemi kuin millään muulla alustalla, eikä sitä tule siirtymään siitä. Sen ekosysteemi ei ole vain avoimen lähdekoodin ekosysteemi. Nyt on dramaattinen määrä ohjelmistojäseniä, joilla on tuotteita, jotka on perustettu Hadoopille tai jotka on tuotu Hadoopille. Ja he ovat juuri luoneet ekosysteemin, että mikään ei voi kilpailla sen kanssa sen leveyden suhteen. Ja se tarkoittaa, että siitä on tullut alusta suurten tietojen innovaatioille. Mutta mielestäni se on vielä epäkypsää, ja meillä voisi olla pitkiä keskusteluja siitä, mikä on ja ei ole, sanotaanpa, toiminnallisesti kypsää Hadoopin kanssa, mutta luulen, että useimmat ihmiset, jotka tarkastelevat tätä erityistä aluetta, tietävät hyvin, että Hadoop on vuosikymmenten jälkeen keskusyksikön takana toimintakyvyn suhteen.

Kehittyvä datajärvi. Tietojärvi on alusta missä tahansa määritelmässä, ja jos ajattelet, että yrityslaskennassa on tietokerros, on nyt erittäin helppo ajatella sitä kiinteiden tietokantojen ja tietokerroksen muodostavan tietojärven suhteen. Datajärvi sovelluksia on monia ja erilaisia. Minulla on täällä kaavio, joka käy vain läpi erilaiset tiedonsiirtoon liittyvät asiat, jotka on tehtävä, jos käytät Hadoopia pysähdysalueena tai Hadoop and Spark pysähdysalueena. Ja sinulla on koko asia - datan lähde, tietojen puhdistaminen, metatietojen hallinta, metatietojen löytäminen - sitä voidaan käyttää itse ETL: ään, mutta vaatii usein ETL: n tuomaan tiedot sisään. Päädatan hallinta, datan yritysmäärittelyt, palvelun hallinta mitä tapahtuu Hadoopissa, tiedon elinkaarivarojen hallinnassa ja ETL: ssä Hadoopista, ja sinulla on myös suoria analysointisovelluksia, joita voit käyttää Hadoopissa.

Ja siksi siitä on tullut erittäin voimakas ja missä se on otettu käyttöön ja onnistuneesti toteutettu, yleensä siinä on ainakin kokoelma tällaisia ​​sovelluksia päällä. Ja useimpia sovelluksia, etenkin sellaisia, joista olen saanut tietoa, niitä ei juuri nyt ole saatavana mainframessa. Mutta voit käyttää niitä keskusyksikössä, Hadoop-klusterissa, joka oli käynnissä keskusyksikön osiossa.

Tietojärvestä on tulossa mielestäni nopea tietokannan analysoinnin ja BI: n luonnollinen pysähdysalue. Siitä tulee paikka, jossa otat tiedot, olipa kyse sitten yritystiedoista tai ulkoisista tiedoista, sekoita sitä, kunnes se on, sanotaanpa, riittävän puhdas käytettäväksi ja hyvin rakennettu käytettäväksi, ja sitten annat sen eteenpäin. Ja kaikki tämä on vielä alkuvaiheessa.

Mielestäni ajatus mainframe / Hadoop-rinnakkaiselosta on ensinnäkin se, että suuret yritykset todennäköisesti luopuvat mainframeista. Itse asiassa viime aikoina nähneet viittaukset viittaavat siihen, että keskusyksikön investoinnit kasvavat. Mutta he eivät aio myöskään jättää Hadoop-ekosysteemiä huomiotta. Näen 60 prosentin lukumäärän suurista yrityksistä, jotka käyttävät Hadoopia, vaikka monet niistä ovatkin vain prototyyppisiä ja kokeilevia.

Selvitys on sitten: “Kuinka saat nämä kaksi asiaa rinnakkain olemassa?”, Koska heidän on jaettava tietoja. Tiedot, jotka tuodaan tietojärvelle, ne on siirrettävä suurkehykseen. Suurtietokoneella olevat tiedot saattavat joutua menemään datajärvelle tai datajärven kautta voidakseen liittyä muihin tietoihin. Ja niin tapahtuu. Ja se tarkoittaa, että se vaatii nopean tiedonsiirron / ETL-ominaisuuden. On epätodennäköistä, että työkuormat jaetaan dynaamisesti, sanotaan esimerkiksi keskusyksikön ympäristössä tai jonkin kanssa Hadoop-ympäristössä. Se tulee olemaan jaettua tietoa. Ja suurin osa tiedoista tulee väistämättä Hadoopissa vain siksi, että se on sen halvimman alustan ala. Ja kokonaisvaltainen analyyttinen käsittely tapahtuu todennäköisesti myös siellä.

Yhteenvetona voidaan todeta, että viime kädessä meidän on ajateltava yritystietokerrosta, joka monille yrityksille sisältää myös keskusyksikön. Ja tätä tietokerrosta on hallittava ennakoivasti. Muuten nämä kaksi eivät ole hyvin rinnakkaisia. Voin siirtää pallon takaisin sinulle Eric.

Eric Kavanagh: Jälleen, Tendü tein juuri sinusta esittelijän, joten ota se pois.

Tendü Yogurtçu: Kiitos, Eric. Kiitos, että sain minut. Hei kaikki. Puhun Syncsort-kokemuksesta asiakkaiden kanssa suhteessa siihen, miten näemme datan resurssina organisaatiossa, tasoitetaan mainframeista isoihin tietoihin analyysialustoilla. Ja toivon, että meillä on myös aikaa istunnon lopussa kysyä yleisöltä, koska se on todellakin näiden webcastien arvokkain osa.

Vain niille, jotka eivät tiedä mitä Syncsort tekee, Syncsort on ohjelmistoyritys. Olemme olleet tosiasiallisesti yli 40 vuotta. Aloitettiin keskusyksikön puolella ja tuotteemme ulottuvat keskusyksiköstä Unixiin suuriin tietoalustoihin, mukaan lukien Hadoop, Spark, Splunk, sekä tiloissa että pilvissä. Olemme keskittyneet aina datatuotteisiin, tietojenkäsittelyyn ja tietojen integrointiin.

Suuren datan ja Hadoopin strategiamme on todella tullut osaksi ekosysteemiä alusta alkaen. Myyjien omistajina, jotka ovat todella keskittyneet tietojenkäsittelyyn erittäin kevyillä moottoreilla, ajattelimme, että oli suuri mahdollisuus osallistua Hadoopin tuloon tietojenkäsittelyalustaksi ja olla osa tätä seuraavan sukupolven tietovarastoarkkitehtuuria organisaatiolle. Olemme osallistuneet avoimen lähdekoodin Apache-hankkeisiin vuodesta 2011 lähtien, alkaen MapReduce-ohjelmasta. Ovat olleet Hadoop Version 2 kymmenen parhaan joukossa ja osallistuneet tosiasiallisesti useisiin hankkeisiin, myös Spark-paketteihin, jotkut liittimistämme julkaistaan ​​Spark-paketeissa.

Hyödynnämme erittäin kevyttä tietojenkäsittelymoottoriamme, joka on täysin tasatiedostopohjaisia ​​metatietoja ja joka sopii hyvin hajautettuihin tiedostojärjestelmiin, kuten Hadoop Distributed File System. Ja hyödynnämme perintöämme mainframessa, asiantuntemustamme algoritmeilla, kun laitamme iso datatuotteita. Ja olemme tiiviissä yhteistyössä suurten myyjien, suurten toimijoiden kanssa, kuten Hortonworks, Cloudera, MapR, Splunk. Hortonworks ilmoitti äskettäin jälleenmyyvänsä tuotteitamme ETL-koneelle Hadoopin kanssa. Dellin ja Clouderan kanssa meillä on erittäin tiivis kumppanuus, joka myös jälleenmyy ETL-tuotteemme osana heidän suurta datalaitetta. Ja todella Splunkin kanssa, julkaisemme mainframe-telemetrian ja tietoturvatiedot Splunk-kojelaudoissa. Meillä on tiivis kumppanuus.

Mikä on jokaisen C-tason johtajan mielessä? Se on todella: ”Kuinka voin hyödyntää tietoaineistoani?” Kaikki puhuvat isoista tiedoista. Kaikki puhuvat Hadoopista, Sparkista, seuraavasta tietokonealustasta, joka voi auttaa minua luomaan liiketoiminnan ketteryyttä ja avaamaan uusia muuttuvia sovelluksia. Uudet mahdollisuudet mennä markkinoille. Jokainen johtaja ajattelee: "Mikä on tietostrategiani, mikä on tietoaloitteeni ja kuinka voin varmistaa, että en pysy kilpailuni takana ja olen edelleen näillä markkinoilla seuraavien kolmen vuoden aikana?" näe tämä puhumme asiakkaillemme, kun puhumme globaalille asiakaskunnallemme, joka on melko suuri, kuten voitte kuvitellakaan, koska olemme olleet olemassa jonkin aikaa.

Kun puhumme kaikkien näiden organisaatioiden kanssa, näemme tämän myös teknologiapinossa Hadoopin kanssa tapahtuneessa häiriössä. Se on todella tarpeeksi tyydyttää tämä tietoon liittyvää vaatimusta. Hyödyntämällä kaikkia organisaation tietovarantoja. Ja olemme nähneet, että yritystietovarastoarkkitehtuuri kehittyy sellaiseksi, että Hadoop on nyt nykyaikaisen tietoarkkitehtuurin uusi keskipiste. Ja suurin osa asiakkaistamme, olipa kyse sitten rahoituspalveluista, onko kyse vakuutuksesta, vähittäiskaupan puhelinpalveluista, aloitteet ovat yleensä joko havaitsemme, että Hadoop palveluna tai data palveluna. Koska kaikki yrittävät tarjota tietoresurssit joko ulkoisille tai sisäisille asiakkaille. Ja joissain organisaatioissa näemme aloitteita, kuten melkein datamarkkina heidän asiakkailleen.

Ja yksi ensimmäisistä askeleista tavoitteen saavuttamiseksi on yrityksen tietokeskuksen luominen. Joskus ihmiset kutsuvat sitä datajärveksi. Tämän yritystietokeskuksen luominen ei oikeastaan ​​ole niin helppoa kuin miltä se kuulostaa, koska se todella vaatii pääsyn ja keräämisen käytännössä kaikkiin yritystietoihin. Ja tämä tieto on nyt kaikista uusista lähteistä, kuten mobiili-antureista, sekä vanhoista tietokannoista, ja se on erämoodissa ja suoratoistotilassa. Tietojen integrointi on aina ollut haaste. Tietolähteiden lukumäärän ja monimuotoisuuden sekä erilaisten toimitustapojen kanssa, riippumatta siitä onko se erä vai suoratoisto reaaliaikaisesti, se on entistä haastavampi verrattuna viisi vuotta sitten, kymmenen vuotta sitten. Me joskus kutsumme sitä nimellä: "Se ei ole enää isänne ETL."

Joten puhumme erilaisista tietoresursseista. Kun yritykset yrittävät ymmärtää uutta tietoa, mobiililaitteista keräämäänsä tietoa, olivatpa ne sitten autovalmistajan antureita vai mobiilipelitoiminnan käyttäjän tietoja, niiden on usein viitattava kriittisimpiin tietoresursseihin yritys, joka on esimerkiksi asiakasinformaatio. Nämä kriittisimmät tietoaineistot elävät usein keskusyksikössä. Mainframe-tietojen ja näiden uusien, pilveen kerättyjen, matkapuhelimella kerättyjen, mobiililaitteilla kerättyjen, japanilaisen autoyhtiön tuotantolinjalle tai esineiden internet-sovelluksia käyttävien tietojen kanssa on oltava uutta tietoa viittaamalla niiden vanhoihin tietojoukkoihin. Ja nämä vanhat tietokokonaisuudet ovat usein keskusyksikössä.

Ja jos nämä yritykset eivät kykene siihen, eivät pysty hyödyntämään keskusyksikön tietoja, silloin menetetään mahdollisuus. Silloin data palveluna tai kaiken yritystiedon hyödyntäminen ei oikeastaan ​​hyödyntä organisaation kriittisimpiä omaisuuksia. Siellä on myös telemetrian ja tietoturvatietojen osa, koska melkein kaikki transaktiotiedot elää keskusyksikössä.

Kuvittele käyväsi pankkiautomaatissa. Luulen, että yksi osallistujista lähetti täällä osallistujille viestin pankkijärjestelmän suojelemiseksi, kun pyyhkät korttiasi, että transaktiotiedot ovat melko maailmanlaajuisesti keskusyksikössä. Ja tietoturvatietojen ja telemetriatietojen turvaaminen ja kerääminen suurkehyksiltä ja niiden saattaminen saataville joko Splunk-kojetaulujen tai muiden, Spark, SQL: n kautta, on nyt kriittisempi kuin koskaan, datan määrän ja datan monimuotoisuuden vuoksi.

Taitosarjat ovat yksi suurimmista haasteista. Koska toisaalta sinulla on nopeasti muuttuva iso datapino, et tiedä mikä projekti tulee selviytymään, mikä projekti ei selviä, pitäisikö minun palkata Hive- tai Pig-kehittäjät? Pitäisikö minun sijoittaa MapReduceen tai Sparkiin? Tai seuraava asia, Flink, joku sanoi. Pitäisikö minun investoida johonkin näistä tietokonealustoista? Toisaalta pysyminen nopeasti muuttuvassa ekosysteemissä on haaste, ja toisaalta sinulla on nämä vanhat tietolähteet. Uudet osaamisjoukot eivät todellakaan vastaa toisiaan, ja sinulla voi olla ongelma, koska nämä resurssit saattavat tosiasiallisesti jäädä eläkkeelle. Siellä on suuri aukko niiden ihmisten osaamisjoukkojen suhteen, jotka ymmärtävät nuo perintötasot ja ymmärtävät nousevan tekniikan pinoa.

Toinen haaste on hallinto. Kun käytät todella kaikkia yritystietoja eri alustoilla, meillä on asiakkaita, jotka ovat ilmaisseet huolensa siitä, että ”en halua tietojeni laskeutuvan. En halua kopioida tietojani useisiin paikkoihin, koska haluan välttää useita kopioita niin paljon kuin mahdollista. Haluan pääsyn päästä päähän laskematta sitä keskelle siellä. ”Tämän tiedon hallinnasta tulee haaste. Ja toinen asia on, että jos käytät pullonkaulojen tietoja, jos keräät suurimman osan pilvestäsi ja käytät vanhaa tietoa ja viitat siihen, verkon kaistanleveydestä tulee ongelma, klusterialusta. Tämän suuren data-aloitteen ja edistyneiden analytiikkaalustojen saamiseksi ja kaiken yritystiedon hyödyntämiseksi on kuitenkin monia haasteita.

Mitä Syncsort tarjoaa, meitä kutsutaan "yksinkertaisesti parhaaksi", ei siksi, että olemme yksinkertaisesti parhaita, mutta asiakkaamme todella viittaavat meihin yksinkertaisesti parhaimpiin pääsyyn ja integrointiin mainframe-tiedoista. Tuemme kaikkia mainframen tietomuotoja ja annamme niiden käytettäväksi isojen tietojen analysoinnissa. Olipa kyse Hadoopista tai Sparkista tai seuraavasta tietokonealustasta. Koska tuotteemme eristävät todella tietokonealustan monimutkaisuuden. Kehittäjänä saat mahdollisesti kehittää kannettavaa tietokonetta, keskittyen tietoyhteyteen ja mitkä ovat tietojen valmistelut, vaiheet, jotta nämä tiedot luodaan analysointia varten, seuraavaan vaiheeseen, ja ottaa sama sovellus MapReducessa tai ottaa se sama sovellus Sparkissa.

Autimme asiakkaitamme tekemään niin, kun YARN tuli saataville ja heidän piti siirtää sovelluksensa MapReduce versiosta 1 lankaan. Autamme heitä tekemään samoin Apache Sparkin kanssa. Tuotevalikoimamme, uusi julkaisu 9, toimii myös Sparkilla ja mukana toimitetaan dynaaminen optimointi, joka eristää nämä sovellukset tulevaisuuden tietokonekehyksiä varten.

Joten meillä on pääsy pääkehystietoihin, olivatpa ne sitten VSAM-tiedostoja, onko kyseessä DB2, vai onko kyseessä telemetriatiedot, kuten SMF-tietueet, Log4j tai syslogs, jotka on visualisoitava Splunk-kojetaulujen kautta. Ja samalla kun organisaatio voi hyödyntää olemassa olevia tietotekniikka- tai ETL-taitojaan, kehitysaika lyhenee huomattavasti. Itse asiassa Dellin ja Clouderan kanssa sponsoroitiin riippumaton vertailuarvo, ja se keskittyi kehitysaikaan, joka vie, jos teet käsikoodausta tai käytät muita työkaluja, kuten Syncsort, ja se oli kehitysajan vähentäminen noin 60, 70 prosenttia . Taitojen yhdistäminen asettaa aukon ryhmien välillä, kyseisten tiedostojen isäntien ja ihmisten suhteen myös näiden tiedostojen isäntien välillä.

Yleensä big data -tiimi tai tiedonsiirtoryhmä tai tiimi, jonka tehtävänä on kehittää tätä tietoa palveluarkkitehtuurina, eivät välttämättä puhu keskusyksikön kanssa. He haluavat minimoida tämän vuorovaikutuksen melkein monissa organisaatioissa. Sulkemalla aukon olemme edenneet. Ja tärkein osa on todella varmistaa koko prosessi. Koska yrityksessä, joka käsittelee tällaista arkaluontoista tietoa, on monia vaatimuksia.

Erittäin säännellyillä aloilla, kuten vakuutus ja pankkitoiminta, asiakkaamme kysyvät, he sanoivat: “Tarjoat tälle mainframe-tietojen pääsylle, ja se on hienoa. Voitteko tarjota minulle myös tämän EBCDIC-koodatun levymuodon pitämisen alkuperäisessä muodossa, jotta voin täyttää tarkastusvaatimukseni? ”Joten teemme Hadoopin ja Apache Sparkin ymmärtämään keskusyksikön tiedot. Voit pitää tiedot alkuperäisessä tallennusmuodossa, suorittaa käsittely- ja tasonjakelijan tietokonealustan. Jos tarvitset palauttaa sen, voit näyttää, että tietuetta ei ole muutettu eikä tietueen muotoa ole muutettu, voit noudattaa lainsäädännöllisiä vaatimuksia .

Ja useimmat organisaatiot, kun ne luovat tietokeskuksen tai datajärven, yrittävät myös tehdä tämän yhdellä napsautuksella voidakseen kartoittaa metatiedot sadoista Oracle-tietokannan skeemeistä pesätaulukoihin tai ORC- tai parketitiedostoihin. tulee välttämättömäksi. Toimitamme työkaluja ja toimitamme työkaluja, jotka tekevät tästä yksivaiheisen tiedonsiirron, automaattisesti luotavia töitä tai datan liikettä ja automaattisen luomisen töitä tietojen kartoittamiseksi.

Puhuimme liitettävyysosasta, vaatimustenmukaisuudesta, hallinnosta ja tietojenkäsittelystä. Ja tuotteitamme on saatavana sekä tiloissa että pilvissä, mikä tekee siitä todella yksinkertaisen, koska yritysten ei tarvitse miettiä, mitä tapahtuu seuraavan vuoden tai kahden kuluttua, jos päätin mennä kokonaan julkiseen pilveen verrattuna hybridiin. ympäristössä, koska jotkut klusterit voivat olla käynnissä tiloissa tai pilvissä. Ja tuotteitamme on saatavana sekä Amazon Marketplacen, EC2: n, Elastic MapReduce -sivustolla että myös Docker-säilöön.

Vain sellaisenaan kietoutumiseksi, joten meillä on tarpeeksi aikaa kysymyksiin ja vastauksiin, kyse on oikeastaan ​​pääsystä, integrointiin ja tiedonhallinnan noudattamiseen, mutta kaiken tämän yksinkertaistamisesta. Ja samalla kun teemme tämän yksinkertaisemman, "suunnittele kerran ja ota käyttöön missä tahansa" todellisessa mielessä avoimen lähdekoodin panoksiemme ansiosta tuotteemme toimii alkuperäisessä Hadoopin tietovirrassa ja alkuperäisessä Sparkissa eristäen organisaatiot nopeasti muuttuvasta ekosysteemistä. Ja tarjoaa yhden dataputken, yhden käyttöliittymän sekä erä- että suoratoistoa varten.

Ja tämä auttaa myös organisaatioita joskus arvioimaan näitä kehyksiä, koska haluat ehkä itse luoda sovelluksia ja ajaa vain MapReduce-versiota Sparkin kanssa ja nähdä itsesi. Kyllä, Sparkilla on tämä lupaus ja se tarjoaa kaiken edistyksen iteratiivisissa algoritmeissa, jotka toimivat parhaan koneoppimisen kannalta. ja ennustavat analytiikkasovellukset toimivat Sparkin kanssa. Voinko myös suorittaa suoratoisto- ja erätyökuormani tällä tietokoneella? Voit testata erilaisia ​​tietokonealustoja tuotteidemme avulla. Ja dynaaminen optimointi riippumatta siitä, käytätkö itsenäistä palvelinta, kannettavaa tietokonetta Google Cloudissa tai Apache Sparkissa, on todella suuri arvoesitys asiakkaillemme. Ja heitä todella vetivät heidän haasteensa.

Tarkastelen vain yhtä tapaustutkimusta. Tämä on Guardian Life Insurance Company. Ja Guardianin aloitteena oli todella keskittää heidän tietovaransa ja saattaa se asiakkailleen saataville, lyhentää tietojen valmisteluaikaa. He sanoivat, että kaikki puhuvat tietojen valmistelusta ottaen 80 prosenttia koko tietojenkäsittelyprosessista ja he sanoivat, että se itse asiassa ottaa huomioon 75–80 prosenttia heistä ja he halusivat vähentää kyseistä tietojen valmistelua, muuntamisaikoja ja analyysihankkeiden markkinoille saattamisaikaa. Luo tämä ketteryys, kun ne lisäävät uusia tietolähteitä. Ja aseta keskitetty tiedonsaanti kaikkien asiakkaiden saataville.

Heidän ratkaisunsa, mukaan lukien Syncsort-tuotteet, on juuri nyt heillä on Amazon Marketplace -hakemistodatamarkkinapaikka, jota tukee datajärvi, joka on pohjimmiltaan Hadoop, ja NoSQL-tietokanta. Ja he käyttävät tuotteitamme tuodaksesi kaikki tietovarat tietojärvelle, mukaan lukien mainframessa oleva DB2, mukaan lukien VSAM-tiedostot mainframessa, sekä tietokannan vanhat tietolähteet ja uudet tietolähteet. Ja sen seurauksena he ovat keskittäneet uudelleenkäytettävät tietoresurssit, jotka ovat haettavissa, saatavissa ja asiakkaiden käytettävissä. Ja he todella pystyvät lisäämään uudet tietolähteet ja palvelemaan asiakkaitaan paljon nopeammin ja tehokkaammin kuin ennen. Ja analytiikka-aloitteet etenevät entistä enemmän myös ennustepuolella. Joten keskeytän ja toivon, että tämä oli hyödyllistä, ja jos sinulla on minua koskevia kysymyksiä jostakin asiaan liittyvästä aiheesta, ole hyvä ja olet tervetullut.

Eric Kavanagh: Toki, ja Tendü, heitän vain yhden sisään. Sain yleisöjäseneltä kommentin, jossa sanotaan vain: “Pidän tästä” suunnittelusta kerran, ota se käyttöön missä tahansa ”.” Voisitko miettiä kuinka se on totta? Tarkoitan, mitä olet tehnyt mahdollistaaksesi tällaisen ketteryyden ja onko mitään veroa? Kuten kun puhumme esimerkiksi virtualisoinnista, suorituksesta on aina pieni vero. Jotkut sanovat kaksi prosenttia, viisi prosenttia 10 prosenttia. Mitä olet tehnyt, jotta suunnittelu voidaan ottaa käyttöön kerran, ottaa käyttöön missä tahansa - miten teet sen ja onko siihen verotettu suorituskyvyn suhteen?

Tendü Yogurtçu: Toki, kiitos. Ei, koska toisin kuin eräät muut myyjät, emme oikeastaan ​​luo Hive- tai Pig-koodia tai muuta koodia, joka ei ole alkuperäistä moottorillemme. Tässä avoimen lähdekoodin panoksillamme oli valtava rooli, koska olemme tehneet yhteistyötä Hadoopin toimittajien, Clouderan, Hortonworksin ja MapR: n kanssa erittäin tiiviisti ja avoimen lähdekoodin vastausten ansiosta moottorimme todellakin toimii kotoisin osana virtausta, osana Hadoop-virtausta, osana kipinää.

Mitä tämä tarkoittaa, meillä on myös tämä dynaaminen optimointi. Tämä oli jotain, joka tuli seurauksena asiakkaidemme haastamisesta tietokonekehyksillä. Kun he olivat menossa tuotantoon joidenkin sovellusten kanssa, he palasivat ja sanoivat: ”Vakautan vain Hadoop-klusteriani, vakaaan MapReduce YARN Version 2, MapReduce Version 2, ja ihmiset puhuvat, että MapReduce on kuollut, Spark on seuraava asia, ja jotkut ihmiset sanovat, että Flink on seuraava asia, kuinka aion selviytyä tästä? "

Ja noista haasteista todella tuli meille niin ilmeisiä, investoimme tähän dynaamiseen optimointiin, jota kutsumme älykkääksi toteuttamiseksi. Suoritushetkellä, kun työ, kun tämä dataputki lähetetään, klusterin perusteella, olipa kyseessä sitten Spark, onko kyse MapReduce vai itsenäinen Linux-palvelin, päätämme kuinka suorittaa tämä työ alkuperäisellä tavalla moottorissamme osana sitä Hadoop- tai Spark-tiedonkulku. Yläkulmaa ei ole, koska kaikki tapahtuu tällä dynaamisella optimoinnilla, joka meillä on, ja kaikki tehdään myös, koska moottorimme on integroitunut niin luontaisesti avoimen lähdekoodin panosten takia. Onko tämä vastaus kysymykseesi?

Eric Kavanagh: Joo, se on hyvä. Ja haluan heittää vielä yhden kysymyksen sinne, ja sitten Dez, ehkä me vetämme sinut ja Robin myös. Sain hilpeän kommentin yhdeltä osallistujalta. Luen sen, koska se on todella melko säädyllinen. Hän kirjoittaa: "Näyttää siltä, ​​että asioiden historiassa HOT" - saat sen? Kuten IoT - "on, että mitä enemmän yrität" yksinkertaistaa "jotain, joka on todella monimutkainen, useimmiten kuin ei sitä yksinkertaisempaa, mitä se näyttää tekevän, lisää ripustettavaa köyttä toimitetaan. Ajattele tietokantakyselyä, räjähdystä, monisäikeisyyttä jne. ”Voitko kommentoida tätä paradoksia, johon hän viittaa? Yksinkertaisuus vs. monimutkaisuus, ja pohjimmiltaan mitä oikein tapahtuu kansien alla?

Tendü Yogurtçu: Toki. Mielestäni se on erittäin pätevä asia. Kun yksinkertaistat asioita ja teet näitä optimointeja tavalla, joka on kansien alla, jonkun on otettava se monimutkaisuus mitä tapahtuu, eikö niin? Jos halvaat jotain tai päätät kuinka suorittaa tietty työ tietokonejärjestelmän suhteen, tietysti työssä on jotakin osaa, joka sitten työnnetään, onko se käyttäjän päässä, valikkokoodauksessa vai moottorin optimoinnissa. On osa tätä, yksinkertaistamalla käyttökokemusta on valtava etu siinä, että pystytään hyödyntämään yrityksessä olevia taitoja.

Ja voit jonkin verran lieventää tätä paradoksia, lieventää sitä haastetta, "Kyllä, mutta minulla ei ole hallintaa kaikkeen, mikä tapahtuu kannen alla, moottorin konepellin alla", altistamalla asiat edistyneemmille käyttäjille, jos he haluavat tällaisen hallinnan. Sijoittamalla myös joihinkin palveltavuustyyppeihin. Kyky tarjota toiminnallisempia metatietoja, enemmän operatiivista tietoa, kuten tämän osallistujan antamassa esimerkissä, SQL-kyselyyn samoin kuin moottorin käydessä. Toivon, että vastaukset.

Eric Kavanagh: Joo, se kuulostaa hyvältä. Dez, vie se pois.

Dez Blanchfield: Olen todella innokas saamaan hieman enemmän tietoa jalanjäljestäsi avoimen lähdekoodin muodoissa ja matkalle, jonka olet käynyt perinteisestä, pitkäaikaisesta kokemuksestaan ​​mainframe ja omistusmaailmassa, ja sitten siirtymisestä osallistuminen avoimeen lähdekoodiin ja miten se tapahtui. Ja toinen asia, jonka haluan ymmärtää, on näkemys, jonka näet, että yritykset, ei pelkästään tietotekniikkaosastot, vaan myös ottavat nyt huomioon tietokeskukset tai tietojärvet, kuten ihmiset sanovat nyt ja näkevätkö he tämän suuntauksen vain yksi, konsolidoitu tietojärvi tai näemmekö hajautettuja tietojärviä ja käyttävätkö ihmiset työkaluja niiden koottamiseen?

Tendü Yogurtçu: Toki. Ensimmäisen osalta se oli erittäin mielenkiintoinen matka ohjelmistoyrityksenä, joka oli yksi ensimmäisistä IBM: n jälkeen. Kaikki alkoi kuitenkin jälleen siitä, että evankelistiasiakkaamme katselivat Hadoopia. Meillä oli tietoyrityksiä, kuten ComScore, he olivat ensimmäisiä, jotka ottivat käyttöön Hadoopin, koska he keräsivät digitaalista tietoa ympäri maailmaa, eivätkä pystyneet säilyttämään 90 päivän tietoja, elleivät he sijoittaneet kymmenen miljoonan dollarin tietovarastolaatikkoa ympäristössä. He alkoivat katsoa Hadoopia. Sen kanssa aloimme myös tarkastella Hadoopia.

Ja kun teimme päätöksen ja tunnustimme, että Hadoop on todella tulevaisuuden tietoalusta, tulimme myös ymmärtämään, että emme voi olla tässä tässä onnistuneessa näytelmässä, ellemme olivat osa ekosysteemiä. Ja toimimme erittäin tiiviissä yhteistyössä Hadoop-myyjien, Clouderan, Hortonworksin, MapR: n ja muiden kanssa. Aloimme puhua heidän kanssaan, koska kumppanuudesta on erittäin tärkeää valvoa arvot, jotka myyjä voi tuoda, ja samalla varmistamme, että voimme mennä yhdessä yritykseen ja tarjota jotain merkityksellisempää. Se vaati paljon suhteiden rakentamista, koska Apache-avoimen lähdekoodin projekteja ei tunneta meille, mutta meidän on sanottava, että meillä oli suurta tukea näiltä Hadoop-myyjiltä.

Aloimme työskennellä yhdessä ja tarkastella keskittymää, kuinka voimme tuottaa arvoa edes omistajaohjelmistomme avaruudessa. Se oli tärkeää. Kyse ei ole vain joidenkin sovellusliittymien asettamisesta, joita tuotteesi voi käyttää, vaan sen, että voin sanoa, että investoin tähän, koska uskon Hadoopin olevan tulevaisuuden alusta, joten sijoittamalla lähteisiin, joita halusimme tehdä Varmista, että se kypsyy ja siitä tulee yritysvalmis. Voimme tosiasiallisesti sallia joidenkin käyttötapausten, jotka eivät olleet saatavilla ennen vastauksemme antamista. Se hyödyttää koko ekosysteemiä, ja voimme kehittää näitä kumppanuuksia erittäin tiiviisti.

Se vei melko paljon aikaa. Aloitimme osallistumisen rahoittamiseen vuonna 2011, ja vuonna 2013, 21. tammikuuta - Muistan päivämäärän, koska siihen mennessä suurin panoksemme oli sitoutunut, mikä tarkoitti, että meillä on nyt tuotteemme yleisesti saatavilla siitä lähtien - näiden suhteiden kehittäminen kesti melko aikaa, näytä arvo, kumppaneista tulee suunnittelukumppaneita myyjien ja avoimen lähdekoodin yhteisössä toimivien kanssa. Mutta se oli hauskaa. Yrityksemme oli erittäin palkitsevaa olla osa tätä ekosysteemiä ja kehittää hyvä kumppanuus.

Toinen kysymys datakeskuksesta / datajärvestä, mielestäni kun näemme nämä tiedot palvelun toteutuksena useimmissa tapauksissa, kyllä, kyseessä voivat olla klusterit, fyysisesti yksittäiset tai useat klusterit, mutta se on käsitteellisempi kuin siitä, että siitä tulee yksi paikka kaikille tiedoille. Koska joissain organisaatioissa nähdään suurten klusterien käyttöönoton lähtökohtana, mutta niillä on myös klustereita esimerkiksi julkisessa pilvessä, koska osa online-osioista kerätystä tiedosta pidetään todella pilvessä. Sillä, että sillä voi olla yksi dataputki, josta voit tosiasiallisesti hyödyntää molempia, ja käyttää niitä yhtenä tietokeskuksena, yksittäisenä datajärvenä, tulee tärkeäksi. Ei välttämättä pelkästään fyysinen paikka, mutta kyseisen tietokeskuksen ja tietojärven jakaminen klustereiden, maantieteellisten alueiden välillä ja kenties tiloissa ja pilvissä tulee mielestäni olemaan erittäin kriittistä. Varsinkin eteenpäin. Tänä vuonna aloimme nähdä yhä enemmän pilvipalveluiden käyttöönottoja. Se on mahtavaa. Tämän vuoden ensimmäisellä puoliskolla olemme toistaiseksi nähneet paljon pilvien käyttöönottoa.

Eric Kavanagh: Okei, siistiä. Ja Robin, onko sinulla kysyttävää? Tiedän, että meillä on vain muutama minuutti jäljellä.

Robin Bloor: Okei, voin kysyä häneltä kysymyksen. Ensimmäinen asia, joka minulle tapahtui, on, että Kafka on herättänyt paljon jännitystä, ja minua kiinnosti mielipiteesi Kafkasta ja siitä, miten sinä integroitutut tapaan, jolla ihmiset käyttävät Kafkaa?

Tendü Yogurtçu: Toki. Kyllä, Kafka on tulossa melko suosittu. Asiakkaidemme keskuudessa näemme olevan tällainen tiedonsiirtokerros ja näemme, että data on väylää, melko paljon. Esimerkiksi yksi asiakkaistamme käytännössä käytti sellaista kuluttavaa tietoa, joka työnnettiin tähän Kafkaan useiden joukossa, kuten tuhansia online-käyttäjiä, ja pystyi luokittelemaan sen ja ajamaan läpi.

Kafka on jälleen dataväylä tiedon eri kuluttajille. Luokittele joitain edistyneitä käyttäjiä verrattuna ei-niin edistyneisiin käyttäjiin ja tee jotain erilaista eteenpäin eteenpäin kyseisessä dataputkessa. Se, miten integroimme Kafkaan, on pohjimmiltaan, tuotteemme DMX-h tulee Kafkaan luotettavaksi kuluttajaksi, erittäin tehokkaaksi ja luotettavaksi kuluttajaksi. Se pystyy lukemaan tietoja, ja tämä ei ole mitään muuta kuin tietojen lukeminen mistä tahansa muusta tietolähteestä meille. Annamme käyttäjille mahdollisuuden hallita ikkunaa joko käyttämäsi aikavaatimuksen tai viestien lukumäärän perusteella, jota he voivat kuluttaa Kafka-bussista. Ja sitten voimme myös rikastaa näitä tietoja, kun ne käyvät läpi tuotteemme ja työnnetään takaisin Kafkaan. Olemme testanneet tätä. Olemme vertailleet sitä asiakaskohtaisesti. Myös Confluentin sertifioima. Teemme tiivistä yhteistyötä konfluenttilaisten kanssa, ja se on erittäin suorituskykyinen ja helppo käyttää. Jälleen, sovellusliittymät muuttuvat, mutta sinun ei tarvitse huolehtia, koska tuote todella käsittelee sitä vain yhtenä tietolähteenä, streaming-tietolähteenä. On melko hauskaa työskennellä tuotteemme ja Kafkan kanssa.

Robin Bloor: Okei, minulla on toinen kysymys, joka on vain eräänlainen yleinen liiketoimintakysymys, mutta olen tuntenut Syncsortin jo pitkään ja sinulla on aina ollut maine ja toimittaneet poikkeuksellisen nopeita ohjelmistoja ETL: lle ja keskusyksikölle. Onko niin, että suurin osa yrityksestänne on nyt siirretty Hadoopille? Onko niin, että olet tavalla tai toisella levittänyt yrityksesi melko dramaattisesti keskusyksikkömaailmasta?

Tendü Yogurtçu: Mainframe-tuotteidemme osuus on edelleen 50 prosenttia mainframeista maailmanlaajuisesti. Joten meillä on erittäin vahva mainframe-tuotelinja sen lisäksi, mitä teemme big data- ja Hadoop-lopussa. Ja olemme edelleen suurimmassa osassa IT-yksinkertaistamis- tai optimointiprojekteja, koska on yksi pää, jonka haluat pystyvän hyödyntämään mainframe -tietojasi bigte Multex -ympäristöissä ja hyödyntämään kaikkia yritystietoja. Kuitenkin on myös erittäin kriittisiä liiketoimien työkuormia joka edelleen jatkuu mainframe-kehyksessä, ja tarjoamme näille asiakkaille tapoja todella tehdä sovelluksista tehokkaampia, ajaa zIIP-moottorissa, jotta he eivät kuluta niin paljon käsittelyjaksoja ja MIPS: ää, tekevät niistä kustannustehokkaita.

Investoimme jatkossakin mainframe-tuotteisiin ja pelaamme tosiasiallisesti tähän tilaan, jossa ihmiset siirtyvät mainframe isoista rauta-tiedostoista isoihin tietoihin ja ulottuvat tuotelinjaan myös näiden järjestelmien kautta. Joten emme välttämättä siirrä koko liiketoimintaa toiselle puolelle, meillä on edelleen erittäin menestyvää liiketoimintaa molemmilla puolilla. Ja yritysostot ovat iso painopiste myös meille. Tämän suurten tietoalustojen tiedonhallinta- ja tietojenkäsittelytilan kehittyessä olemme sitoutuneet tekemään myös melkoisen osan lisähankinnoista.

Robin Bloor: No en luultavasti voi kysyä sinulta mitä he ovat, koska et saisi kertoa minulle. Olen kiinnostunut siitä, oletko nähnyt monia Hadoopin tai Sparkin toteutuksia todella mainframessa vai onko tämä erittäin harvinainen asia.

Tendü Yogurtçu: Emme ole nähneet yhtään. Tästä on enemmän kysyttävää. Mielestäni keskusyksikön Hadoopilla ei ollut paljon järkeä sellaisen ydinrakenteen takia. Spark mainframe-kehyksessä on kuitenkin varsin merkityksellinen ja Spark on todella erittäin hyvä koneoppimisessa ja ennakoivassa analytiikassa, ja sillä, että jollain noista mainframe -tietojen sovelluksista on mielestäni melko merkityksellistä. Emme ole vielä nähneet ketään tekevän sitä, mutta tämä on tosiasiallinen käyttötapa. Jos yrityksesi käyttötapa tuo enemmän kyseistä mainframe-tietoa ja integroituu muun tietokokonaisuuden kanssa isoan tietoalustaan, se on yksi tarina. Se edellyttää pääsyä mainframe-tietoihin big data Multex -alustalta, koska et todennäköisesti tuota tietojoukkoja avoimista järjestelmistä ja kutsut takaisin takaisin mainframe-järjestelmään. Jos sinulla on joitakin mainframe-tietoja, jotka haluat vain tutkia ja tehdä vähän tietojen etsinnästä, käyttää joitain edistyneitä AI: tä ja edistyneitä analytiikoita, Spark saattaa olla hyvä tapa edetä ja käyttää sitä mainframessa.

Eric Kavanagh: Ja tässä on vielä yksi yleisön kysymys, oikeastaan ​​vielä kaksi. Annan sinulle tag-joukkuekysymyksen, sitten ryhdymme asiaan. Yksi osallistuja kysyy: ”Integroiko IBM avoimen lähdekoodin avustustasi julkiseen pilviekosysteemiin, toisin sanoen Bluemixiin?” Ja toinen osallistuja esitti todella hyvän huomautuksen, että Syncsort on upea pitämään iso rauta hengissä niille, jotka sinulla on jo se, mutta jos yritykset luopuvat uusista keskusyksiköistä, joita hän kutsuu CE: ksi, pilviä kaikkea, se todennäköisesti vähenee, mutta huomauttaa, että kaverit ovat todella hyviä siirtämään tietoja ohittamalla käyttöjärjestelmiä gigatavuun sekunnissa. Voitteko puhua jonkin verran ydinvoimasta, kuten hän mainitsi, ja integroiko IBM tietosi Bluemixiin vai ei?

Tendü Yogurtçu: IBM : n kanssa olemme jo kumppaneita IBM: n kanssa ja kävimme keskusteluja heidän tuotteensa tarjoavista datapilvipalveluista . Avoimen lähdekoodin kommentit ovat avoinna kaikille, jotka haluavat hyödyntää niitä. Jotkut mainframe-yhteyksistä on saatavana myös Spark-paketeissa, joten ei vain IBM. Kuka tahansa voi hyödyntää niitä. Bluemixissä emme ole vielä tehneet mitään nimenomaisesti tähän. Ja toistatko toisen kysymyksen?

Eric Kavanagh: Kyllä, toinen kysymys koski toiminnallisuuden ydinaluetta vuosien varrella, joka todella käsitteli ETL: n pullonkauloja ja on selvää, että se on jotain, jonka te kaverit vielä teet pääkonttorina, no, teoreettisesti pysyt poissa, vaikka Dezin point on edelleen eräänlainen rokkaaminen ja rullaaminen sinne. Mutta osallistuja huomautti vain, että Syncsort on erittäin hyvä siirtämään tietoja ohittamalla käyttöjärjestelmät ja jopa gigatavuun sekunnin. Voitko vain kommentoida sitä?

Tendü Yogurtçu: Kyllä, todella yleinen resurssitehokkuus on ollut vahvuutemme ja skaalautuvuus ja suorituskyky ovat olleet vahvuutemme. Emme tee kompromisseja, yksinkertaistamisella on monia merkityksiä, emme tee kompromisseja niistä. Esimerkiksi kun ihmiset alkoivat puhua Hadoopista vuonna 2014, monet organisaatiot eivät oikein katsoneet suorituskykyä alun perin. He sanoivat: "Voi, jos jotain tapahtuu, voin lisätä vielä pari solmua ja tulen hyvin, suorituskyky ei ole minun vaatimukseni."

Vaikka puhuimme parhaan suorituskyvyn saavuttamisesta, koska olimme jo käynnissä natiivisti, meillä ei ollut edes joitain alkuperäisistä hikeistä, joita Hivellä oli useilla MapReduce-töillä ja yleiskustannukset niiden käynnistämisellä. Ihmiset sanoivat meille: "Voi, se ei ole minun huoleni, älä ole huolissasi siitä tällä hetkellä."

Kun tulimme vuoteen 2015, maisema on muuttunut, koska jotkut asiakkaistamme ovat jo ylittäneet varastoinnin, joka heillä oli tuotantoklustereissaan. Heistä tuli erittäin kriittistä nähdä, mitä Syncsort voi tarjota. Jos otat joitain tietoja tietokannasta tai keskusyksiköstä ja kirjoitat parketimuotoon klustereissa, laskeudutko maahan ja suoritat uuden muutoksen vai suoritatko vain lennon muuntamisen ja laskeutuneen kohdetiedostomuodon, se vaikuttaa, koska säästät tallennustilaa, säästät verkon kaistaleveltä, säästät klusterin työmäärästä, koska et suorita ylimääräisiä töitä. Ne vahvuudet, joita pelaamme hyvin tietoisuuden suhteen, tunnemme resurssitehokkuuden ihon alla, näyttää.

Näin me kuvailemme sitä. Se on meille kriittistä. Emme pidä sitä itsestään selvänä. Emme ole koskaan pitäneet sitä itsestään selvänä, joten pysymme vahvana tällä vipuvaikutuksella Apache Sparkissa tai seuraavassa tietokonekehyksessä. Se on edelleen keskittymisemme. Ja tiedonsiirto- ja pääsykappaleiden suhteen, se on ehdottomasti yksi vahvuuksistamme ja olemme käyttämässä DB2- tai VSAM-tietoja pääkehyksistä Hadoopin tai Sparkin yhteydessä.

Eric Kavanagh: No, se on hieno tapa lopettaa webcast-lähetys, ihmiset. Kiitos paljon aikaa ja huomiosta. Kiitos teille, Tendü ja Syncsort, että tulitte tiedotustilaan ja astutte ympäri, kuten sanotaan. Paljon upeita kysymyksiä yleisöltä. Se on jatkuvasti liikkuva ympäristö, ihmiset. Arkistoimme tämän hot tech -laitteen samoin kuin kaikkien muidenkin. Löydät meidät osoitteesta insideanalysis.com ja techopedia.com. Yleensä se nousee noin päivässä. Ja sen kanssa, me jäämme jäähyväiset, ihmiset. Kiitos paljon. Puhumme pian sinulle. Pitää huolta. Hei hei.

Iso rauta, tapaa suurta dataa: vapauttaa mainframe-tiedot hadoopilla ja kipinällä