Voiko suurissa tiedoissa koskaan olla liian paljon dataa?

2026

Voiko suurissa tiedoissa koskaan olla liian paljon dataa?

Vastaus kysymykseen on kuuluva KYLLÄ. Suuressa dataprojektissa voi olla ehdottomasti liian paljon dataa.

Näin voi tapahtua lukuisilla tavoilla, ja monista syistä, miksi ammattilaisten on rajoitettava ja kuratoitava tietoja monilla tavoilla oikeiden tulosten saamiseksi. (Lue 10 suurta myyttiä isoista tiedoista.)

Yleensä asiantuntijat puhuvat "signaalin" erottamisesta "kohinasta" mallissa. Toisin sanoen suurten tietojen mereen asiaankuuluvaa tietoa on vaikea kohdistaa. Joissain tapauksissa etsit neulaa heinäsuovasta.

Oletetaan esimerkiksi, että yritys yrittää käyttää suurta dataa tuottaa erityisiä oivalluksia asiakaskunnan segmentistä ja heidän ostoistaan tietyllä aikavälillä. (Lue Mitä iso data tekee?)

Valtavan määrän tietoresurssien ottaminen voi johtaa satunnaisten tietojen saamiseen, joka ei ole merkityksellistä, tai se voi jopa tuottaa poikkeaman, joka vääristää tietoja toiseen suuntaan.

Se myös hidastaa prosessia dramaattisesti, koska laskentajärjestelmien on painettava suurempien ja suurempien tietojoukkojen kanssa.

Niin monissa erityyppisissä hankkeissa on erittäin tärkeää, että tietotekniikan suunnittelijat kuraavat tiedot rajoitettuihin ja erityisiin tietojoukkoihin - edellä mainitussa tapauksessa kyse olisi vain kyseisen asiakasryhmän tiedoista, vain kyseisen ajan tiedot. tutkittava kehys ja lähestymistapa, joka syrjäyttää ylimääräiset tunnisteet tai taustatiedot, jotka voivat sekoittaa asioita tai hidastaa järjestelmiä. (ReadJob-rooli: Datainsinööri.)

Katsotaanpa lisää, miten tämä toimii koneoppimisen rajalla. (Lue koneoppiminen 101.)

Koneoppimisen asiantuntijat puhuvat "ylimääräisestä" nimityksestä, jossa liian monimutkainen malli johtaa vähemmän tehokkaisiin tuloksiin, kun koneoppimisohjelma käännetään irti uusista tuotantotiedoista.

Yliasennus tapahtuu, kun monimutkainen datapistejoukko vastaa liian hyvin ensimmäistä harjoitussarjaa, eivätkä anna ohjelman mukautua helposti uuteen tietoon.

Nyt teknisesti ylikuormitus ei johdu liian monien tietonäytteiden olemassaolosta, vaan liian monien tietopisteiden kruunaamisesta. Mutta voisit väittää, että liian suuren datan määrän saaminen voi olla avuksi myös tämän tyyppisissä ongelmissa. Dimensionaalisuuden kirous käsittelee joitain samoja tekniikoita, joita tehtiin aiemmissa isoissa dataprojekteissa, kun ammattilaiset yrittivät selvittää, mitä he syöttävät IT-järjestelmiä.

Tärkeintä on, että iso data voi olla yrityksille suunnattoman hyödyllistä tai siitä voi tulla suuri haaste. Yksi näkökohta tässä on se, onko yrityksellä oikeat tiedot pelissä. Asiantuntijat tietävät, että ei ole suositeltavaa yksinkertaisesti upottaa kaikki tietovarastot täyttösuppiloon ja keksiä näkemyksiä tällä tavalla - uusissa pilvipohjaisissa ja hienostuneissa tietojärjestelmissä yritetään hallita ja hallita ja kuratoida tietoja, jotta saataisiin tarkempia ja tietoresurssien tehokas käyttö.

Voiko suurissa tiedoissa koskaan olla liian paljon dataa?

Liian paljon roskapostia? 5 tekniikkaa, jotka on suunniteltu estämään se

Tech-pioneerit, joita et ole koskaan koskaan kuullut

Mitkä ovat 3v: n suurissa tiedoissa? - määritelmä techopediasta

Toimittajan valinta

Mikä on kotiäänen ja videon yhteentoimivuus (havi)? - määritelmä techopediasta

Mikä on homepna (hpna)? - määritelmä techopediasta

Mikä on ieee 1394-käyttöliittymä? - määritelmä techopediasta

Mikä on ieee 829? - määritelmä techopediasta

Toimittajan valinta

Mikä on yrityksen identiteetin kartoitus (eim)? - määritelmä techopediasta

Mitä on yhdistynyt identiteetinhallinta (fim)? - määritelmä techopediasta

Mikä on fennec? - määritelmä techopediasta

Mikä on toiminnallinen ohjelmointi? - määritelmä techopediasta

Toimittajan valinta

Mikä on alkuperäinen grafiikanvaihtomääritys (iges)? - määritelmä techopediasta

Mikä on muuliyrityksen palveluväylä (mule esb)? - määritelmä techopediasta

Mikä on monikerroksinen perceptroni (mlp)? - määritelmä techopediasta

Mikä on moniperintö? - määritelmä techopediasta

Toimittajan valinta

Mitä on kehysmallinnus? - määritelmä techopediasta

Mikä on langaton Firewire? - määritelmä techopediasta

Mikä on langaton viestintä? - määritelmä techopediasta

Mikä on langaton reititin? - määritelmä techopediasta

Toimittajan valinta

Mikä on ryhmäajattelu? - määritelmä techopediasta

Mikä on integroinnin väliohjelmisto? - määritelmä techopediasta

Mikä on älykäs agentti? - määritelmä techopediasta

Mikä on älykäs haku? - määritelmä techopediasta

Suosittuja luokkia