K:
Kuinka koneoppimisen tietojen kaavinnasta on tullut kaikkein työvoimavaltainen pullonkaula manuaalisen tietojen syöttämisen jälkeen vanhassa siirrossa?
V:Yksi käytännön ongelmista, joita yritykset voivat kohdata yrittäessään aloittaa koneoppimisprojektin (ML), on haaste hankkia alkuperäiset koulutustiedot. Tämä voi sisältää työvoimavaltaisia prosesseja, kuten verkkokaappaus tai muu datan kaavinta.
Termit verkkokaappaus ja tietojen kaavinta viittaavat suurelta osin tietokoneohjelmistojen automatisoituun toimintaan, mutta monissa ML-projekteissa on tapauksia, joissa tietokoneilla ei ole hienostuneisuutta kerätä oikeaa kohdennettua tietoa, joten se on tehtävä "käsin." Tätä voi kutsua "ihmisen web- / datan kaavuttamiseksi", ja se on kiitoton työ. Yleensä siihen sisältyy tietojen tai kuvien etsiminen ML-ohjelman "syöttämiseksi" koulutusjoukkojen kautta. Se on usein melko toistuvaa, mikä tekee siitä tylsää, hidasta ja vaativaa työtä.
Ilmainen lataus: Koneoppiminen ja miksi sillä on merkitystä |
Tietojen kaavinta ML-harjoitussarjoille edustaa ainutlaatuisesti ongelmallista pullonkaulaa koneoppimisessa osittain siksi, että niin suuri osa muusta työstä on hyvin käsitteellistä eikä toistuvaa. Monet ihmiset voivat laatia hienon idean uudesta sovelluksesta, joka suorittaa koneoppimistehtäviä, mutta mutterit ja pultit sekä käytännön työ voivat olla paljon vaikeampia. Erityisesti koulutusjoukkojen kokoamistyön siirtäminen voi todella olla yksi ML-projektin vaikeimmista osista, kuten Mike Judge'in "Piilaakson" televisio-ohjelmassa on täysin tutkittu. Neljännen kauden jaksossa aloittava yrittäjä kiusaa ensin kumppania tekemällä työvoimavaltaista työtä, sitten yrittää välittää sen yliopisto-opiskelijoille naamioimalla sen kotitehtäväksi.
Tämä esimerkki on ohjeellinen, koska se osoittaa, kuinka epämiellyttävä ja näennäisesti merkityksetön manuaalinen tietojen kaavinta on. Se osoittaa kuitenkin myös, että tämä prosessi on tarpeen monille koneoppimistuotteille. Vaikka suurin osa ihmisistä vihaa tietojen syöttämistä, harjoitusjoukot on koottava jollain tavalla. Prosessin asiantuntijat suosittelevat usein verkkokaappauspalvelun käyttöä - lähinnä vain tämän erittäin työvaltaisen työn ulkoistamista ulkoisille osapuolille, mutta sillä voi olla turvallisuushaittoja ja aiheuttaa muita ongelmia. Kun manuaalista tiedonkeruua pidetään sisäisesti, on myös varauduttava siihen, mikä on usein erittäin manuaalinen ja aikaa vievä prosessi.
Joillakin tavoin "ihmisten tietojen kaavinta" koneoppimiselle näyttää manuaaliselta tietojen syöttämiseltä, joka joskus piti tehdä vanhassa siirrossa. Kun pilvi muuttui yhä suositummaksi ja yritykset sijoittivat prosessinsa ja työnkulunsa pilveen, jotkut havaitsivat, että he eivät olleet selvittäneet käytännön näkökohtia siitä, miten saada yritystietonsa eristetystä vanhasta järjestelmästä pilvipohjaisiin sovelluksiin. Seurauksena on, että jotkut ihmiset, jotka muuten olivat tietotekijöitä tai luovia ihmisiä, joilla oli olennainen tietotekniikkaosaaminen, joutuivat suorittamaan epämiellyttäviä tietojen syöttötehtäviä.
Sama todennäköisesti tapahtuu koneoppimisella. Saatat kuulla tietoteknikon valittavan, että olen luova ihminen tai olen kehityksen puolella - mutta jonkun on tehtävä likainen työ.
Jälleen, jos luovaan virtaan ei sovi työnkulun delegoinnin käytännön arviointi, tehtävänkäsittelyn suunnassa tulee olemaan epäsuhta. Kun yrityksellä ei ole ihmisiä tekemään tietokaapistustietoa keräämällä tietojoukkoja, sillä puuttuu avainosa prosessiketjusta onnistuneelle projektille. On syytä pitää tämä mielessä aina, kun yritys yrittää tehdä hyvää idealle, joka perustuu uusien koneoppimissovellusten kehittämiseen.