Koti Audio Kuinka insinöörit voivat arvioida koulutusjoukkoja ja testisarjoja havaitakseen mahdollisen ylikuormituksen koneoppimisessa?

Kuinka insinöörit voivat arvioida koulutusjoukkoja ja testisarjoja havaitakseen mahdollisen ylikuormituksen koneoppimisessa?

Anonim

K:

Kuinka insinöörit voivat arvioida koulutusjoukkoja ja testisarjoja havaitakseen mahdollisen ylikuormituksen koneoppimisessa?

V:

Jotta ymmärretään miten tämä tapahtuu, on välttämätöntä, että sinulla on perustiedot eri tietojoukkojen roolista tyypillisessä koneoppimisprojektissa. Harjoittelujoukko on perustettu antamaan teknologialle viitekehys - tietokanta, jota ohjelma käyttää ennakoivien ja todennäköisten päätösten tekemiseen. Testisarja on se, missä testaat koneen datan perusteella.

Yliasennus on koneoppimisessa oireyhtymä, jossa malli ei täysin vastaa tietoja tai tarkoitusta.

Ilmainen lataus: Koneoppiminen ja miksi sillä on merkitystä

Yksi koneoppimisen kattava käsky on, että harjoitustietojen ja testitietojen tulisi olla erillisiä tietokokonaisuuksia. Tästä on melko laaja yksimielisyys, ainakin monissa sovelluksissa, johtuen tietyistä erityisongelmista saman sarjan käyttämisessä, jota käytit harjoittelussa koneoppimisohjelman testaamiseen.

Kun koneoppimisohjelma käyttää harjoittelujoukkoa, jota voidaan kutsua lähinnä panosjoukkoksi, se toimii sen jälkeen, kun koulutusryhmä tekee päätöksiä ennustavista tuloksista. Yksi hyvin perusteltu tapa ajatella sitä on, että harjoitussarja on "ruoka" älylliselle laskentaprosessille.

Nyt kun samaa sarjaa käytetään testaukseen, kone voi usein tuottaa erinomaisia ​​tuloksia. Tämä johtuu siitä, että se on jo nähnyt nämä tiedot aiemmin. Mutta koneoppimisen koko tavoite on monissa tapauksissa tuottaa tuloksia tiedoista, joita ei ole ennen nähty. Yleiskäyttöiset koneoppimisohjelmat on tehty toimimaan monenlaisilla tietosarjoilla. Toisin sanoen koneoppimisen periaate on löytö, ja et yleensä saa siitä niin paljon käyttämällä alkuperäistä koulutussarjaa testitarkoituksiin.

Arvioidessaan koulutusjoukkoja ja testisarjoja mahdollisen ylimääräisen asennuksen suhteen, insinöörit saattavat arvioida tuloksia ja selvittää, miksi ohjelma saattaa tehdä niin eri tavalla näiden kahden sarjan vertailutulosten perusteella tai joissain tapauksissa, kuinka kone saattaa tehdä liian hyvin itse koulutustietoihin .

Kuvaaessaan osaavasti joitain näistä koneoppimisessa esiintyvistä ongelmista vuonna 2014, Jason Brownlee Machine Learning Mastery -yrityksessä kuvaa ylimääräistä asennusta tällä tavalla:

"Mallissa, joka valitaan sen tarkkuuden perusteella harjoitustietoaineistossa kuin sen tarkkuuden suhteen näkymättömässä testitiedostossa, on todennäköisesti alhaisempi tarkkuus näkymättömässä testitiedot", Brownlee kirjoittaa. "Syynä on, että malli ei ole yhtä yleinen. Se on erikoistunut harjoitustiedotteen rakenteeseen (kursivoitu lisätty). Tätä kutsutaan liikavarusteeksi, ja se on salaperäisempi kuin luulet."

Voit sanoa, että erikoistumalla harjoitustietojoukkoon, ohjelmasta tulee liian jäykkä. Se on toinen metaforinen tapa tarkastella, miksi koneoppimisohjelmaa ei tarjota optimaalisesti käyttämällä testisarjan harjoitusryhmää. Se on myös hyvä tapa lähestyä näiden kahden eri sarjan arviointia, koska tulokset osoittavat suunnittelijoille paljon ohjelman toiminnasta. Haluat pienemmän aukon tarkkuuden välillä molemmilla malleilla. Haluat varmistaa, että järjestelmää ei ole ylikuormitettu tai "tarkkuus sulautettu" tiettyyn tietojoukkoon, mutta se on yleisempi ja pystyy kasvamaan ja kehittymään komennolla.

Kuinka insinöörit voivat arvioida koulutusjoukkoja ja testisarjoja havaitakseen mahdollisen ylikuormituksen koneoppimisessa?