Sisällysluettelo:
Määritelmä - mitä vahvistusoppiminen tarkoittaa?
Vahvistusoppiminen on tekoälyn yhteydessä dynaamista ohjelmointia, joka kouluttaa algoritmeja palkkio- ja rangaistusjärjestelmän avulla.
Vahvistava oppimisalgoritmi eli agentti oppii vuorovaikutuksessa ympäristönsä kanssa. Agentti saa palkinnot suorittamalla oikein ja rangaistukset virheellisestä suorittamisesta. Agentti oppii ilman ihmisen väliintuloa maksimoimalla palkkionsa ja minimoimalla rangaistuksensa.
Techopedia selittää vahvistusoppimisen
Vahvistusoppiminen on käyttäytymispsykologian inspiroima lähestymistapa koneoppimiseen. Se on samanlainen kuin kuinka lapsi oppii suorittamaan uuden tehtävän. Vahvistusoppiminen on ristiriidassa muiden koneoppimislähestymistapojen kanssa siinä, että algoritmille ei kerrota nimenomaisesti, kuinka tehtävä suoritetaan, vaan se toimii ongelman läpi yksin.
Asiamiehenä, joka voi olla itse ajava auto tai shakkia pelaava ohjelma, vuorovaikutuksessa ympäristönsä kanssa, se saa palkintotilan riippuen suorituskyvystään, kuten turvalliseen määränpäähän ajamiseen tai pelin voittamiseen. Agentti saa sitä vastoin rangaistuksen virheellisestä suorittamisesta, kuten tien päältä poistumisesta tai tarkistuksesta.
Agentti ajan myötä päättää maksimoida palkkionsa ja minimoida sakkojensa dynaamisella ohjelmoinnilla. Tämän keinotekoisen älykkyyden lähestymistavan etuna on, että se antaa AI-ohjelmalle mahdollisuuden oppia ilman ohjelmoijaa selventämään, kuinka agentin tulisi suorittaa tehtävä.