Koti Audio Mitä eroa on puheen ja tekstin välillä chatboteissa?

Mitä eroa on puheen ja tekstin välillä chatboteissa?

Anonim

K:

Mitä eroa on puheen ja tekstin välillä chatboteissa?

V:

Puhetta tekstiksi -tekniikan ja chatbottien väliset lukuisat merkittävät erot ovat osa sitä, mitä tutkitaan chatbot- ja voicebot-projektien nopeassa kehityksessä.

Puhe tekstiksi -tekniikka on yksinkertaisesti sellainen, joka muuntaa sanallisen puheen digitaalisen sivun tekstiksi. Se on sen täysi toiminta, mutta se ei ole sellainen, jota olisi helppo suunnitella. Verbaalin puheen muuntamiseksi tekstiksi tekniikan on hajotettava sanat ja lauseet yksittäisiksi foneemiksi ja työskenneltävä niiden kanssa monimutkaisten algoritmien mukaisesti luomalla teksti, joka on tarkka ja edustaa puhujan sanoja.

Chatbotit puolestaan ​​ovat tekniikoita, jotka saavuttavat tavoitteen kommunikoida ihmisen kanssa. Chatbotteja on kahta tyyppiä: tekstikeskustelu- ja äänibotit. Teksti-chatbotit ovat olleet olemassa paljon kauemmin, koska ne eivät tarvitse puhetta tekstiin-elementtiä, jota äänimerkkipalvelut käyttävät.

Suurin ero puhe tekstiksi -tekniikan ja chatbotien välillä on laajuus. Kuten mainittiin, kaikki puhe tekstiksi -teknologian täytyy olla sanallisen puheen transkriptio. Chatbotin on sitä vastoin pidettävä puhetta millaisessa muodossa tahansa, ymmärrettävä se ja annettava vastauksia, jotka pyrkivät läpäisemään Turingin testin - testin siitä, voiko tekniikka huijata ihmistä ajattelemaan, että hän on puhuminen toisen henkilön kanssa.

Tätä silmällä pitäen chatbotit on paljon helpompaa luoda kuin äänibootteja. Chatbot ottaa ihmisen tekstin vastaan ​​ja tarjoaa tekstivastauksen. Jopa suhteellisen yksinkertaiset chatbotit ovat kyenneet tarjoamaan mielenkiintoisia ja nautinnollisia tuloksia ihmisille 1980-luvun lopulta ja 1990-luvun alusta.

Äänipisteen on sitä vastoin otettava suullisessa puheessa, muunnettava se tekstiksi, tarkistettava sen tarkkuus, tuotettava vastaus ja rakennettava tämä vastaus konekielestä kuuluvaksi puheeksi. Tämä suuri joukko melko merkittäviä tehtäviä tarkoittaa, että äänibotti vie paljon laskentatehoa ja rakentaa paljon suunnittelua.

Siri, Cortana ja Alexa, kuten projektit, esittelevät osan ääni-robotti tekniikan eturintamassa. Ne kuvaavat myös, että tämä tekniikka on vielä alkuvaiheessa. Vaikka Alexa ja muut tekniikat voivat vastata suullisesti ihmisen puheeseen, ne eivät ole erityisen kykeneviä siinä mielessä, että yhdistämme verbaaliseen ihmispuheeseen yleensä. Toisin sanoen, vastaukset, joita nämä tekniikat voivat tarjota, ovat melko rajoittavia. Nykypäivän henkilökohtaisten avustajien sukupolvella on jopa rajallinen kyky tuottaa puhetta tekstiksi, esimerkiksi sähköpostin puhtaaksikirjoitusta varten tai auttamiseksi joku esseen kirjoittamiseen käyttämättä kättään. Jotkut markkinoilla olevista erityisistä puheteksti-ohjelmista tekevät tämän paremmin kuin Siri tai Cortana, luultavasti resurssien jakamisen vuoksi. On kuitenkin merkkejä siitä, että äänibotin edistyminen on pian alkamassa - kuten Amazonin Lex-alusta, joka sallii studioympäristön tämän tyyppisten tekniikoiden rakentamiseksi.

Tobias Goebel puhuu älykkäässä ja opastavassa aiheesta aiheesta, joka eroaa näiden tekniikoiden välillä, vastakohtana prosessille, jonka mukaan "tekstinkirjoittaminen", mitä puhe tekstiin tekee, ymmärrystyöhön, jonka chatbotien on tarkoitus tehdä.

"Vaikka puheentunnistuksen tarpeen poistaminen tekee asioista chatbotin helpompaa, tärkein haaste rakentaa toimivia robotteja on luonnollisessa kielen ymmärtämisessä", Goebel kirjoittaa.

Goebel tunnistaa myös monet alan nykyisistä toimijoista:

Markkinajohtaja puheentunnistuksessa on Nuance, joka on takana tunnettujen järjestelmien, kuten Dragon NaturallySpeaking, sanelusta PC: llä, joka on ollut käytössä jo 1990-luvulta lähtien, mutta myös Siri: puheentunnistus- / transkriptiotehtävä Apple-pilvessä käyttää Nuance-tekniikka kulissien takana. Toiset ovat LumenVox, Verbio tai Interactions, mutta puheentunnistusta tarjotaan nyt myös pilvipalveluna sovellusliittymien kautta Amazonin, Googlen, Microsoftin ja IBM: n kaltaisten tapaan.

Chatbotien kehittyessä oletetaan, että heidän ymmärryksensä kasvaa edelleen tietyllä radalla - ja oletetaan myös suurelta osin, että enemmän bot-tekniikkaa siirtyy tekstirajapinnoista sanallisiin rajapintoihin, mikä vaatii lisämääriä laskentatehoa.

Mitä eroa on puheen ja tekstin välillä chatboteissa?