Kuulen kuolleita ihmisiä? luonnollinen kielitekniikka saa entiset ja nykyiset äänet elämään

2025

Sisällysluettelo:

Suuret muutokset NLP: ssä
Jännittäviä "Teksti ääniin" -luomuksia VivoTextissä
Keinotekoinen ääni markkinoinnissa
Äänesi elää
Vuonna 2525

Nykyään suurin osa tietokoneäänistä on passé. Et todennäköisesti ole liian ammuttu kyborgeista ja roboteista, kun kuulet puhelimesi droidin auttavan sinua laskutuksessa tai kysyttäessäsi mitä osastoa haluat. Mutta entä jos kuulit yhtäkkiä Kurt Cobainin kehottavan sinua korttitietoihin? Tai John F. Kennedy kertoa sinulle varhaisen äänestyksen ihmeistä? Tai Elvis hakee nimesi ja osoitteesi ennen kuin murtuu "kimpale, palavan rakkauden kimpale?"

Kaikki nämä olisivat … melko outoja, mutta vielä kiehtovampaa on, että tekniikka on pohjimmiltaan jo täällä. Vain kymmenen vuotta sitten meitä hämmästytti tietokoneen kyky puhua ollenkaan. Nyt meillä on lattialla vapaita, tietokoneella tuotettuja ääniä, jotka kuulostavat aivan kuten tiedämme.

Suuret muutokset NLP: ssä

Jos kiinnität huomiota luonnollisen kielenkäsittelyn (NLP) alaan, olet ehkä kuullut joihinkin viimeaikaisista edistysaskeleista, jotka ylittävät sellaiset konservoidut virtuaaliassistenttien äänet, joita kuulemme nyt globaaleissa paikannusjärjestelmissämme (GPS) ja automatisoidussa liiketoiminnassa puhelinlinjat.

NLP: n alku vaati paljon tutkimusta ihmisen puheen yleisestä mekaniikasta. Tutkijoiden ja insinöörien piti tunnistaa yksittäiset foneettiset asiat, taittaa ne suurempiin algoritmeihin lauseiden ja lauseiden tuottamiseksi ja yrittää sitten hallita kaikkea sitä metatasolla luodakseen jotain, joka kuulostaa todelliselta. Ajan myötä NLP: n johtajat hallitsivat tämän ja aloittivat edistyneiden algoritmien rakentamisen ymmärtääksesi ihmisten sanoja. Kun nämä kaksi yhdistetään, yritykset keksivät nykypäivän virtuaaliassistenttien ja täysin digitaalisten laskutusmaksuajoneuvojen ohjaimet, joiden manneasiat - vaikka ärsyttävätkin - ovat silti hämmästyttäviä, kun lopetat miettiä heidän työtään.

Nyt jotkut yritykset ovat menneet yleisen virtuaalisen äänen ulkopuolelle asettaakseen tarkemman henkilökohtaisen tuloksen. Tämä vaatii tietyn henkilön sanakirjan läpikäymisen ja suurten määrien ainutlaatuisen äänivideon keräämisen, sitten tämän arkiston soveltamisen monimutkaisiin rytmeihin foneettisia, korostettavia, poljinnopeutta ja kaikkia muita pieniä vihjeitä varten, joita kielitieteilijät usein ryhmittelevät "prosodian" laajan viivan alla.

Tulee esiin ääni, jonka kuuntelijat ajattelevat olevan tietyn henkilön "omistamia" - joko joku, jonka he tuntevat ja ovat puhuneet, tai joku, jonka äänen he tunnustavat henkilön kuuluisuudesta johtuen.

Elvisistä Martin Luther Kingiin kuka tahansa ääni voidaan nyt "kloonata" tällä tavalla - edellyttäen, että heidän puheestaan on tallennettu merkittävä tallennus. Soveltamalla vielä yksityiskohtaisempaa analyysiä ja manipulointia yksittäisiin pieniin ääniin yritykset pystyvät tekemään virtuaalisen hiilikopion jonkun äänestä, joka kuulostaa paljon oikealta.

Jännittäviä "Teksti ääniin" -luomuksia VivoTextissä

Esimerkiksi VivoText on yksi yritys, joka pyrkii mullistamaan keinotekoisten ihmisten äänien käytön kaikenlaisissa kampanjoissa äänikirjoista vuorovaikutteiseen äänivasteeseen (IVR). VivoTextillä tutkimus- ja tuotantoryhmät työskentelevät prosessien parissa, jotka teoreettisesti voisivat erityisesti kopioida kuolleiden kuuluisuuksien, kuten itse Ol 'Blue Eyes, äänet.

"Kloonataksesi Frank Sinatran äänen, käyisimme todella läpi hänen tallennetun perintönsä", sanoo VivoText-toimitusjohtaja Gershon Silbert puhuessaan siitä, kuinka tällainen tekniikka voisi toimia.

Tällä hetkellä VivoText pyrkii arkistoimaan niiden ihmisten ääniä, jotka ovat edelleen kanssamme, kuten NPR: n kirjeenvaihtaja Neal Conan, joka on allekirjoittanut mallin tällaiselle IT-pioneeriprojektille. Mainosvideossa näytetään, että VivoText-työntekijät luovat huolellisesti foneettisia koodimoduuleja Conanin toimittaman äänitulon avulla. Sitten he luovat mallit tekstistä puheeksi (TTS) -työkaluille, jotka tuottavat dramaattisesti inhimillisen ja henkilökohtaisen tuloksen.

VivoTextin strategiasta ja liiketoiminnan kehittämisestä vastaavan varatoimitusjohtajan Ben Feiblemanin mukaan tietokone toimii foneemitasolla (käyttäen pienimpiä ainutlaatuisia puheosia) sopeutuakseen prosodiseen malliin yksittäisen ihmisen äänelle.

"Se tietää, kuinka ääni puhuu", Feibleman sanoo ja lisäten, että "yksikkövalinnalla" tietokone valitsee useita kappaleita koota yhden lyhyen sanan, kuten missä sana "perjantai" antaa viisi komponenttia, jotka auttavat kehittämään erityinen painotus ja sävyinen tulos.

Keinotekoinen ääni markkinoinnissa

Joten miten tämä toimii markkinoinnissa? VivoText-tuotteet voivat olla erittäin hyödyllisiä luomalla tuotteita, kuten äänikirjoja, jotka voivat tavoittaa kohdeyleisön. Esimerkiksi, kuinka paljon tehokkaampaa Elvis-ääntä verrattaisiin yhteen nykypäivän yleisiin, automaattisiin äänenvoimakkuuksiin, jos sitä käytetään viihdetuotteiden myyntiin?

Tai entä politiikassa? Feibleman on työskennellyt erilaisten ideoiden kaltaisten tällaisten hankkeiden käyttämiseksi markkinoinnin parantamiseksi yrityksille tai muille osapuolille, jotka tarvitsevat tehokkaampaa viestintää.

"Jos tiedät jonkin presidenttiä ajavan poliitikon, tällä 10 miljoonalla swing-valtion äänestäjällä voi olla henkilökohtainen puhelu ehdokkaalta, kiittää heitä tuesta, kertoa heille, mihin heidän on mentävä äänestämään, sää ja kaikki leikkaukset. illalla ennen vaaleja ", Feibleman sanoi.

Äänesi elää

Kaikelle tälle tekniikalle on olemassa toinen selvä sovellus. Luonnonkieliset yritykset, kuten VivoText, voisivat luoda henkilökohtaisen palvelun, joka lataa kaikki asiakkaan äänitiedot tuotteeseen, jonka avulla henkilö voi "puhua ikuisesti".

Käytännön toteutus herättäisi todennäköisesti useita kysymyksiä siitä, kuinka kuulemme ja sisällyttämme puhutut äänet. Esimerkiksi, mitä tarvitaan, jotta äänivirrat kuulostavat täsmälleen jollekulta? Kuinka hyvin meidän on tunnettava henkilö tietämään tietty ääni? Ja mielenkiintoista, mitä tapahtuu, jos luonnollinen kielipalvelu tuottaa raakakarikatuurin mieluummin kuin pakottavaa matkia?

Tulosten arviointi, Feibleman sanoo, riippuu usein kontekstin huomioon ottamisesta. Esimerkiksi hän sanoo, että lapset eivät yleensä kysy kysymyksiä siitä, kuka puhuu, kun he kuuntelevat tarinaa. He vain haluavat enemmän. Mutta myös, monet aikuiset eivät ehkä ajattele sitä, kuka puhuu heille tietyn skenaarion, kuten passiivisen lähetyksen tai puhelinviestin, perusteella. Lisäksi tietokoneella on helpointa harhautua puhelimitse, koska vaimennettu ääni voi peittää häiriöitä tai muita eroja tietokoneen tulosten ja ihmisen äänen välillä.

"Sinulle ei tapahdu haastaa äänen aitoutta", Feibleman sanoo.

Vuonna 2525

Kun yritykset siirtyvät eteenpäin tuotteiden ja palvelujen kehittämisessä ja vastaamalla näihin kysymyksiin, "elävän puheen" tekniikat voisivat viedä meitä kohti tekniikan ja ihmismielen lähentymistä, jota on klassisesti kutsuttu tekoälyksi (AI).

Jos tietokoneet puhuvat kuten me, he voivat huijata muita käyttäjiä ajattelemaan, että he ajattelevat kuin meitä, syventämällä suurempaa singulaarisuuden periaatetta, kuten John von Neumann, 1950-luvun tekniikan edelläkävijä, kirjoittajien evankeloima, kirjoitti meidän sanastoon. ja ajattelijat kuten Ray Kurzweil. Kurzweilin vuoden 2005 kirja "Singularity on lähellä" innostaa ja pelottaa toisia. Kurzweilin ennusteiden mukaan vuoteen 2045 mennessä "älykkyys" ilmiönä tulee suuresti irti ihmisen aivoista ja siirtyy tekniikkaan, hämärtäen linjoja koneiden ja heidän ihmisten mestariensa välillä.

Kuolematon Zager & Evansin "In Year 2525" -tekstissä (kukaan ei tee kammottavia sci-fi-balladeja kuten nämä kaverit) …

Vuonna 4545

Sinun ei tarvitse hampaitasi, ei tarvitse

silmäsi

Et löydä pureskeltavaa

Kukaan ei katso sinua

Vuonna 5555

Käsivarsi ripustavat sivuillasi

Jalat eivät tarvitse tehdä

Joku kone tekee sen sinulle

Ovatko tietokoneäänet askel tähän suuntaan? Uutena tapana ulkoistaa joitain ihmiskehon toimintoja (tai yleisemmin simuloida niitä) tämäntyyppinen tekninen kehitys on yksi suurimmista - ja luultavasti aliraportoiduista - edistyksistä horisontissa, kun tarkastelemme yksittäistä tulevaisuutta . (noin "ainutlaatuisuudesta" kohdasta Voivatko tietokoneet jäljitellä ihmisen mieltä?)

Kuulen kuolleita ihmisiä? luonnollinen kielitekniikka saa entiset ja nykyiset äänet elämään

Sisällysluettelo:

Suuret muutokset NLP: ssä

Jännittäviä "Teksti ääniin" -luomuksia VivoTextissä

Keinotekoinen ääni markkinoinnissa

Äänesi elää

Vuonna 2525

Kuinka luonnollinen kielenkäsittely voi parantaa yritystoimintaa koskevia näkemyksiä

Mikä on luonnollinen haku? - määritelmä techopediasta

Miksi superintelligenssi ei tuhoa ihmisiä pian

Toimittajan valinta

Mikä on yhteydetön palvelu? - määritelmä techopediasta

Mikä on luotettu tietokonejärjestelmän arviointiperuste (tcsec)? - määritelmä techopediasta

Mikä on yhteyskeskeinen palvelu? - määritelmä techopediasta

Mikä on kuparin tiedonjakelurajapinta (cddi)? - määritelmä techopediasta

Toimittajan valinta

Mikä on koodattu merkistö (ucs)? - määritelmä techopediasta

Mikä on integroitu kiinteistöjen hallintajärjestelmä (ifms)? - määritelmä techopediasta

Mikä on erittäin korkea taajuus (uhf)? - määritelmä techopediasta

Mikä on yleinen integroitu piirikortti (uicc)? - määritelmä techopediasta

Toimittajan valinta

Mikä on pelon epävarmuus ja epäily (fud)? - määritelmä techopediasta

Mikä on intellisense? - määritelmä techopediasta

Mikä on ohjelmistokonfiguraation hallinta (scm)? - määritelmä techopediasta

Mikä on traceroute? - määritelmä techopediasta

Toimittajan valinta

Voiko ai auttaa taistelussa väärennöksiä vastaan?

Voiko ai chatbot todella siirtyä henkilölle?

Voivatko big data ratkaista kaupunkisuunnittelun haasteen?

Syöpärokotteet ja tekoäly: voittaa sota syöpää vastaan?

Toimittajan valinta

Mikä on kansio? - määritelmä techopediasta

Mikä on piilotettu tiedosto? - määritelmä techopediasta

Mikä on kobolin sormet? - määritelmä techopediasta

Mikä on koodinhallinta? - määritelmä techopediasta

Suosittuja luokkia