Kontentke ótiw

WaveNet

Wikipedia — erkin enciklopediya

WaveNet qayta islenbegen dawıstı generaciyalawǵa arnalǵan tereń neyron tarmaq. Ol Londonda jaylasqan DeepMind jasalma intellekt kompaniyasınıń izertlewshileri tárepinen jaratılǵan. 2016-jıldıń sentyabr ayında járiyalanǵan maqalada táriyiplengen bul texnika, haqıyqıy sóylew jazıwları menen oqıtılǵan neyron tarmaq usılın qollanıp tolqın formaların tikkeley modellestiriw arqalı salıstırmalı túrde real esitiletuǵın adam tárizli dawıslardı payda ete aladı. AQSH inglis tili hám qıtay tilinde ótkerilgen sınawlar, sistemanıń Google kompaniyasınıń eń jaqsı bar bolǵan tekstti sóylewge aylandırıw (TTS) sistemalarınan ústin ekenligin kórsetti, biraq 2016-jılǵa kelip onıń tekstti sóylewge aylandırıw sintezi ele de haqıyqıy adam sóylewinen kem isenimli edi[1]. WaveNettiń qayta islenbegen tolqın formaların generaciyalaw qábileti oǵan muzıka qosıp, hár qanday audio túrin modellestiriwge múmkinshilik beredi[2].

Tariyxı

Tekstti sóylewge aylandırıw Appledıń Siri, Microsofttıń Cortana, Amazon Alexa hám Google Assistant sıyaqlı programmalıq támiynatlardıń keń tarqalıwı sebepli barǵan sayın keń tarqalǵan wazıypaǵa aylanbaqta[3].

Bunday sistemalardıń kópshiligi tanılatuǵın sesler hám sózlerdi payda etiw ushın ses bóleklerin biriktiriwdi óz ishine alatuǵın usıldıń bir variantın qollanadı[4]. Bulardıń eń keń tarqalǵanı konkatenativ TTS dep ataladı[5]. Ol bir sóylewshiden jazıp alınǵan úlken sóylew bólekleri kitapxanasınan ibarat bolıp, keyin tolıq sózler hám seslerdi payda etiw ushın biriktiriledi. Nátiyje tábiyiy emes bolıp, ájayıp ritm hám ton menen esitiledi[6]. Jazılǵan kitapxanaǵa tiykarlanıw dawıstı ózgertiw yamasa modifikaciyalawdı qıyınlastıradı[7].

Parametrlik TTS dep atalatuǵın basqa usıl,[8] sózler hám gáplerge jıynalatuǵın seslerdi qayta jaratıw ushın matematikalıq modellerdi qollanadı. Seslerdi payda etiw ushın kerek bolǵan informaciya modeldiń parametrlerinde saqlanadı. Shıǵıs sóylewdiń ózgeshelikleri modelge kirgizilgen maǵlıwmatlar arqalı basqarıladı, al sóylew ádette vokoder dep atalatuǵın dawıs sintezatorı arqalı jaratıladı. Bul da tábiyiy emes esitiletuǵın audioǵa alıp keliwi múmkin.

Dizayn hám dawam etip atırǵan izertlewler

Tiykar

Fayl:WaveNet animation.gif
Keńeytilgen kauzal konvolyuciyalıq qatlamlardıń toplamı[9]

WaveNet - bul tereń konvolyuciyalıq neyron tarmaǵı (CNN) dep atalatuǵın aldıǵa baǵdarlanǵan neyron tarmaǵınıń bir túri. WaveNet-te, CNN qayta islenbegen signaldı kiris sıpatında aladı hám shıǵıstı bir waqıtta bir úlgi sintezleydi. Ol bunı μ-nızam kompanding transformaciyası menen kodlanǵan hám 256 múmkin bolǵan mániske kvantlanǵan signal mánisiniń softmaks (yaǵnıy kategoriyalıq) bólistiriliwinen úlgi alıw arqalı ámelge asıradı.

Dáslepki koncepciya hám nátiyjeler

2016-jıldıń sentyabr ayında járiyalanǵan DeepMind izertlew maqalası «WaveNet: Qayta islenbegen audio ushın generativlik model» ge muwapıq, tarmaqqa inglis hám qıtay tillerindegi sóylewdiń haqıyqıy tolqın formaları berilgen. Bul tolqın formaları tarmaq arqalı ótkende, ol audio tolqın formasınıń waqıt ótiwi menen qalay rawajlanatuǵının súwretleytuǵın qaǵıydalar toplamın úyrenedi. Keyin oqıtılǵan tarmaq sekundına 16,000 úlgi menen jańa sóylewge uqsas tolqın formaların jaratıw ushın qollanılıwı múmkin. Bul tolqın formalarǵa real dem alıwlar hám erin tartıwlar kiredi - biraq olar hesh qanday tilge sáykes kelmeydi[10].

WaveNet hár qıylı dawıslardı anıq modellestire aladı, bunda kiris maǵlıwmatınıń akcenti hám tonı shıǵıs penen baylanıslı boladı. Mısalı, eger ol nemis tili menen oqıtılsa, nemis tilinde sóylewdi payda etedi[11]. Bul qábilet sonıń menen birge WaveNet-ke basqa kirisler - máselen, muzıka berilse, onıń shıǵısı da muzıkalı bolatuǵının ańlatadı. Ol shıǵarılǵan waqıtta, DeepMind WaveNet-tiń klassikalıq muzıkaǵa uqsaytuǵın tolqın formaların payda ete alatuǵının kórsetti[12].

Kontent (dawıs) almastırıw

2018-jıldıń iyun ayındaǵı «Ajıratılǵan izbe-iz avtoenkoder» maqalasına muwapıq, DeepMind WaveNet-ti audio hám dawıs «mazmunın almastırıw» ushın tabıslı qollanǵan: tarmaq audio jazbadaǵı dawıstı basqa, aldın bar bolǵan dawısqa almastıra aladı, sonda da dáslepki jazbadan tekst hám basqa ózgesheliklerdi saqlap qaladı. «Biz audio izbe-izlik maǵlıwmatları boyınsha da tájiriybe ótkerdik. Biziń ajıratılǵan kórsetiwimiz sóylewdiń mazmunın esapqa alıp sóylewshilerdiń ózligin bir-birine aylandırıwǵa múmkinshilik beredi.» (5-bet) «Audio ushın bul bizge erkek sóylewshini hayal sóylewshige hám kerisinshe aylandırıwǵa múmkinshilik beredi [...].» (1-bet) Maqalaǵa muwapıq, programmanıń bir dawıstan ekinshi dawısqa qanaatlandırarlı sapada aylandırıwdı ámelge asırıwı ushın, onıń dáslep eki sanlı minimal muǵdardaǵı saat (shama menen 50 saat) derek hám nátiyje dawıslarınıń aldın jazılǵan sóylew úlgilerin úyreniwi talap etiledi. Avtorlar «[m]odeldiń artıqmashlıǵı - ol dinamikalıq ózgesheliklerdi statikalıq ózgesheliklerden ajıratadı [...].» (8-bet) dep atap ótedi, yaǵnıy WaveNet bir tárepten bir dawıstan ekinshi dawısqa ótkende saqlap qalıwı kerek bolǵan aytılǵan tekst penen jetkeriw usılların (modulyaciya, tezlik, ton, kewil-xosh hám t.b.), al ekinshi tárepten almastırıwı kerek bolǵan derek hám nátiyje dawıslarınıń tiykarǵı ózgesheliklerin ajırata aladı.

2019-jıldıń yanvar ayındaǵı keyingi «WaveNet avtoenkoderlerin[13] qollanıp baqlawsız sóylewdi kórsetiwdi úyreniw» maqalası «mazmun almastırıw» ushın dinamikalıq hám statikalıq ózgesheliklerdi durıs avtomatlıq tanıw hám ajıratıwdı jaqsılaw usılın, ásirese bar bolǵan audio jazbalardaǵı dawıslardı almastırıwdı qosqanda, onı isenimlirek etiw ushın tolıq bayanlaydı. 2018-jıldıń sentyabr ayında járiyalanǵan (sońǵı qayta qaralǵan versiyası 2019-jıldıń yanvar ayında) «Úlgi jaǵınan nátiyjeli beyimlesiwshi tekstti sóylewge aylandırıw» atlı basqa bir keyingi maqalada DeepMind kompaniyası WaveNet arqalı bar bolǵan dawıstı úlgilew ushın talap etiletuǵın haqıyqıy jazbalardıń minimal muǵdarın joqarı sapalı nátiyjelerdi saqlap «bir neshe minut audio maǵlıwmatına» deyin kemeytkeni aytıladı.

Onıń dawıslardı kóshirip alıw qábileti WaveNet-tiń tiri hám qaytıs bolǵan adamlardıń dawısların eliklew múmkinshiligi haqqında etikalıq táshwishler tuwdırdı. 2016-jılǵı BBC maqalasına muwapıq, usıǵan uqsas dawıs kóshirip alıw texnologiyaları ústinde islep atırǵan kompaniyalar (máselen, Adobe Voco) jalǵanlastırıwdıń aldın alıw ushın adam qulaǵına esitilmeytuǵın su belgilerin qosıwdı niyetlemekte. Sonnıń menen birge, olar oyın-zawıq industriyasınıń talapların qanaatlandıratuǵın dawıs kóshirip alıw ádewir tómen quramalılıqqa iye bolatuǵının hám kriminalistikalıq dálillew usılların hám elektronlıq ID qurılmaların aldaw ushın kerek bolǵannan basqasha usıllardan paydalanatuǵının tastıyıqlaydı. Solay etip, tábiyiy dawıslar menen oyın-zawıq sanaatı ushın kóshirip alınǵan dawıslardı texnologiyalıq analiz arqalı ele de ańsat ajıratıw múmkin boladı.

Qosımshalar

Dáslepki shıǵarılǵan waqtında, DeepMind WaveNet-tiń real dúnyadaǵı qosımshalar ushın júdá kóp esaplaw quwatın talap etetuǵının aytqan edi[14]. 2017-jıldıń oktyabr ayına kelip, Google ónimdarlıqtıń 1000 ese jaqsılanǵanın hám dawıs sapasınıń joqarılaǵanın járiyaladı. Sonnan keyin WaveNet barlıq Google platformalarında AQSH inglis tili hám yapon tili ushın Google Assistant dawısların jaratıwda qollanıldı. 2017-jıldıń noyabr ayında DeepMind izertlewshileri «Probability Density Distillation» dep atalǵan, «rel waqıttan 20 ese tezirek joqarı sapalı sóylew úlgilerin jaratıw» usılın usınǵan ilimiy maqalanı járiyaladı. 2018-jıldıń may ayında ótkerilgen jıllıq I/O baǵdarlamashılar konferenciyasında jańa Google Assistant dawıslarınıń payda bolǵanı hám bunıń WaveNet arqalı múmkin bolǵanı járiyalandı; WaveNet dawıs aktyorı úlgileriniń qayta islenbegen audiosın modellestiriw arqalı dawıs modelin jaratıw ushın zárúr bolǵan audio jazıwlar sanın ádewir qısqarttı[15].

Derekler

  1. Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". https://www.bloomberg.com/news/articles/2016-09-09/google-s-ai-brainiacs-achieve-speech-generation-breakthrough. 
  2. Meyer. «Google's DeepMind Claims Massive Progress in Synthesized Speech». Fortune (9-sentyabr 2016-jıl). Qaraldı: 6-iyul 2017-jıl.
  3. Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. https://www.bloomberg.com/news/articles/2016-09-09/google-s-ai-brainiacs-achieve-speech-generation-breakthrough. 
  4. Condliffe, Jamie (2016-09-09). "When this computer talks, you may actually want to listen". https://www.technologyreview.com/s/602343/face-of-a-robot-voice-of-an-angel/. 
  5. Hunt, A. J.. 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, May 1996. 
  6. Coldewey. «Google's WaveNet uses neural nets to generate eerily convincing speech and music». TechCrunch (9-sentyabr 2016-jıl). Qaraldı: 6-iyul 2017-jıl.
  7. van den Oord. «WaveNet: A Generative Model for Raw Audio». DeepMind (8-sentyabr 2016-jıl). Qaraldı: 6-iyul 2017-jıl.
  8. Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). "Statistical parametric speech synthesis". Speech Communication 51 (11): 1039–1064. doi:10.1016/j.specom.2009.04.004. 
  9. van den Oord. «High-fidelity speech synthesis with WaveNet». DeepMind (12-noyabr 2017-jıl). Qaraldı: 5-iyun 2022-jıl.
  10. Gershgorn, Dave (2016-09-09). "Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike" (in en-US). Quartz. https://qz.com/778056/google-deepminds-wavenet-algorithm-can-accurately-mimic-human-voices/. 
  11. Coldewey. «Google's WaveNet uses neural nets to generate eerily convincing speech and music». TechCrunch (9-sentyabr 2016-jıl). Qaraldı: 6-iyul 2017-jıl.
  12. van den Oord. «WaveNet: A Generative Model for Raw Audio». DeepMind (8-sentyabr 2016-jıl). Qaraldı: 6-iyul 2017-jıl.
  13. Chorowski, Jan (2019). Unsupervised Speech Representation Learning Using WaveNet Autoencoders. 
  14. "Adobe Voco 'Photoshop-for-voice' causes concern". BBC News. 2016-11-07. 
  15. Martin, Taylor (May 9, 2018). "Try the all-new Google Assistant voices right now". CNET.