Co je syntéza řeči: 3 důležité faktory s ní související

Robot převodu textu na řeč

Syntéza řeči

Metoda generování umělé řeči podobné člověku pomocí strojů se nazývá syntéza řeči. Počítačový systém, který se používá k provádění tohoto postupu, se nazývá syntetizátor řeči. Systém vyžaduje další implementaci buď v softwaru nebo hardwaru, a můžeme si všimnout jeho jedné aplikace v systému převodu textu na řeč (TTS). Systém převodu textu na řeč přijímá každodenní lidský jazyk v textové podobě jako vstup a převádí jej na řeč jako výstup.

Syntéza řeči se provádí sekvenováním zaznamenané řeči ve formě jednotek, které jsou uloženy v databázi. Systémy se liší velikostí uložených hlasových jednotek; nejrozsáhlejší výstupní rozsah poskytuje systém, který ukládá telefony nebo difony s možností ztráty jasnosti.

Ukládání celých slov nebo vět umožňuje vysoce kvalitní produkci pro konkrétní uživatelské domény. Tuto metodu lze nahradit začleněním modelu hlasového traktu a různých dalších charakteristik patřících k lidskému hlasu a generováním umělého hlasového výstupu.

Syntéza řeči
Přehled systému TTS

Kvalita výstupu syntetizátoru řeči závisí na jeho blízkosti se skutečným lidským hlasem a na tom, jak snadné je mu porozumět. Použití zařízení pro syntézu řeči je patrné od 1990. let XNUMX. století, které bylo důkladně vyvinuto, aby pomohlo lidem se specifickým postižením a postižením.

Přehled systému převodu textu na řeč

Řeč převodu textu na řeč má dvě významné části:

  • Front End- Je zodpovědný za převod vstupního textu, který obsahuje různé symboly, čísla a zkratky, do ekvivalentní podoby srozumitelných a převoditelných dat. Tento proces se nazývá normalizace textu nebo předběžné zpracování dat. Každé slovo je poté přiřazeno fonetickými přepisy a odděluje a označuje text do prozodických jednotek, jako jsou věty, věty a fráze, pomocí procesu zvaného text-to-phoneme nebo grapheme-to-phoneme. Tyto dva aspekty se poté spojí a vygenerují výstupní data obsahující symbolickou jazykovou reprezentaci.
  • Zadní konec- Tato část se obecně označuje jako „syntetizátor“ a odpovídá za symbolickou jazykovou reprezentaci do zvuku. V pokročilém systému následuje tento proces dále výpočet cílové prozódie (výškový obrys, časy fonémů), která bude použita ve výstupní řeči.
Kryt počítače a syntezátoru řeči 19 9663804888
Speech Synthesizer používaný Stephenem Hawkingem; Zdroj obrázku: Muzeum vědy v Londýně / Knihovna obrazů vědy a společnostiPouzdro počítačového a řečového syntetizátoru, 19 (9663804888)CC BY-SA 2.0

Technologie zapojené do syntézy řeči

Přirozenost a srozumitelnost jsou nejdůležitějšími atributy, které určují kvalitu zařízení pro syntézu řeči. Přirozenost je definována schopností zařízení co nejpřesněji replikovat lidský hlas a srozumitelnost určuje, jak snadno zařízení dokáže porozumět výstupnímu zvuku. Syntetizátory řeči se snaží dosáhnout optimálních výsledků v obou těchto aspektech.

Zřetězená syntéza a formantová syntéza jsou dvě primární technologie, které generují syntetické křivky řeči. Každá technologie má své silné stránky i nevýhody a výběr jednoho z těchto přístupů obvykle určuje běžné použití metody syntézy.

Zřetězená syntéza

Sekvenování fragmentů zaznamenané řeči určitým způsobem se nazývá zřetězená syntéza. Tento proces obvykle produkuje nejpřirozeněji znějící syntetizovanou řeč. Avšak nekonzistence mezi přirozenými variacemi řeči a návrhem metod automatizované segmentace křivek často vedou ke slyšitelným poruchám výstupu.

Existují tři důležité podtypy zřetězené syntézy.

  1. Syntéza výběru jednotek- Vstupem pro tuto techniku ​​výběru je rozsáhlá databáze zaznamenané řeči. Segmentace databáze se provádí pomocí nástroje pro rozpoznávání řeči nastaveného do režimu vynuceného zarovnání. Výsledkem segmentace jsou jednotky, jako jsou telefony, difony, slova, fráze, slabiky, morfémy, věty atd. Indexování těchto jednotek je založeno na různých parametrech, jako je rozteč, doba trvání, pozice v slabice a sousední telefony. Proces rozhodovacího stromu vybere nejvhodnější jednotky k vytvoření řetězce pro provedení. Čím rozsáhlejší je databáze, tím přirozenější je výstupní řeč. Tato technika nabízí mimořádnou přirozenost výstupní řeči na základě zaznamenaných dat.
  2. Syntéza diphone- Databáze pro tuto techniku ​​se skládá pouze z difonů, což ji činí relativně malou. Fonotaktika vybraného jazyka určuje sadu všech jedinečných difonů, které je třeba vzít v úvahu. Databáze řeči se skládá z jednoho záznamu každého difonu. K překrytí cílové věty na těchto difonických jednotkách se používají různé techniky zpracování digitálního signálu, jako je PSOLA, MBROLA, lineární prediktivní kódování. Použití syntézy difonů je omezeno na výzkum, protože řeči chybí přirozenost, zní velmi roboticky a obsahuje zvukové vady.
  3. Syntéza specifická pro doménu Databáze této techniky je omezena na předem zaznamenaná slova a fráze. Použitelnost této metody syntézy je omezena na doménu, na jejímž základě je databáze generována, například hlášení železničních stanic, zprávy o počasí, mluvící hodiny atd. Implementace této technologie je přímá a současně vysoká úroveň přirozenosti lze dosáhnout díky omezeným výstupním větám. K dosažení plynulého prolínání slov s přirozenou řečí je třeba zohlednit mnoho jazykových variací.

Formantní syntéza

Pro mnoho aplikací není přirozenost řeči cílem; spíše je důležitější spolehlivost, inteligence a vysokorychlostní přesnost. Toho lze dosáhnout pomocí formantové syntézy, která vytváří syntetizovanou řeč s využitím aditivní syntézy a akustického modelování. Tato metoda, nazývaná také syntéza založená na pravidlech, vytváří umělou křivku řeči změnou parametrů, jako je frekvence, úrovně hluku a vyjadřování.

Umělou, roboticky znějící řeč vytvořenou technologií syntézy formantů je vysoce nepravděpodobné, že by byla zaměněna za lidskou řeč. Akustické závady, které jsou běžné v zřetězovacích systémech, jsou v této technice primárně eliminovány. Vzhledem k absenci rozsáhlé databáze záznamů řeči jsou tyto programy relativně malé, protože nacházejí použití ve vestavěných systémech, kde je omezený výkon pro zpracování.

Kromě standardních otázek a tvrzení je možné zprostředkovat celou řadu hlasových tónů a emocí, protože systémy založené na formátu vykazují úplnou kontrolu nad všemi aspekty výstupu. Například mnoho pozoruhodných videoher využilo technologii syntézy formátu pro interaktivní řeč.

Artikulační syntéza

Metoda použitá ke generování zvuků řeči na základě modelu lidského hlasového traktu se nazývá artikulační syntéza. Je zaměřen na simulaci řečových artikulátorů jedním nebo více způsoby. Nabízí způsob, jak porozumět vývoji řeči a zkoumat fonetiku.

Koartikulace je v takovém modelu přirozeně se vyskytujícím účinkem a mělo by být možné správně se teoreticky vypořádat s vlastnostmi glottálního zdroje, vztahem hlasového traktu s hlasovými záhyby a jak subglotální systém, nosní trakt a dutiny dutin ovlivňují generování lidské řeči prostřednictvím tohoto modelu.

Artikulační syntéza typicky zahrnuje dvě odlišné složky: hlasový trakt, který je rozdělen do několika dílčích složek, a odpovídající průřezové oblasti použité parametricky k odrazu charakteristik hlasivek. V akustickém modelu se elektrické analogové přenosové vedení přibližuje každému poli průřezu.

Simulace hlasového traktu podléhá změnám, které se objevují ve funkcích oblasti týkajících se času. Cílová konfigurace přidělená každému zvuku určuje tempo pohybu hlasového traktu. Pokud je artikulační syntezátor správně zkonstruován, dokáže reprodukovat všechny relevantní efekty při vývoji frikativ a plosiv a modelování přechodů koartikulace pro replikaci procesů zapojených do skutečné produkce řeči.

V polovině 1970. let vytvořili ve společnosti Haskins Laboratories Philip Rubin, Tom Baer a Paul Mermelstein první artikulační syntetizátor běžně používaný pro laboratorní experimenty.

Syntéza na bázi HMM

Toto je statistická parametrická syntéza podle „skrytých Markovových modelů“. HMM současně modelovat frekvenční spektrum, základní frekvenci a délku řeči v této metodě. Křivky řeči vytvořené na kritériu maximální pravděpodobnosti jsou vytvářeny ze samotných HMM.

Skrytý Markovův model (HMM) ve výpočetní biologii je matematická technika, která se většinou používá pro modelování biologických sekvencí. Sekvence je modelována jako výstup diskrétní stochastické metody při její implementaci, která postupuje prostřednictvím sady sekvenčních stavů, které jsou „skryty“ před pozorovatelem.

Syntéza sinusových vln

Sinusová syntéza nebo sinusový hlas je metoda syntézy řeči nahrazením čistých tónových píšťal za formanty (prominentní energetické pásma). Philip Rubin vytvořil v 1970. letech v Haskins Laboratories první software pro syntézu sinusových vln (SWS) pro automatizovanou produkci stimulů pro percepční experimenty.

Sinewave Speech je zvláštní jev, kdy některé z řečových rysů přebírá malý počet sinusoid dohromady - které se ve většině ohledů vůbec nepodobají. Vysoké srozumitelnosti lze dosáhnout pomocí tří sinusoid, které sledují frekvenci a amplitudu prvních tří formantů řeči.

Syntéza založená na hlubokém učení

Na rozdíl od přístupu založeného na HMM metoda založená na hlubokém učení výslovně mapuje jazykové charakteristiky na akustické charakteristiky s hlubokými neuronovými sítěmi, které se ukázaly jako extrémně úspěšné při učení inherentních datových charakteristik. Lidé navrhli různé modely v dlouhé tradici studií, které se řídí metodami syntézy řeči založenými na metodách hlubokého učení.

Užitečným nástrojem pro syntézu řeči se stal hluboké učení schopné využívat obrovské množství tréninkových dat. V poslední době se provádí stále více výzkumů technik hlubokého učení nebo dokonce end-to-end systémů a bylo dosaženo nejmodernějšího úspěchu.

AI ML DL 1
Zdroj obrázku: Původní soubor: Avimanyu786 Verze SVG: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Září 2016 znamenalo začátek WaveNet od DeepMind, hluboký generativní model surových zvukových vln. Ukázalo se, že modely založené na hlubokém učení mohou modelovat surové tvary vln a dobře fungovat z akustických charakteristik, jako jsou spektrogramy nebo specifické předem zpracované jazykové charakteristiky, které generují výraz.

Výhody systémů typu end-to-end

  • Omezená schopnost textové analýzy pomocí jediného systému.
  • Omezené množství inženýrství funkcí.
  • Bohatá úprava stávajících atributů a snadné přizpůsobení těm novějším.
  • Zvýšená přirozenost a srozumitelnost
  • Robustnější ve srovnání s vícestupňovými modely.

Nevýhody systémů typu end-to-end

  • Existence problému pomalé inference.
  • Výsledkem menších dat je méně robustní výstupní řeč.
  • Omezená kontrolní schopnost než zřetězený přístup.
  • Plochá prozodie je vyvinuta s průměrováním nad tréninkovými daty.

Výzvy spojené se syntézou řeči

  1. Ubytování různě vyslovovaných slov se stejným pravopisem na základě kontextu.
  2. Odvození toho, jak rozšířit číslo na základě okolního slova, čísla a interpunkce. Například 1465 může být „tisíc čtyři sta šedesát pět“ nebo může být také čten jako „jedna čtyři šest pět“, „čtrnáct šedesát pět“ nebo „čtrnáct set šedesát pět“.
  3. Nejednoznačnost ve zkratkách. Například „in“ pro „palce“ musí být odlišeno od slova „in“.
  4. Přístup založený na slovníku (vyhledání každého slova ve slovníku a nahrazení pravopisu výslovností popsanou ve slovníku, aby se vybrala správná výslovnost každého slova) procesu převodu textu na foném zcela selže u žádného slova, které lze najít v slovník.
  5. Přístup založený na pravidlech (k hodnocení jejich výslovnosti na základě jejich pravopisu se na slova vztahují pravidla výslovnosti nebo přístup „naučit se číst“) procesu převodu textu na foném selhává, protože schéma zohledňuje neobvyklé hláskování nebo výslovnosti, protože se značně zvyšuje složitost pravidel.
  6. Potíže se spolehlivým hodnocením systémů syntézy řeči kvůli nedostatku obecně přijímaných objektivních výkonových standardů.
  7. Posun výšky tónu věty podle toho, zda se jedná o kladný, tázací nebo vykřičnický výraz.

Pro předchozí článek o Mecanum Wheeled Robot, Klikněte zde.

Také čtení: