Metódy parametrizácie reči a
audiosignálov
Interaktívne telekomunikačné systémy a služby
Ing.Eva Kiktová, PhD.
Obsah
1.
2.
3.
Základné charakteristiky reči a audiosignálov
Predspracovanie rečových signálov
Parametrizácie rečových signálov
– LPC, LPCC,
– MFCC, GFCC, BFCC, GTCC, MVDR-MFCC,
– PLP, PLP-RASTA, RPLP, GPLP,
– PMCC, PMVDR, PNCC,
– TRAP,
– FEPSTUM,
– ZCR, energetické príznaky, základná frekvencia
5. Parametrizácia audiosignálov
– ASE, ASC, ASS, ASF
Spektrogramy
reč
pes
hudba
výstrel
Spektrum -Audacity
reč
pes
hudba
výstrel
Časové priebehy
reč
pes
hudba
výstrel
Tvorba rečového signálu
•
•
•
Reč - artikulované zvuky,
pomocou ktorých je možné
realizovať vzájomnú komunikáciu.
Vzduch je pomocou bránice a
hrudných svalov vytlačený z pľúc
do priedušiek, priedušnice k
hrtanu, kde sa nachádzajú
hlasivky, u ktorých dochádza k
rozkmitaniu (otváraniu a
zatváraniu). Výsledkom je hlas,
ktorý následne prechádza cez
hltan, ústnu a nosnú dutinu. Zvuk
je ďalej modulovaný mäkkým
tkanivom, podnebím, jazykom,
zubami a perami.
Ľudský hlas vzniká rýchlym
pohybom vzduchu v hlasových
ústrojoch človeka.
Tvrdé podnebie
Mäkké podnebie
(Velum)
Hltan (Pharynx)
Hrtan (Larynx)
Ezofágus
Nosová dutina
Nozdry
Per y
Jazyk
Zuby
Ústna dutina
Čeľusť
Pr iedušnica
(Trachea)
Pľúca
Bránica
Reč
Základné rozdelenie zvukov v reči
•
•
•
•
Fonéma – základná zvuková jednotka reči (hláska)
Znelé
– Hlasivky sú napnuté a zovreté, vzduch prúdiaci z pľúc ich rozovrie a
tento proces sa periodicky opakuje s periódou T0
– Typickými znelými zvukmi hovorenej slovenčiny sú hlásky „a“, „e“, „i“,
„o“, „u“
Neznelé
– Neznelé zvuky sú charakteristické svojou šumovou štruktúrou alebo tzv.
explozívnosťou
– vznikajú pretláčaním vzduchového prúdu cez úžinu alebo záver, ktoré
vytvárajú artikulačné orgány na niektorom mieste hlasového traktu,
napr. medzi perami, zubami, jazykom a podnebím a pod.
– Typickým neznelými zvukmi sú napr. šumové hlásky „s, š“, alebo
explozívne hlásky „t, p“.
Zmiešané
– vznikajú kombinovaním periodického kmitania hlasiviek a súčasného
vytvorenia zúženia alebo záveru na niektorom mieste hlasového traktu
– Typickým príkladom je znelá sykavka „z“, alebo znelá výbušná hláska
„d“.
Neznelý vs. znelý zvuk
•
•
•
Neznelý zvuk má šumový (náhodný) charakter.
U znelého zvuku sú viditeľné periodicky sa opakujúce kmity
spôsobené kmitaním hlasiviek.
Vzdialenosť dvoch susedných kmitov s najvyššími hodnotami
amplitúd je rovná základnej perióde hlasu T0, ktorej prevrátená
hodnota je rovná frekvencii kmitania hlasiviek f0.
znelý [e] – neznelý(explozívny)[t] – znelý [a]
Analýza rečových signálov
•
•
•
•
•
•
Uplatňujú sa predovšetkým metódy krátkodobej analýzy, t.j. úseky
rečového signálu sa spracovávajú tak, ako keby to boli oddelené krátke
zvuky.
Takéto mikrosegmenty (rámce) sú reprezentované časovým úsekom 10 30 ms (kvazistacionárne úseky – parametre vokálneho traktu sa výraznejšie
nemenia).
Rámec signálu je potom charakterizovaný jedným alebo skupinou
príznakov.
Dlhodobá analýza – analýza dlhších úsekov reči (napr. slova),
Dlhodobou analýzou dochádza ku skresleniu spriemernením dielčich
významných charakteristík analyzovaných signálov.
Možné použitie napr. eliminácia šumu.
Predspracovanie rečových signálov
• Odstránenie jednosmernej zložky
• Rečový signál s(n) môže obsahovať jednosmernú zložku (vplyv
prenosového kanálu, zvukovej karty a pod.), ktorá nenesie žiadnu
informáciu. Môže spôsobiť chybné určenie hodnôt zisťovaných
parametrov napr. ZCR.
Predspracovanie rečových signálov
• Preemfázová filtrácia
• Jednou zo základných úprav rečového signálu pred ďalším
spracovaním je číslicová filtrácia tzv. preemfázovým filtrom, ktorý
zdôrazňuje vyššie frekvenčné zložky rečového signálu, čím sa
vyrovná jeho prirodzený útlm, spôsobený vyžarovacou
charakteristikou úst a zároveň sa zdôraznia percepčne
najvýznamnejšie zložky spektra reči.
• Realizovaný býva ako FIR filter s jedným koeficientom.
Predspracovanie rečových signálov
•
Segmentácia na rámce
• segmentácia reči na stacionárne úseky (10-30ms)
• bez prekrývania,
• s prekrývaním
Najčastejšie sa volí prekrývanie 50%.
dĺžka rámca: lram,
posun: sram,
prekrytie: pram.
Predspracovanie rečových signálov
•
Váženie
• Oknová funkcia potláča váhy jednotlivých vzoriek na začiatku a konci
rámca.
• Zmierňuje ostré prechody medzi okrajmi jednotlivých rámcov čím sa
docieli vyhladený priebeh spektra.
• V oblasti spracovania reči sa používa Hammingova oknová funkcia.
LP – lineárna predikčná analýza
•
Spektrálna analýza na báze lineárnej predikcie – štandardná metóda
analýzy rečového signálu
•
Model tvorby reči:
•
•
Predpoklad – aktuálnu vzorku je možné
predikovať pomocou lieneárnej kombinácie
p-minulých vzoriek, t.j. lineárnym
prediktorom p-tého rádu.
Prenosová funkcia filtra vokálneho traktu:
•
N-tá vzorka reči je potom daná:
•
Cieľom analýzy je určiť koeficienty LP tak
aby chyba predikcie e(n) bola minimálna.
•
Základom LP analýzy je výpočet parametrov autoregresného modelu, t.j.
koeficientov filtra vokálneho traktu a(i) a zisku G.
•
Využíva sa Levinsonov-Darbinov (LD) algoritmus pomocou autokorelačnej
metódy riešenia AR modelu alebo Burgov algoritmus vychádzajúci z
minimalizácie chybových signálov.
•
Prvé medzivýsledky LD algoritmu sa označujú ako koeficienty odrazu
(reflection coeffi-cients - LPREFC) alebo PARCOR (PARtial CORrelation)
koeficienty. Tieto koeficienty dosahujú vysoký stupeň kompresie údajov,
pretože ich veľkosť je v intervale<−1,1 >.
•
Rád modelu je volený s ohľadom na počet formantov reči, ktoré budú
modelované (P=12 pre 8kHz, P=16 pre 16kHz )
•
•
Odhad spektra pomocou LPC je oproti DFT vyhladenejší.
Dobre rozpoznateľné formanty.
Odhad spektrálnej hustoty výkonu pomocou DFT a LPC
pre znelý a neznelý rámec
Ukážka LPC koeficientov pre reč
Ukážka reflekčných koeficientov pre reč
Kepstrum
•
Kepstrum je definované ako inverzná Fourierova transformácia logaritmu
absolútnej hodnoty spektra signálu.
•
Kepstrálna analýza sa používa na oddelenie zložiek signálu, ktorý vznikol
konvolúciou vplyvu budenia a artikulačného traktu.
•
Digitálny signál sa prevádza do frekvenčnej oblasti pomocou rýchlej DFT
(Discrete Fourier Transformation).
•
Spektrum signálu zisťujeme z jednotlivých rámcov, počas ktorých sa
parametre rečového signálu nemenia.
•
S využitím súmernosti spektra môžeme jednu polovicu zanedbať.
•
Logaritmovaním sa vkladá do procesu spracovania dôležitý príznak
kepstrálnej analýzy, ktorý priaznivo obmedzí dynamiku signálu podobne ako
to robí aj ľudské ucho.
•
Potom sa uplatní IDFT na zlogaritmované spektrum, výsledkom čoho
dostávame kepstrum pôvodného signálu.
LPCC - linear prediction cepstral
coefficients
•
Pre výpočet kepstrálnych koeficientov sa používajú rôzne metódy.
Jedna z nich je založená na LPC kepstre. LPC kepstrálne
koeficienty sa získajú pomocou LPC odhadom spektrálnej
výkonovej hustoty (PSD- Power Spectral Density).
•
Nultý koeficient nesie info o energii rečového rámca:
•
Ďalšie koeficienty:
Keby n→∞, tak by kepstrálne koeficienty dokonale reprezentovali
LPC-obálku v praxi sa však volí n=P.
LPCC
•
•
•
•
Kepstrálne koeficienty nižších indexov nesú informáciu o vokálnom trakte.
Koeficienty s vyšším indexom hovoria o spôsobe budenia.
Kepstrálne príznaky sú dobre použiteľné tak pri textovo závislom aj
nezávislom rozpoznávaní.
Výhoda LPC kepstrálnych koeficientov oproti LPC koeficientom spočíva v
tom, že sú menej korelované.
Ukážka LPCC koeficientov pre reč
Banky filtrov
Mel-filter bank
Cochlear filter - Greenwood
Bark-filter bank
Gammatone-filter bank
MFCC - Mel-frekvenčné kepstrálne
koeficienty
•
•
•
Dobre aproximujú charakteristiku ľudského ucha tým, že sledujú pri
vnímaní reči logaritmickú melovskú stupnicu.
Na nižších frekvenciách má ľudské ucho lepšiu rozlišovaciu schopnosť
než na vyšších frekvenciách.
Prevod frekvencie na mel-frekvenciu je definovaný nasledovne
• Prevodová funkcia medzi
frekvenciou (Hz) a mel-frekvenciou (Mel)
•
Signál je filtrovaný pre-emfázovým
filtrom, následne sa na rámce
signálu aplikuje oknová funkcia a
vykoná sa DFT.
•
Koeficienty mel-spektra získame,
keď všetky hodnoty spektra
prefiltrujeme cez banku Mtrojuholníkových filtrov. Pre
jednotlivé filtre sa všetky
filtrované vzorky sčítajú,
dostaneme tak energiu signálu v
pásme každého filtra.
•
Smerom k vyšším frekvenciám sa
rozostupy medzi jednotlivými
filtrami zväčšujú.
•
Logaritmovaním akumulovaných
koeficientov sa vkladá do procesu
spracovania dôležitý príznak
kepstrálnej analýzy.
•
•
•
Na konci procesu je aplikovaná
diskrétna kosínusová transformácia
DCT.
Počet vypočítaných kepstrálnych
koeficientov je možné voliť, no nikdy
nesmie prekročiť počet energii melspektra.
MFCC analýzou získavame:
základné (statické) koeficienty
(najčastejšie 13 príznakov) a
časovou deriváciou statických
príznakov prvého rádu získame
dynamické (delta) koeficienty a
deriváciou druhého rádu akceleračné
(delta-delta) koeficienty.
Ďalšie príznaky získané v procese
výpočtu MFCC – FBANK, MELSPEC.
Ukážka MELSPEC koeficientov pre reč
Ukážka MELSPEC koeficientov pre reč
Ukážka FBANK koeficientov pre reč
Ukážka MFCC koeficientov pre reč
PLP - percepčná lineárna predikcia
•
Je založená na poznatkoch o
frekvenčnej závislosti vzhľadom k
vnímaniu výšky tónu, hlasitosti a
maskovacom jave.
•
Svojím charakterom sa snaží priblížiť
k vnímaniu zvuku sluchovými
orgánmi človeka.
•
Citlivosť ucha podľa kriviek rovnakej hlasitosti
Využíva koeficienty LPC a nelineárnu
Barkovu banku filtrov, poznatky o
percepcii (maskovanie, krivky
rovnakej hlasitosti).
Frekvenčné maskovanie
•
Spektrálna analýza pomocou DFT, získanie
krátkodobého výkonového spektra.
•
Spektrálne rozlíšenie kritických pásiem (rovnomerná
lineárna os je transformovaná na nelineárnu Barkovu
os (Bark)).
Výkonové spektrum je podrobené konvolúcii s
výkonovým spektrom, ktoré sa približuje k tvaru
maskovacej krivky ucha.
•
Prispôsobenie magnitúdy spektra podľa kriviek
rovnakej hlasitosti (nerovnomerný vnem hlasitosti v
závislosti na frekvencii)
•
Kompresia amplitúdy spektra, IDFT a výpočet
finálnych PLP koeficientov pomocou lineárnej
predikcie
RASTA
RASTA-PLP
•
•
•
Jedna z parametrizačných metód odolných voči aditívnemu a
konvolučnému šumu. PLP parametrizácia je často používaná aj spolu s
RASTA (RelAtive SpecTrA) filtráciou.
RASTA je založená na skutočnosti, že dynamické zmeny v časovom vývoji
rečového signálu majú odlišný charakter od dynamických zmien v šumovom
signáli.
RASTA filtrácia (pásmová priepusť) prepúšťa teda zložky s časovými
zmenami, ktoré odpovedajú vlastnostiam rečového signálu.
Frekvenčná charakteristika
RASTA filtra
Ukážka PLP koeficientov pre reč
GFCC – Greenwood Function
Cepstral Coefficients
•
Proces extrakcie GFCC príznakov je totožný s MFCC, avšak sa používa
namiesto mel-banky filtorv Greenwodova banka filtrov.
•
Greenwoodova funkcia:
– kde x je pozícia na bazilárnej membráne slimáka v ľudskom uchu a f je
frekvencia zodpovedajúca tejto polohe.
Závislosť rozloženia frekvencií
na mel-škále a Greenwood škále
BFCC- Bark Frequency Cepstral
Coefficients
•
Parametrizácia BFCC má zhodný postup výpočtu kepstrálnych
koeficientov s parametrizáciou PLP až do posledného kroku
(kompresia amplitúdy spektra), potom nasledujú kroky realizované pri
extrakcii MFCC tj.j. logaritmovanie, DCT transformácia, redukcia na 13
kepstrálnych koeficientov a nakoniec ich normalizácia (CMN).
GTCC - GammaTone Cepstral
Coefficient
•
Výpočet je podobný ako pri MFCC, no namiesto mel-banky filtrov sa
využíva Gammatonova banka filtrov. Prispôsobenie magnitúdy spektra
pomocou kriviek rovnakej hlasitosti a následne sú realizované kroky ako pri
extrakcii MFCC t.j. logaritmovanie, DCT transformácia, redukcia na 13
kepstrálnych koeficientov a nakoniec CMN normalizácia (Cepstral Mean
Normalization).
RPLP - Revised Perceptual
Linear Prediction
•
RPLP má zhodný postup výpočtu s MFCC parametrizáciou vrátane
Melovej filtrácii vzoriek. Po tejto filtrácii už nasleduje transformácia na
kepstrálne koeficienty, podobne ako je tomu v PLP parametrizácii, použitím
IDFT, Levinsonovým-Durbinovým iteračným algoritmom a nakoniec
prevodom na výsledných 13 kepstrálnych koeficientov.
GPLP-Generalized Perceptual
Linear Prediction
•
Výpočet GPLP je totožný s postupom PLP parametrizácie s tým
rozdielom, že v GPLP na nevyužíva Barkova banka filtrov ale
namiesto nej sa využíva Greenwood banka filtrov.
MVDR – Minimum Variance
Distortionless Response
•
•
•
•
•
MVDR – technika odhadu obálky rečového signálu
Zvyšuje robustnosť systému
Využíva filtráciu signálu pomocou špeciálne navrhnutého filtra (MVDR distortionless filter), ktorý prepúšťa vybrané frekvencie bez skreslenia a zvyšné
účinne potlačí.
A redukciu variancie príznakových vektorov, ktorá vedie k lepšej
separovateľnosti tried. Tým sa dosahuje presnejšia klasifikácia a teda aj
nárast pozitívnych ukazovateľov kvality rozpoznania (napr. Accuracy).
Pri výpočte MVDR spektra sa využívajú koeficienty LP analýzy a chyba
predikcie.
MVDR-MFCC
•
•
Proces výpočtu MVDR-MFCC je podobný výpočtu MFCC avšak namiesto
kovenčne používanej DFT transformácie na získanie spektra je aplikovaná
MVDR spektrálna analýza a následné logaritmovanie. Signál je ďalej
spracovaný pomocou banky mel-filtrov, DCT, vyhladený pomocou kbodové spriemernenia a podvzorkovania.
Pri rozpoznávaní reči v zašumenom prostredí sa pomocou MVDR-MFCC
dosahujú lepšie výsledky ako pri konvenčnom výpočte MFCC.
PMCC - Perceptual MVDR-based
Cepstral Coefficients
•
Proces výpočtu PMCC príznakov je obdobný s MFCC, zmena
spôsobu výpočtu nastáva po filtrácii mel-bankou filtrov, kedy
dochádza ku vyhladeniu spektra pomocou (k-bodového
spriemernenia) a IDFT. Takto získaná postupnosť vzoriek vstupuje
do MVDR analýzy, následne sa počíta spektrum pomocou DFT,
operácia logaritmovania a v závere výpočtu je aplikovaná IDFT.
PMVDR - Perceptual MVDR
Cepstral Coefficients
•
Proces výpočtu PMVDR je totožný s výpočtom PMCC príznakov s 2
rozdielmi:
1, namiesto filtrácie pomocou mel-banky filtrov sa využíva percepčná
deformácia vo frekvenčnej oblasti (Perceptual Frequency Wraping),
2, nedochádza k vyhladeniu spektra pomocou spriemernenia.
PNCC-Power-Normalized
Cepstral Coefficients
•
PNCC (Power-Normalized Cepstral Coefficients) má podobný
počiatočný postup výpočtu ako GTCC. Po filtrácii
Gammatonovou bankou filtrov dochádza k odčítaniu
strednodobého výkonu signálu, normalizácii spektra rečového
signálu a dekorelácie pomocou DCT.
Závislosť rozloženia frekvencií
na mel-škále a Gammatone
(ERB- škále)
FEPSTRUM
•
•
•
•
•
•
Využíva amplitúdovú moduláciu (AM) reči v časovej oblasti.
Využíva dlhšie časové rámce (100 ms) oproti bežne používaným.
Váženie je realizované pravouhlou oknovou funkciou.
Do fepstrálnej analýzy vchádza signál filtrovaný pomocou
mel-banky filtrov, ktorý sa pre aplikáciu AM musí spätne previesť
do časovej oblasti. V časovej oblasti dochádza tiež k
logaritmovaniu signálu v každom pásme. Získa sa tým obálka AM
signálu.
V ďalšom kroku je signál filtrovaný pomocou filtra s pohyblivým
priemerom a dochádza k jeho podvzorkovaniu.
Následne sa uplatňuje DCT a PCA (Principal Component Analysis)
transformácia.
TRAP - TempoRAl Pattern
•
•
•
Pracuje s časovými intervalmi napr. 500 ms až 1000 ms.
Informácia o aktuálnej fonéme nie je striktne ohraničená,
zasahuje aj do susedných foném (dochádza k prekrývaniu).
Na získanie komplexnej informácie o fonéme je teda nutné
analyzovať dlhší časový úsek (podporená aj štúdiami z oblasti
psychoakustiky)
•
TRAP vektor teda opisuje dlhší časový úsek reči – aktuálny
rámec signálu je bežne analyzovaný v kontexte (+-50 vektorov)
•
Rôzne modifikácie TRAP:
•
•
•
TRAP – MLP (Multi-Layer Perceptron)
TRAP – DCT- MLP
TRAP – DCT – Exten
Základná frekvencia f0
•
•
•
•
•
•
Základná frekvencia (pitch) je ovplyvnená vlastnosťami hlasiviek.
Zmeny rýchlosti kmitania hlasiviek vnímame ako zmeny v perióde
základného tónu T0 resp. v základnej frekvencie f0 = 1/T0
Zisťuje sa zo znelých úsekov reči.
Ako Lag označujeme periódu základného tónu vyjadrenú vo vzorkách
LAG =T0Fs (Fs je vzorkovacia frekvencia)
Syntéza reči, kódovanie signálov, rozpoznávanie emócií.
Viaceré algoritmy odhadu f0, avšak dokonalý algoritmus zatiaľ neexistuje.
f0 typická [Hz]
f0 min [Hz]
f0 max [Hz]
Muži
125
80
200
Ženy
225
150
350
Deti
300
200
500
Metódy odhadu f0
•
Metóda autokorelácie v časovej oblasti
Presné určenie hodnoty špičiek základnej frekvencie. Niekedy môže dôjsť
k zdvojeniu špičiek (2T0, 3T0), čím by došlo k nesprávnemu učeniu základnej
frekvencie resp. periódy základného tónu.
•
•
Metóda autokorelácie v spektrálnej oblasti
Eliminuje detekciu násobných špičiek zato však môže dochádzať k
opačnému problému, ktorým je rozdeľovanie (T0/2, T0/3).
•
Vyššie uvedené nedostatky odstraňuje spektrálno-časová autokorelácia.
Bloková schéma detekcie harmonických špičiek
Lokalizácia harmonických špičiek v amplitúdovom spektre
Problémy pri určovaní f0
•
Ani znelé hlásky nie sú čisto periodické (veľmi čistý spev môže byť
považovaný za periodický).
•
Monotónna reč je pri generovaní s konštantnou F0
•
V reály sa nevyskytuje sa čisto znelé resp. neznelé budenie.
•
Pri nízkej energii signálu je problematické určenie základného tónu.
•
F0 je ovplyvnené všetkým - melódiou, náladou, únavou, atď. Veľkosť zmeny
F0 sú väčšie u profesionálnych rečníkov.
•
Pri telefónnej reči nemáme k dispozícii F0, len násobky F0.
Počet prechodov cez nulu - ZCR
•
Tento parameter odráža počet,
koľkokrát signál preťal nulovú
úroveň.
•
ZCR podáva informáciu o
spektrálnom obsahu
analyzovaného signálu. ZCR
umožňuje zistiť znelosť resp.
neznelosť rámcov signálu.
Počet prechodov – rečový signál
MPEG-7
•
Popisný štandard 2001, jeho primárnym cieľom je umožniť vyhľadávanie,
identifikáciu, filtráciu a prehliadanie veľkého množstva multimediálnych dát.
Hudba
Štekanie psa
Výstrely zo zbrane
Príznaky – spektrálna oblasť
•
•
Najmä základné spektrálne deskriptory zo štandardu MPEG-7 (2001).
Deskriptory sú získavané v procese analýzy dát a uchovajú informácie o
danej charakteristike skúmaného signálu.
–
–
–
–
ASC (Audio Spectrum Centroid)
ASS (Audio Spectrum Spread)
ASF (Audio Spectrum Flatness)
ASE (Audio Spectrum Envelope)
reč
výstrel
pozadie
Tieto štyri základné nízkoúrovňové deskriptory (ASS, ASC, ASS, ASF)
poskytujú logaritmicko-frekvenčný opis krátkodobého výkonového
spektra.
Audio Spectrum Centroid
•
Spektrálny centroid poskytuje informáciu o tvare výkonového spektra.
•
Indikuje, či vo výkonovom spektre prevládajú nízke alebo vysoké
frekvencie.
•
ASC môže byť považovaný za aproximáciu vnímania ostrosti (sharpness)
signálu.
ASC
reč
výstrely
ACS a ASS generujú jeden príznak na rámec signálu.
hudba
Audio Spectrum Spread
•
ASS alebo tiež okamžitá šírka pásma.
•
Rozloženie spektra okolo spektrálneho ťažiska.
•
ASS sú určené pomocou efektívnej hodnoty (Root Mean Square-RMS)
odchýlky spektra z ASC.
•
Nízka hodnota vypovedá o sústredenosti výkonu spektra okolo ASC a
naopak vysoká hodnota poukazuje na rozloženie spektrálneho výkonu
naprieč širokou škálou frekvencií.
ASS
ACS a ASS generujú jeden príznak na rámec signálu
Audio Spectrum Flatness
•
Odráža konštantné vlastnosti výkonového spektra na obmedzenom
frekvenčnom pásme.
•
Pre daný rámec signálu, ktorý je popísaný sledom hodnôt, každá hodnota
ASF vyjadruje odchýlku výkonového spektra signálu od plochého tvaru
spektra.
•
Vysoké hodnoty ASF koeficientov poukazujú na prítomnosť šumu, pričom
naopak nízke hodnoty naznačujú harmonickú štruktúru spektra.
ASF
reč
výstrely
ASF a ASE generujú príznakový vektor na rámec signálu
hudba
Audio Spectrum Envelope
•
Logaritmicko - výkonové spektrum, ktoré môže byť použité na vytvorenie
redukovaného spektrogramu originálneho audio signálu.
•
Koeficienty – mimopásmové + pásmové
•
Spektrálne rozlíšenie frekvenčných pásiem na intervale [loEdge, hiEdge]
môže nadobúdať jednu z ôsmich možných hodnôt v rozmedzí od 1/16
oktávy do 8 oktáv (128/130; 1/3).
ASE
reč
výstrely
ASF a ASE generujú príznakový vektor na rámec signálu
hudba
Audio Waveform
•
Zisťuje minimálnu a maximálnu hodnotu amplitúdy signálu v
neprekrývajúcich sa rámcov akustického signálu.
Energetické charakteristiky
N
Energia a výkon signálu
E = ∑ x [n]
2
n =1
1 N 2
P = ∑ x [ n]
N n =1
AudioPower - AP (MPEG)
N
Hlasitosť signálu vyjadrená pomocou
efektívnej hodnoty RMS
Špička-špička (Peak to peak)
∑ x [ n]
2
RMS =
n =1
N
PP = max( x[ n]) − min( x[n])
- vyjadrenie v dB (log závislosť lepšie opisuje vnímanie zvuku)
original
original
E
AP
logE
•
http://arxiv.org/ftp/arxiv/papers/1206/1206.1450.pdf
•
http://www.cnel.ufl.edu/~mrastogi/
•
Ftp://ftp.icsi.berkeley.edu/global/global/pub/speech/papers/thesis-bedk98.pdf
•
http://www.cse.ohio-state.edu/~dwang/papers/Zhao-Wang.icassp13.pdf
•
http://www.mathematical-neuroscience.com/content/pdf/2190-8567-1-5.pdf
•
http://www.research.ibm.com/people/r/rameshg/yapanel-icassp2003.pdf
•
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.5.5349&rep=rep1&type=pdf
•
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.135.5036&rep=rep1&type=pdf
•
http://www.fit.vutbr.cz/~grezl/publi/dis.pdf
•
BP KEMT FEI TU, 2013, Marek Ečegy: Metódy parametrizácie reči
Ďakujem za pozornosť.
Download

final_Metódy parametrizácie reèi a audiosignálov