Phoebe: 語音合成(二)

簡介
•語音合成又名文句轉語音(Text-To-Speech,TTS)，是指將輸入的文字或儲存於電腦中的文件模擬人聲發出語音的技術。
•語音合成較語音辨識的發展早了許多，但應用層面大多仍在閱讀電腦螢幕上的文章，語音指引，互動回饋，或輔助說明。

語音合成的作法
•頻譜參數合成方法(Articulatory Synthesis)：
如Holmes的並聯共振峰合成器（1973）和Klatt的串/並聯共振峰(Formant)（1980）合成、基於LPC等聲學參數的合成系統，但要合成出清晰的語音需要準確的設定參數，使用困難，且合成出的語音仍不夠自然。
•波形拼接法(Formant Synthesis)：
如基頻同步累加法(PSOLA)（1990）在語音波形上做時域(time domain)的韻律修正來合成語音，就可以產生出具有韻律的合成語音。 PSOLA的設計重點，在改良頻域(frequency domain)耗時，以及在時域(time domain)接合效果太差的情形，其合成的語音在音色與自然度都大大的提升，且架構較簡單，容易實作。

對於 TTS 系統而言，無論接受的是一段文字的輸入或是一篇文章，這些文字本身並沒有包含任何聲學特性 ( 說話的聲調，停頓方式，發音長短等韻律 ) ，只有語言學的特性，所以必須透過自動預測的機制來產生這些文字的可能的聲學特性 (acustic feature) 而所謂自動預測的機制，一般有 rule-based 跟 knowledge-based 兩種方法，但是這兩種方法不但合成的聲音平淡又缺乏吸引力且遇到連續發音或要保留語者音色時表現都不好，因此近來串接合成法大行其道。

•串接合成法(Concatenated Synthesis)：
以一個錄好聲音的語料庫來當作比對的標的，從語料庫中抓出相對應的聲音單元，一些在 rule-based 與 knowledge-based 方法下需要做細節的聲韻調整也因此減少了許多，如此簡化了計算拼接與口音等複雜的計算，也特別適合在少量字彙的輸出時使用。

語音合成的困難點
1.發音的自然度(清晰、流暢)。
2.破音字的處理。
3.即時處理的能力。

語音相關應用
1.語音合成(Speech Synthesize)：運用資訊科技使電腦或電子設備模擬人聲。
2.語音辨識(Speech Recognition)：讓電腦聽得懂人類說話的聲音。
1.語者相關(Speaker Dependent)：不要求語者發音準確，需先經過訓練。
2.非語者相關(Speaker Independent)：語者發音需較正確，且無須訓練。
3.語者識別(Speaker Identification)：辨識說話者的身份

語音學(phonetics)
•在研究語音之前我們先來看看聲音／音色(timbre)的要素：

1.頻率(frequency)
頻率是以時間為基準,振動快則頻率高,音調較為高,其衡量單位為赫茲(Hertz,Hz),一次振動是指波形從中軸往上伸延至波峰，往下跨中軸至波谷再返回中軸，稱為一個週期；頻率越高，音頻(pitch)就越高，人類耳朵可聽到的音頻範圍是20Hz至20kHz。頻率是聲波每秒振動的次數，一千赫茲(1000Hz,或稱KHz)就等於每秒鐘振動一千次,也就是每秒鐘產生一千個音波。

2.振幅(amplitude)／響度(loudness)
振幅是指音波的[振動幅度],亦可稱為[力度],影響所及是聲音波形的高低,音波的振幅愈大,則響度愈大,其衡量基準是以振幅的大小為準,以volt或dB(分貝decibe)來衡量.DB的尺度是呈指數增長的,每隔20分貝,其響度或振幅則增加10倍,例如:40分貝比20分貝的響度,提高了10倍,而60分貝則比20分貝提高了一百倍,80分貝提高一千倍之多。

•Digital Audio數位音效
音波由類比型態轉為數位型態，儲存格式方面，PC平台最常用的是WAV格式，Mac平台最常用的是AIFF格式。

•瞭解了聲音的背景之後,讓我們來解析語言的結構，語言架構大致可區分如下：
◦語言的結構[語音學(phonetics)]
1.句子(sentence)
「我是一個講國語的台灣人，雖然我的祖先來自福建，但我的台灣話說得並不流暢。」
2.子句(clause)
「我是一個講國語的台灣人」
3.詞組(phrase)
4.語詞(word)
「台灣人」
5.詞素(morpheme)
「台灣人」
6.音節(syllable)
「台」，「灣」，「人」即一般所說的字音，是聽覺上最容易分辨出來的語音單位。一般來說，一個漢字就是一個音節。漢語的音節一般是由聲母、韻母和聲調構成的；不過，有時也可以沒有聲母，只由韻母和聲調組合而成，稱之為「零聲母」。
7.音素(phoneme)
「人」是由三個音素/r/，/e/，/n/ 所形成，是最小的語音單位。
◦瞭解語言的架構可以幫助我們分析要如何發音，接下來讓我們來瞭解發音的2大要素：
1.元音/母音(vowel)
發音時，氣流會振動聲帶，在經過咽頭、口腔、鼻腔等地方時，氣流幾乎暢通無阻。由於聲帶顫動，所以聲音響亮。
2.輔音/子音(consonant)
發音時，氣流在咽頭、口腔、鼻腔等部位會受到阻礙。由於聲帶不一定顫動，所以聲音大多不響亮。
◦瞭解了發音要素後，重要的是如何讀出聲音來，我們稱之為拼音，這是會隨著國家與地區性而有所不同，我們常用的注音稱之為國音一式，通用拼音與漢語拼音還未確定誰是國音二式，而使用多年方便外國人發音的稱之為羅馬拼音(比較表)，以下介紹國音的拼音的3大要素：
1.聲母(initial)=前音=子音=輔音(consonant)
發出的聲音會遭受阻礙,聲母有辨義的作用如ㄍ與ㄎ：幹什麼與看什麼,ㄋ與ㄌ：惱怒與老路
指放在音節開頭的輔音。由於聲母是由輔音充當，因此發音並不響亮，國語的聲母有21個，按發音部位分為七組。 1. 雙唇音Bilabials b(ㄅ) p(ㄆ) m(ㄇ) 　
2. 唇齒音Labiodental f(ㄈ) 　　　
3. 舌尖音Apicals d(ㄉ) t(ㄊ) n(ㄋ) l(ㄌ)
4. 舌根音Velars g(ㄍ) k(ㄎ) h(ㄏ) 　
5. 舌面音Front Palatals j(ㄐ) q(ㄑ) x(ㄒ) 　
6. 舌尖後音(翹舌音)Retroflexes zh(ㄓ) ch(ㄔ) sh(ㄕ) r(ㄖ)
7. 舌尖前音(平舌音)Blade-alveolars z(ㄗ) c(ㄘ) s(ㄙ) 　

2.韻母(final)=後音=母音=主音=元音(vowel)
與口腔的開合有關，如ㄧ => ㄝ => ㄚ
是音節中聲母以後的部分，可以由元音 and／or 輔音充當，而且發音響亮。 1. 半元(母)音semi-vowels (y)i(ㄧ) (w)u(ㄨ) (y)u(ㄩ) 　
2. 單韻母Simple Vowels a(ㄚ) o(ㄛ) e(ㄜ) ie(ㄝ)
3. 複韻母Diphthongs ai(ㄞ) ei(ㄟ)　 ao(ㄠ) ou(ㄡ)
4. 鼻韻母Finals with nasal endings an(ㄢ) en(ㄣ) ang(ㄤ) eng(ㄥ)
5. 捲舌韻母Retroflex er(ㄦ) 　　　

3.聲調(tone)
指字音的高低升降變化、國語語音高低升降、具有區別詞義作用的有規則變化就是聲調。聲正確與否是語音準確的關鍵。舉例說：國語依基頻軌跡(pitch contour)分一聲(陰平)、二聲(陽平)、三聲(上聲)和四聲(去聲)。
◦國語的音節數
依照聲,韻,調的結構,可能的音節組合有22*39*5=4290種，但國語有嚴格的聲韻組合規則,例如聲母的ㄐ,ㄑ,ㄒ後面只能是以ㄧ,ㄩ的韻母,當韻母是ㄩ時只有ㄐ,ㄑ,ㄒ,ㄋ,ㄌ的聲母,因此實際可用的國語音節約1300多個，若不考慮聲調的話只有411個。
◦拼音的組成
聲母在前，韻母在後
聲母輕短，韻母響亮
◦拼法口訣
前音輕短後音重，兩音相連猛一碰！

語音品質的評量
對於語音品質的評量，多年來人們提出了許多方法，歸納起來大致可分為兩類，即客觀評定方法和主觀評定方法。

　　客觀評定方法用客觀測量的手段來評價語音編碼的質量，常用的方法有信噪比、加權信噪比、平均分段信噪比等。它們都是建立在度量均方誤差的基礎上，其特點是計算簡單，但不能完全反映人對語音質量的感覺。這個問題對於速率為16Kbit/s以下的中、低速率語音編碼尤為突出，因此主要適用於速率較高的波形編碼類型。

　　主觀評定方法符合人類聽話時對語音質量的感覺，因而目前得到廣泛應用。最主要的主觀評定方法是主觀評定等級（Subjective Opinion Scale），或稱平均評定得分（Mean Opinion Score，縮寫MOS）。MOS得分採用五級評分標準，其方法是，由數十名試聽者在相同信道環境中試聽並給予評分，然後對評分進行統計處理，求出平均得分。由於主觀和客觀上的種種原因，每次試聽所得的評分會有波動。為了減小波動的誤差，除了試聽者人數要足夠多之外，所測語音材料也要足夠豐富，試聽環境也應儘量保持相同。

在這裡要特別需要說明的是，試聽者對語音質量的主觀感覺往往是和其注意力集中程度相聯繫的，因而，對應於主觀評定等級，還有一個收聽注意力等級（Listening Effect Scale）。下表給出主觀評定等級的質量等級、分數和相應的收聽注意力等級。

主觀評定等級表質量等級分數收聽注意力等級
優 5 可完全放鬆，不需要注意力
良 4 需要注意，但不需明顯集中注意力
滿意（正常） 3 中等程度的注意力
差 2 需要集中注意力
劣 1 即使努力去聽，也很難聽懂

　　從用戶角度看，通常認為MOS分4.0~4.5分為高質量語音編碼，達到長途電話網的質量要求。MOS分3.5分左右稱作通信質量，這時聽者能感覺到語音質量有所下降，但不影響正常的通話，可以滿足多數通信系統使用要求。MOS分3.0分以下常稱為合成語音質量，這種語音一般只有足夠高的可懂度，但是自然度較差，不容易識別講話者。

　　語音編碼技術標準的制定，對數位語音技術的實用化和發展起到了推動作用。

參考資料：http://159.226.2.5:89/gate/big5/www.kepu.net.cn/gb/technology/telecom/wireless/wrl216.html

語音相關專用術語
•articulatory phonetics:發音語音學(人類聲道與嘴型閉合等所發出聲音)
•acoustic phonetics:聲學語音學(聲音的物理性質)
•auditory phonetics:聽覺語音學(聽到不同語音的反應)
•phonetics:語音學
•phonology:音韻學
•phonemics:音位學
•phonetic transcription:標音
•articulation:發音
•syllables:音節
•suprasegmental features:附加音素
•allophones: 變音
•prosodic:聲韻學的(韻律學的)
•phonetic:語音學的
•phonologic:語音體系的
•phonetically:語音方面地
•semantic:語義學的
•phoneme:音素
•vocal track:聲道
•speech organs:發音器官
•acoustic:聽覺的
•consonant:子音
•co articulation:連音
•duration:音長
•intonation:語調,聲調
•juncture:連音
•verbal:口頭上的
•vowel:母音
•nasal:鼻音
•pitch:音高,指的是聲音在心理印象上的強或弱。音高常用作頻率的同義字
•utterance:言辭
•lexicon:辭典
•LPC(Linear Predict Coding):線性預估編碼，通常被當成語音訊號的特徵值
•HMM(隱藏式馬可夫模型法):在國語的TTS系統中，其文句分析必須抽取語言參數並把文字串轉換為音節串，但中文文句並沒有明顯的詞邊界，會因斷詞點不同而有不同的語意，故以n階的HMM來做語言參數的抽取。
•EGG(Electro-GlottoGraph)：
•IVR(Interactive Voice Response)：互動式語音回覆
•wavelength:波長,指的是在波形中，兩個連續高峰週期間的距離又稱為「樂段」(period)

聲音的格式類型
1..wav : (WAVE)Microsoft作業系統的聲音檔案格式
2..aif : (Audio Interchange File Format,AIFF)Apple發展的格式，適用於Mac與SGI
3..au : (u-law)Unix作業系統的聲音檔案格式
4.AIFC : Unix作業系統的聲音檔案格式 Audio Interchange Format Compressed
5..mp3 : MPEG Audio Layer-3 的聲音壓縮格式

免費的語音分析軟體WaveSurfer
WaveSurfer is an Open Source tool for sound visualization and manipulation. It has been designed to suit both novice and advanced users. WaveSurfer has a simple and logical user interface that provides functionality in an intuitive way and which can be adapted to different tasks. It can be used as a stand-alone tool for a wide range of tasks in speech research and education. Typical applications are speech/sound analysis and sound annotation/transcription. WaveSurfer can also serve as a platform for more advanced/specialized applications. This is accomplished either through extending the WaveSurfer application with new custom plug-ins or by embedding WaveSurfer visualization components in other applications.
Speech Filing System
SFS 4/Windows is a free computing environment for PCs for conducting research into the nature of speech. It comprises software tools, file and data formats, subroutine libraries, graphics, special programming languages and tutorial documentation. It performs standard operations such as acquisition, replay, display and labelling, spectrographic and formant analysis and fundamental frequency estimation. It comes with a large body of ready made tools for signal processing, synthesis and recognition, as well as support for your own software development.
more....

未整理資料
連續 vs. 不連續語音輸入
語音辨識技術在個人電腦上可分成語音操控及語音輸入。語音操控是用語音指令來操作電腦, 而語音輸入則是用來輸入文字。而早期的語音輸入是所謂「不連續」(discrete 或 discontinuous) 的, 也就是說, 在字與字之間是需要有短暫暫停的。而隨著個人電腦硬體性能的不斷提昇、價格的不斷下滑, 以及語音辨識技術的不斷精進, 從 1997 年下半年起, 電腦語音輸入正式進入到「連續」 (continuous) 輸入時期。

相對於不連續語音輸入, 連續語音輸入在字與字之間是不需要暫停的, 使用者可以將整個句子一氣呵成地念完。以英文的語音辨識產品來說, 最大的兩家廠商為 IBM 及 Dragon。而 IBM 公司挾著其龐大的研發及行銷資源, 也不斷開發其它國家的語言版本, 中文就是 IBM ViaVoice 產品的第八種支援語言。

國內技術發展現況
我國的語音辨識產品開發以本國語言－中文(國語)為主。國內業界以台康公司首先於1991年推出語音辨識產品「捷通」語音輸入系統，包括中文語音聽寫、中文語音指令、中文語音合成等功能。倚天公司亦於1994年發表「話匣子」語音辨識產品。兩者均屬特定人、單字音辨識的產品，辨識率不如理想。不如理想。此外，國科會的產學合作計畫亦有多家廠商參與，台大／中研院的「金聲」系列國語聽寫機參與廠商有倚天、明碁，成大的「音中仙」中文詞輸入系統有台康、技電、旺宏等。華隆微電子亦曾推出小詞彙(20-40詞) 語音辨識晶片(型號:HM2007)。 1995年11月蘋果電腦宣布其「中文聽寫工具」，屬特定人、單詞辨識的產品；宏碁於1995年九月推出的「渴望」多媒體家用電腦也搭配不特定人、小詞彙的英文語音指令控制功能。最近許多廠商對中文語音電腦及語音辨識晶片的開發均表示高度興趣。以生命期而言，語音辨識產品尚處於萌芽起步階段，市場成長率高。語音辨識技術的發展，在歐美等先進國家由來已久，我國在這項技術的發展，早期以學術界為主，始於台大的國語聽寫機（1983年）研究計畫，清大、交大、成大等亦均投入研究多年。交通部電信研究所亦有偏重電信應用的語音辨識技術研發。經濟部科技專案亦於1991年起支持工研院電通所投入中文語音辨識技術的研發，在基礎技術及實驗環境建立之後，於1992年七月起於「前瞻性資訊技術研究計畫」成立一子計畫，1993年完成中文語言模型設定及硬體系統功能設計， 1994年完成在工作站之一特定人、大詞彙、單字音之國語聽寫機雛型系統整合，1995年完成以分段機率模型開發之不特定人、中詞彙、單字音組詞辨識技術，1995年12月資訊展展出”PC 版非特定語者中文語音辨識系統”，為不特定人、中詞彙、連音詞辨識技術(系統流程如圖一)，正繼續研發語者調適、噪聲模型、麥克風調適、標準應用程式介面、進一步提高辨識率等技術，使該技術可以實用化、商品化，由「能用」逐漸走向「好用」、「到處可用」、和「隨時可用」的境界。另一方面，工研院電通所也同時投入特定人、小詞彙語音辨識晶片的開發，主要為協助半導體廠商進入消費性電子所需的語音辨識晶片領域。此外，也將開始語音合成及壓縮技術的發展

國外相關研究研究
單位產品
AT&T Bell Labs Bell Labs TTS
BT Labs Laureate
Entropic Truetalk
Microsoft Research Whistler
Lernout & Hauspie TTS3000/M
Lucent Next Generation Speech
CSTR University of Edinburgh Festival
ETI-Eloquence ETI-Eloquence
Lernout & Hauspie Realspeak
Elan informatique Elan Speech Engine
香港中文大學人機通訊實驗室 CU VOCAL 「悠揚」語音合成系統

國內相關研究研究
單位簡介
台大李琳山教授
相關資料金聲一號二號三號等聽寫系統、文字轉語音系統、對話系統、語音為基礎之資訊檢索系統等。
主從式架構、網路之語音介面、隨網路資源調適之詞典和語言模型、網路語料處理、無線環境下之分散式語音處理等。

清大王小川教授連續三年的國科會計畫「國語語音資料庫之設計與建立(MAT計畫)」(1995-1998)，完成約7000人之電話語音資料收集，這是國內首次大規模的語音收集，目的在建立一個研究環境，提供國內語音處理技術研發工作者一套語音資料庫。其中資料檔之編輯程式(取名為Veditor3.0)已登記著作權。部分語音資料陸絨委託中華民國計算語言學學會發行，MAT-160、MAT-400、MAT-2400已提供學校及研究單位使用，其中MAT-2400則由國科會辦理技術移轉。
成大王駿發教授用於根據一倒頻譜係數運算式來處理線性預測係數之以線性預測係數為基礎的倒頻譜係數產生器
語音編解碼方法及語音編解碼器
交大陳信宏教授使用韻律訊息之類神經網路國語連續語音辨認
不特定語者國語連續音節辨認技術之探討
適合視障者使用之電腦界面技術與系統設計-子計畫二:盲用電腦之國語單詞輸入及語音輸出系統之發展
中研院許聞廉教授中文同音字的自動辨認；中文字轉音以及語音合成系統；語音辨認的後處理（音轉字以及容錯系統）；OCR、OLCR的後處理系統；各類自形輸入法同碼字的
自動選取系統；中文句型剖析（PARSING）以及斷詞系統等。
台大陳信希教授 1. 剖析系統
2. 線上即時英文翻中文服務系統
3. 臺灣本土語言互譯及語音合成系統
4. 中文斷詞及人名、組織名辨識系統
5. 多文件新聞自動摘要系統
台科大古鴻炎教授增進參數獨立控制之彈性、並可產生豐富音色之國語音節信號合成方法
可作動態音色變換之國語語音合成軟體"
客家語(Hakka)語音信號合成
整合動態詞典與馬可夫中文語言模型之方法
長庚呂仁園教授「國台雙語語音辨認自動掛號系統」以及「台語文字轉語音（語音合成）系統」
台灣地區多語語音資料庫之建立
語音電話掛號總機

語音相關的中文書籍
1.楊鎮光,"Visual Basic與語音辨識-讓電腦聽話",松崗,2002。
2.林寰生,"數位信號-影像與語音處理",全華,1999。
3.謝秀琴,"數位語音訊號基本原理",全華,1996。
4.劉振源,"類神經網路模型與語音識別",全華,1995。
5.王仁華,"人機語音通信",聯經,1995。
6.許志興,"聲霸卡之應用與語音辨識",旗標,1994。(朝陽圖書館有藏書)
7.陳明瑩,"PC電腦語音辨認實做",旗標,1994。(朝陽圖書館有藏書)
8.黃嘉華,"聲音與多媒體PC",全華,1994。(朝陽圖書館有藏書)
9.許雍,"微電腦應用-語音處理",全華,1993。(朝陽圖書館有藏書,偏IC設計,探討midi較多,資工資科電子背景較適合)
10.吳明哲;黃世陽,"VB4.0動畫與語音技巧秘笈-使用物件導向程式設計",松崗,?。

網路資源
1.語音研究應用軟體
2.注音符號簡介
3.Pin-yin
4.大陸的人機語音交互科研組(TTS)
5.語音合成技術的原理
6.大陸的語音合成相關網頁
7.Speech Synthesis & Analysis Software
8.中央研究院語言學研究所籌備處語音實驗室
9.音頻視訊格式介紹
10.吳志勇博士
11.陳永承 Evan Chen
12.Examples of Synthesized Speech
13.Speech Analysis Tutorial
14.Pitch Analysis

摘自: http://irw.ncut.edu.tw/peterju/speech.html

Phoebe

追蹤者

網誌存檔

關於我自己

2010年1月5日星期二

語音合成(二)

沒有留言:

張貼留言