2010年1月5日 星期二

聽覺語音學

聽覺語音學

簡介:
  任何聲音發出以後,是以振動的方式( 聲波 )傳至聽者的耳朵中。接著由耳鼓膜以物理性質的振動經過中耳傳至內耳,在耳內蝸管內再將這物理振動轉化為神經脈衝,經聽覺神經傳至大腦。這些過程即屬聽覺語音學的範疇。( 參考謝國平,語言學概論 )

--------------------------------------------------------------------------------

聽覺的產生 :

由聲波的傳導到聽覺的產生,是以下列步驟進行的:

1. 聲波由耳翼導入外耳道 (空氣傳導),或直接繞過外耳及中耳而刺激內耳 (骨傳導) 。

2. 聲波振動鼓膜,其中低頻率聲音所產生的振動較慢,而高頻率聲音所產生的振動較快。 隨後聲波由鼓膜經鎚骨、砧骨及鐙骨傳至卵圓窗。

3. 卵圓窗的振動使前庭階內的外淋巴產生波動,而向鼓階推進。同時,外淋巴的壓力傳向前庭膜,使耳蝸內的內淋巴壓力增加,而使基底膜振動。

4. 基底膜的振動使毛細胞的毛擺動而產生發生電位,並導致神經衝動傳向前庭耳蝸神經的耳蝸分枝。

5. 神經衝動由耳蝸分枝傳到延腦的耳蝸神經核。在此,大部分的神經衝動通到對側,而後傳到中腦的下視丘,接著再傳到視丘的內側膝狀核,最後終止於大腦皮質顳葉的聽覺區。


--------------------------------------------------------------------------------

聽覺語音學的發展:

我們知道:由聽覺神經細胞所接收的脈衝,是由耳朵傳送至大腦。而在大腦中,便產生非常複雜的處理過程。這個過程就是科學家及語言學家最想要探究及了解的。對於語言學家而言,要獲得更多有關於聽覺感知的資訊,即人腦如何解讀耳朵所接受到的特定聲波,最主要的方式,就是要求受試者去描述他們的感知。當然,實驗結果是很主觀的。但是我們可以用一些對比的形容詞來要求受試者把他聽到的語音做分類,像是鈍的或是尖的聲音、重的或是輕的聲音,甚至判斷一個音是否可以當做子音或母音。


--------------------------------------------------------------------------------

聽覺語音學與發音、聲波語音學的關係:

聽覺語音學與發音語音學的關係

這兩者之間的關係很密切,否則,人類的溝通無法進行。舉例來說,如果我們將鼻音如[m]、[n]和[N]以聽覺的觀點來看,它們都是「嗯嗯」的聲音。當一個語言學家或是用心觀察語音的人聽到一個他沒有辦法單獨使用聽覺來判斷的聲音,他可以試著去發相似的音,好讓他比較和體會那個音的特質。一個在學外語的人在學其母語沒有的語音時,他可以集中注意力在這個語音在聽覺上與其它音的相異性,以幫助自己的發音 。

聽覺語音學與聲波語音學的關係

這兩者之間的關係似乎比較不明顯。當我們聽人說話時,我們幾乎不會、也不能意識到聲音的聲波特質。但是,實驗證明:兩者之間是有關係的。例如,在一個吵雜的環境中或是我們誤聽一個字時 ,就可能是我們對語音排列順序認知的混淆。伯那思那漢(Brosnahan)表示:聽覺閾限是存在的,它會使聽者無法辨認哪一個音在先、哪一個在後。


--------------------------------------------------------------------------------

相關期刊:

篇  名
聽語科學在臺灣的展望

並列篇名
Speech and Hearing Sciences in Taiwan's Future

作  者
江淵聲 林泰

刊  名
聽語新潮

卷期/年月
2 民90.11 頁138-141+292-296

資料語文
中文; 英文




篇  名
傳統中醫聽語病理學發微

並列篇名
A Premise of Speech-Language-Hearing Pathology in Traditional Chinese Medicine

作  者
洪振耀

刊  名
聽語會刊

卷期/年月
12 民85.12 頁99-142

資料語文
中文




篇  名
臺灣對學齡聽障學生服務的初步探討

並列篇名
Services to the Hearing Impaired School-Age Population in Taiwan: A Perliminary Study

作  者
劉麗容等

刊  名
聽語新潮

卷期/年月
1 民89.11 頁28-33+75-82

資料語文
中文; 英文




篇  名
二十世紀初法國失語學界記事

作  者
洪振耀

刊  名
聽語會刊

卷期/年月
9 民82.12 頁10-26

資料語文
中文




篇  名
聽力與兒童英語教學

作  者
林蕙蓉

刊  名
師友

卷期/年月
414 民90.12 頁24-28

資料語文
中文




篇  名
語言治療與音樂治療

作  者
洪振耀

刊  名
聽語會刊

卷期/年月
11 民84.12 頁1-18

資料語文
中文


 


--------------------------------------------------------------------------------

相關網站:

http://www.chez.com/phiallfish/und_essays/Phonetics.html
這個網頁主要是介紹語音學三大分支的相異及相關性。網頁所有人為Christian Assegurg 。
http://www-old.physiol.usyd.edu.au/simonc/anl_intr.htm
這個網站為聽覺神經科學實驗室所設立。這個實驗室位於雪梨大學的生 理 學系。主要的研究項目包括生物聲波、神經生理等等。

--------------------------------------------------------------------------------

相關著作:

1.聽神經通道病變
曾凡鋼

 
 

2.當代助聽器選擇與驗配之論點
Jerry Punch

 
 

3.如何訓練語言病理學專家在亞太之多重文化地
區進行服務與教育
劉麗容

 
 

4.聽性腦幹反應(ABR)總論:運用與限制
馬文蘭

 
 

5.耳聲反射在新生兒聽力普查中的應用
陳蕾

 
 

6.電腦聽力檢測儀在台灣未來的發展及挑戰
林泰

 
 

7.數位助聽器時代重新檢視不連續頻率波?
及低頻率對語音辨識的效用
陳小娟

 
 

8.輸入式壓縮助聽器之壓縮閾值的可能影響
王克經

 
 

9.聽語科學在台灣的展望
江淵聲、林泰



--------------------------------------------------------------------------------

參考書目:

謝國平。 1994。 語言學概論。 台北:三民書局。

L.F.Brosnahan, B. Malmberg. 1970. Introduction to Phonetics. Cambridge: W. Heffer
and Sons.

V. Fromkin, R. Rodman. 1998. An Introduction to Language. Fort Worth: Harcourt Brace.

資料來源:
http://www.ling.fju.edu.tw/phonetic/hearing.htm

聲學語音學

簡介

  在人類語言連鎖活動的過程中,最具體而可以直接觀察的部分是語音。語音可以聽得見,而且也可以記錄下來。從最具體的層次看,語音是聲波,聲波是空氣分子(particle)振動所導致的氣壓變化,是物理的現象,聲學語音學是研究語音的物理特性以及這些特性在語言系統中所具有的功能。簡單來說,聲學語音學就是一門研究「語音的物理基礎」的學問。

那麼我們為何要研究聲學語音學?因為那聽起來似乎是物理學家的工作,但是由人所發出的語音,其聲學上的特性也是語言學研究的一部份。現在,就讓我們簡單的說明幾點研究聲學語音學的理由吧!第一,我們對聲音的感覺取決於語音的聲學性質,因此,明瞭語音聲學性質的原理基本上是很重要的事。第二,語音不容易以發音動作來描述,因此以聲學特性為基礎比較容易解釋,比如母音可以以所謂的「特強頻率帶」(formant)的不同來顯示其差別。另外,聲學特性也方便我們去解釋一些容易混淆的語音。第三,說話的聲音是很短暫的,語音會隨著時間而消失。雖然語音可以模仿,甚至可以用符號記錄下來,但那與原本語音並不是同一回事,因此,獲得永久性的語音記錄是研究語音的一種助力。第四,由於近代聲學儀器的發明,我們不只可以使語音有重現上的可能,我們更可以使語音變成視覺上的記錄(如聲波圖、聲譜圖spectrograph等)。這麼一來,語音不只可以聽見,還可以“看見”。第五,在研究分析上,我們可以更進一步的克服語音瞬間消失的困難,使我們可以更詳盡的分析語音的聲學特質,以便和相關學科做結合,如:聽力學、特殊教育的聽障教學、語言治療等。(部分摘自 謝國平《語言學概論》三民書局 民國七十九年 第四版 頁53-54。)

動物發音與人類發音的比較
語音的聲學特性
語音的多重差異性
聲學儀器的介紹
熱門議題
參考書目
相關網站

--------------------------------------------------------------------------------

動物發音與人類發音的比較

  動物發音跟人類發音的不同包括很多,譬如頻率的差異、複雜程度、彈性變化、訊息表達的多寡以及生理結構(謝國平,1985,1-3)等等。以下便列舉數例以做比較:

鳥類
鳥類的叫聲可分成”叫”與”鳴”(或”歌”)。”叫”在聲音的形態上比較簡單,而且通常只是單音,或者是將很短的單音串聯在一起。其作用大多跟示警、請求餵食、求救、飛行、防守領域、或當鳥類遭遇敵人或遇到緊急狀況時所發出的聲音,此聲音通常比較急促。而”鳴”(或”歌”)就比較複雜一些,其作用通常由雄性鳥來演出;然而,也有少數的雌性鳥發展出”對唱”的形式(Akmajian,1979,25-26)。”鳴”(或”歌”)最主要是雄性鳥在交配期時,為了吸引雌性鳥所發出的比較愉悅和諧的聲音;其次,”鳴”(或”歌”)也有用來建立其領域範圍的作用。

  鳥類的”叫”聲大多是天生的,而”鳴”(或”歌”)則大多是由於學習得來的。這一點跟人類學習語言的過程很相似。Akmajian認為鳥類學習”鳴”(或”歌”)聲,跟人類學習語言都有一個”關鍵時期”,鳥類過了這個時期而聽不到同類的歌聲,就無法學到這種能力;而人類過了這個時期以後也相對地無法順利地學得語言。而這個時期Lenneberg(1967)認為是在發育時期。

蝙蝠

蝙蝠在飛行時發出的一種超高頻率的聲音,人類是聽不到的,然而,蝙蝠卻因此而能夠在夜間或黑暗之中保持安全飛行,不會撞到障礙物。蝙蝠這種超高頻率的聲音,人們雖然聽不到,然而,就這種功能來跟人類所發出的語音相較的話,人類的語音還是比較多變化的。

鯨魚

鯨魚可以發出一種相當複雜的超低頻率的音調,這種音調人類也不易察覺,而鯨魚卻能利用此種特定頻率的聲波,像雷達一樣地傳達訊息給牠的同類,而這種特定頻率的聲波可以傳達到很遠的地方(Akmajian,1979)。同時,牠也能利用牠的聲波來搜捕食物。然而,鯨魚利用這種聲波來傳達訊息或用來覓捕食物,跟人語言的功能相比較,還是顯得簡單的多了。

猿猴及猩猩

雖然猿猴及猩猩跟人類一樣都屬於靈長類,然而,因為某些身體跟生理結構上的不同,卻使得發音的結果相去甚遠。人類的咽喉比猿猴及猩猩的頸部在更下面的地方,因而使得人類喉腔的空間增大,而更利於發出更多種類的語音。而同一部位的結構,猿猴及猩猩保留了使嚥食比較容易的通道,因而不利於發音;然而,人類的咽喉卻發展出了以發音為主要取向的通道 ( Atkinson,1982;Miller,1981,30),因而能說出各種不同的聲音,甚至能模仿動物的叫聲(擬聲語)。

--------------------------------------------------------------------------------

語音的聲學特性


語音的物理屬性

語音的音質

語音的物理屬性:

  語音如果做為一種物質材料,就跟自然界裡其他聲音有相同的一面,也具有物理屬性。一切聲音都是由物體振動而產生的,物體受外力的作用而振(邢公畹,1994,39-41)。因此,我們可以從這四個方面來分析和認識語音的物理特徵。

A.音高:

  就是聲音的高低。它主要決定於發音體振動的頻率,所以也有人把音高叫做音頻。

B.音強:

  音強就是聲音的強弱。它主要決定於振幅,而振幅指發音體振動的幅度。

C.音長:

  就是聲音長短。它主要決定於發音體振動時間的長短。振動持續的時間長,聲音就長,反之就短。

D.音色:

  指聲音的品質和特性而言。音色決定於聲波的形式。而音叉振動發出的聲波是頻率固定而有規則的,這種聲音叫純音。(邢公畹,1994,39-41)。而其中頻率最低、振幅最大的那個純音叫做「基音」,其餘的叫「陪音」,也叫「泛音」。

語音的音質:

  人類的語音大致上可以看作是一個由若干頻率不同的簡單聲波所構成的(F0),而與基礎頻率成整數比的頻率則稱為陪音(harmonics諧頻,或稱overtone泛音)。

  當我們發音時,聲帶振動的次數構成語音的基礎頻率,基礎率和陪音使(formants)。以下將語音分為母音及子音兩個部分討論之:

A.母音的聲學特性:

  母音的共振峰有五、六個。隨著發音腔道的大小及其形狀的改變,不同(F1,F2,F3)的不同分佈情形,決定了不同母音的聲響特性。一般說來,母音的共振峰結構都相當穩定,聲音的基礎頻率變化對母音,不論是任何人所發出的,其頻率大約都是固定的,不會有太懸殊的差異。

B.子音的聲學特性:

塞音(stops)在聲譜上可觀察到的特性有:送氣(aspiration),帶聲時間點(voice onset time),特強頻率變化形態(formant transition,這是辨別不同部位子音的最主要聲學特性)。

擦音(fricatives)因為發音時空汽油很窄的通道擠出,產生混亂的氣流,造成噪音(noice,或稱 white noice,類似收音機沒有調到電台播音頻道時發出沙沙聲的噪音)。

介音(glides 如 j, w)及流音(liquids 如 r, l)。這兩種聲音類似母音,有特別的特強頻率帶。

鼻音(nasal)也有特別的特強頻率帶的形態,與母音類似,但是鼻音因為共鳴的方式與口腔母音不同,formant的強度比較弱。

喉塞音(glottal stop)再聲譜與塞音相似,有一段靜止的時間以及帶升起點的輕微延緩,但喉塞音卻沒有特強頻率帶變化形態(formant transition)。


--------------------------------------------------------------------------------

語音的多重差異性

  人類的語音可以透過各種不同的差異來展現其變化。譬如「音高差異」、「音長差異」、「音質差異」、「音強差異」、「音量差異」、「情緒差異」、「性別差異」、「表情差異」、和「文化差異」等等。以下列舉數例來說明其不同之處:

音高差異

音長差異

音質差異

音強差異

音量差異

情緒差異

性別差異

表情差異

文化差異

音高差異:

  一般說來,婦女和兒童的聲帶比較短而且比較薄,所以聲音比較高。而男人跟老人的聲帶比較長而且比較厚,所以聲音低一些(邢公畹,1994,40)。

音長差異:

  音長的明顯差異,可舉英文的例子來說明。例如,”seat【sit】座位”就跟”sit【sIt】坐”的意思不同,原因就是母音的長短不同所造成的。

音質差異:

  每個人的音質都有他的特殊性,即使在電話裡找人,我們也可以知道說話者是否就是我們要找的人。然而,當一個人生病或感冒時,我們就常常無法辨認出來,因為一個人生病或感冒時,他的音質會有所改變,通常會變得比較不清楚。

音強差異:

  音強的差異,可舉英文的例子來說明。比如,”content”這個字,重音放在第一音節的意思是「內容」,而重音如果放在第二音節,意思則變成「滿意」了。

音量差異:

  音量的差異,就中文的例子來講,當一個人大聲地對某人說:「你好有氣質喔!」跟一個人輕輕地說:「你好有氣質喔!」所表達的意思是不一樣的。大聲地說,可能表示說話者在諷刺聽話者;而輕輕地說,可能才是在讚美,或是有羨慕對方的意思。

情緒差異:

  情緒上的差異有時會造成語意的不同。例如,當一位男生對於一位心儀已久的女生苦追不到,而這位女生突然給了這位男生一個機會,請他幫忙做一件事,這位男生可能會毫不猶豫地說:「好啊!」然而,當這位女生也邀了很多人(電燈泡)去的話,這位男生可能也會說:「好啊」。然而,這兩句話卻有很大情緒上的差異:說前一句時很高興,說後一句時卻很無奈。

性別差異:

  通常女生的聲音比男生的聲音高而且悅耳、好聽,所以,女生比較容易用撒嬌的方式來達到目的。反觀男生,若是學女生用這種撒嬌的方式,很可能會適得其反,而且,還會讓人覺得很噁心。

表情差異:

  不只臉部有表情,聲音其實也有表情的。同樣的一段對白,讓配音員來模擬不同的情境,就會有不同的效果。比方,男女朋友親暱的情境,或是變態狂對受難弱女子的強硬要求,都可以用下列的對話來展現不同的聲音表情---

甲:快點過來!否則我要過去囉!

乙:不要啦!我要過來了啦!

甲:還不快點!

乙:好啦!我就過來了嘛!

文化差異:

  不同的文化也會產生語音上的差異。即使是在同一個國家之內,也有可能出現。例如:蘇州人以講話輕柔出了名,即在吵架也不會太大聲;然而,山東人講話,卻是以大聲出了名。這就是文化上的個別差異所造成的。


--------------------------------------------------------------------------------

聲學儀器的介紹

1.聲譜儀(spectrogram)

聲譜儀是聲學語音學中最為人所熟知的聲學儀器。以下我們介紹這個網站是華盛頓大學語音實驗室的網站,裡面介紹了關於聲譜儀的基本認識,包括甚麼是聲譜儀,如何判讀,以及一些語音(如 stops, fricatives等)經過聲譜儀的測試所顯示出的不同的聲譜圖。

http://depts.washington.edu/phonlab/mystery/mystery.html

University of Manitoba 介紹聲譜圖的網站

http://www.umanitoba.ca/faculties/arts/linguistics/russell/138/sec4/specgram.htm

奧勒岡大學的網站

http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_reading.html

德國 Muenchen大學的網站 全德文


http://www.phonetik.uni-muenchen.de/SGL/SGLHome.html

 

 

2.聲紋分析儀

3.喉頭音分析儀

4.鼻音測定儀

5.基頻分析儀

6.麥金塔電腦


--------------------------------------------------------------------------------

熱門議題

Matthews, John and Cynthia Brown. 1999 . Qualitative and Quantitative Differences in the Discrimination of Second Language Speech Sounds. Proceedings of the 22nd annual Boston University Conference on Language Development 449.

McPherson, B. and V. Smyth. 1997. Hearing screening for school children with otitis media using otoacoustic emission measures. Asia Pacific Journal of Speech Language and Hearing. 2: 69-82.

So, L.K.H. and Wang, J. 1996. Acoustic distinction of Cantonese long and short vowels. Proceedings of the Sixth International Conference on Speech Science and Technology. 379-384.

Pericliev, Vladimir &, Raul E. Valdes-Perez. (Sofia, Bulgaria). 1999. The Distinctive Segment Sets for 451 Languages. The 34th Colloquium of Linguistics Conference.

Willis, Erik M. & Begona Pedrosa. 1999. An acoustic analysis of Spanish rhotics: Isolated words, text and spontaneous conversation. Hispanic Linguistics


--------------------------------------------------------------------------------

參考書目

Stevens, Kenneth N. 1999. Acoustic Phonetics. Cambridge, Ma: MIT Press.

Atkinson, M. Kilby, D., & Roca I. 1982. Foundation of General Linguistics. London:George Allen & Unwin.

Miller, George Armitage. 1981. Language and Speech. San Francisco: W. H. Freeman.

Akmajian, A., Demers, R. A., & Harnish, R. M. 1979. Linguistics: an introduction to language and communication. Cambridge, Mass.: The MIT Press.

Stevens, Kenneth N.. 1972. The Quantal Nature of Speech: Evidence from Articulatory-Acoustic Data

Stevens, Kenneth N.. 1961. An Acoustical Theory of Vowel Production and Some of Its Implication

邢公畹. (1994). 語言學概論. 北京:語文.

謝國平(1985). 語言學概論. 台北:三民.


--------------------------------------------------------------------------------

相關網站

http://www.humnet.ucla.edu/humnet/linguistics/faciliti/uclaplab.html

UCLA語音學實驗室網址

http://www.uni-marburg.de/linguistik/dgweb/demos/demo1.htm

這是The Mouton Interactive Introduction to Phonetics and Phonology多媒體光碟的官方網站。在這個網站中,放有三個多媒體光碟的DEMO。第一個DEMO對想要好好練習IPA中音標卻又不知如何去發這個音的同學有很大的助益,因為它有一張圖在描述當我們發音時,我們的發音器官大概是如何活動的。

http://www.bsos.umd.edu/hesp/newman/Newman_classes/Newman604/604.html

這個網頁是有關於其他有開聲學語音學教授的上課大綱,可以讓我們了解聲學語音學的基本概念及框架,需注意此上課大綱為pdf檔案格式,需用Adobe Acrobat Reader來閱讀。

http://www.phys.unsw.edu.au/speech/

這個網站主要是以物理學的觀點來解釋人類的發音機制,除此之外還提供許多樂器發音原理及機制.

http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_reading.html

這個網站主要提供了聲波圖(waveforms)及聲譜圖(spectrograms)的判讀方法,此外還提供英語音素(phoneme)在聲學上與語音上的描述及其對應的聲波圖及聲譜圖.

http://www.helsinki.fi/hum/hyfl/Finnish_Phonetics/vokaaliakustiikka_eng.html

The university of Helsinki the department of phonetics圖示由母音從front到back的順序來安排的,圖中F2的frequency一直再下降 除了/Q/ 因為前母音/y:/和/φ/ 是rounded的,所以f2會下降二圖 心理聲學的共震峰(芬蘭主要重要單母音的圖),由此圖可看出短母音稍較長母音靠近中央,/u/最明顯,中母音在close vowels和open vowels的中間處,此暗示了長母音half-closed symbols,短母音是half-open symbol
中間有個連結可和世界各地許多國家的母語的phone圖做比較
圖三 重音的短母音(圖上白色處)和重音的長母音(圖上藍色處)及沒重音的短母音(圖上紅色處)做比較,我們可發現沒重音的短母音(圖上紅色處)比重音的短母音(圖上白色處)更靠近中間的位置,而重音的短母音(圖上白色處)又比重音的長母音(圖上藍色處)更靠近中間的位置,這種現象是由(reduction) weakening vowel’s quality減輕母音的性質而造成的。
我會推薦這個網站是因為這個網站有許多各個國家phone圖位置的比較,可以讓我們觀察各語言之間的差異性,這個網頁用圖詳細說明芬蘭語母音的比較後,我可以清楚的發現圖三的現象。

http://www.unizh.ch/neurol/psychologie/associates/maurer/vowels/index.htm

一個介紹acoustics of vowels 的網站並對傳統聲紋圖的解讀方法提出質疑

http://asa.aip.org

Acoustical Society of America, 有最新的資料和出版品 在listen to sounds 裡還有一些有趣的聲音

資料來源:
http://www.ling.fju.edu.tw/phonetic/acoustic.htm

發音語音學

發音語音學

維基百科,自由的百科全書

發音語音學 是語音學的分支。研究發音語音學的語音學家希望能翔實記載人類發出語音的過程,以瞭解發音孔道中各個器官(稱為發音器官,包括舌頭、嘴唇、牙齒、下顎、硬顎、軟顎)是如何協調運作以發出某個語音。

為了瞭解語音產生的過程,通常必須使用實驗方法,因此本學門也常被歸類為實驗語言學的一支。例如,為了要瞭解在產生某個語音時,舌頭與硬顎碰觸的範圍為何,實驗者會採取電子硬顎圖(electropalatography, EPG)的方式來測量。電子硬顎圖的實驗過程是,在受測者口中裝上特製的人工假顎,假顎上裝置了許多電極。當受測者發出某個特定語音時,這些電極就可以偵測到所需的資訊,包括假顎有哪些部位與舌頭接觸以及這些接觸點在時間維度上的變化等。

參見
發音方法
發音位置
韻母(母音)
聲母(子音)
國際音標

取自"http://zh.wikipedia.org/zh-tw/%E7%99%BC%E9%9F%B3%E8%AA%9E%E9%9F%B3%E5%AD%B8"

語音學

語音學

維基百科,自由的百科全書

語音學是研究言語聲音(即語音)的學科。狹義的語音學對應英語中phonetics一詞,關切的重點在具體語音本質以及產生語音的方法,與之相對的是音韻學(或稱音系學),研究音位或語音區別特徵在某種語言中運作的抽象規則和語音的系統。廣義的語音學是指這兩大方面研究的總合。本文介紹的是狹義的語音學。

語音是語音學研究的客體,指的是人類說話時發出的具體聲音,即言語的聲音。

語音學的研究範疇包括以下三類:

1.發音語音學(articulatory phonetics): 這個分科研究的是發音器官(如唇、齒、舌、聲門等)如何彼此協調動作,以發出語音。
2.聲學語音學(acoustic phonetics): 這個分科研究的是語音的物理現象,如聲波的頻率、時長、振幅等。
3.聽覺語音學(auditory phonetics): 這個分科研究的是語音的感知歷程。

國際語音學學會所制訂的國際音標是語言學界廣泛用來標註語音的音標方案。

資料來源:http://zh.wikipedia.org/zh-tw/%E8%AA%9E%E9%9F%B3%E5%AD%B8

台灣中文語音合成軟體 為失聲漸凍人發聲

台灣中文語音合成軟體 為失聲漸凍人發聲

【大紀元6月20日報導】(中央社記者陳清芳台北二十日電)「時間簡史」的作者史蒂芬.霍金是個漸凍人,靠著眼睛操作電腦,他病而不廢,是個傑出的科學家;如今,台灣也開發出合用的電腦軟體,讓電腦能寫還能說中文,為失去行動及說話能力的漸凍人,用眼睛開一扇溝通的窗。
漸凍人劉延鑫在發病前,是電腦工程師,他發病三年多時間,從活動自如的正常人,變成四肢漸漸不能動、呼吸困難、口齒不清的病人。

他知道霍金的故事,於是在手指還能勉強操作電腦的時候,積極尋找建立的眼控軟體,美國有家公司發展出語音合成功能的眼控電腦系統;可惜,這個系統只能讓電腦說英文,劉延鑫不能靠它和家人說話。

這個時候,台灣科技大學古鴻炎教授開發了一個能同時處理中英文的語音合成軟體,劉延鑫也對電腦軟體、硬體都通;就這樣,劉延鑫在古鴻炎、逢甲大學自動控制學系林宸生教授、台灣師範大學特教系李天佑教授等的協助下,合用的中文軟體誕生了。

劉延鑫的哥哥劉延鉅說,劉延鑫雖然身體不好,腦筋卻很好,每天梳洗完畢,就開始操作電腦,一開始還能按鍵盤,兩年前,手腳不能動,呼吸吞嚥困難,原本拒絕氣管切開,因為氣切後就不能講話,最後終究是要氣切才能呼吸,他使用的電腦輔具一再升級,才能跟上病情惡化的腳步。

現在的劉延鑫可以透過眼皮的眨動、瞳孔的移動來操作電腦,讓電腦替他發聲,這個過程是他花一年多的時間,親自調整語音合成軟體的音調抑揚頓挫、速度快慢緩急,才發展出最接近人聲的合成聲音。

這套軟體是微軟視窗的WORD作業系統下,可以用注音等不同的中文輸入方式,讓手部無法操作電腦,又沒有辦法發聲的多重障礙者使用,由國人自行開發,目前硬體仍為單一來源,因此對今天能夠降低成本的空間有限。

被問到劉家到底投下多少時間、金錢才擁有漸凍人的電腦輔具,劉延鑫搖著頭說,實在算不清,也因為如此,劉延鑫和漸凍人協會發起「為漸凍人開一扇窗」行動,要募款幫漸涷人添購及教導使用電腦輔具。如果社會大眾了解漸凍人的世界,也想為「漸凍人開一扇窗」計畫出錢出力,可洽中華民國運動神經元疾病(漸凍人)病友協會,電話:(0二)二八二0一三五七,二八二0三八三九。

6/20/2004 4:40:15 PM

資料來源:http://www.epochtimes.com/b5/4/6/20/n573963.htm

語音合成(二)

簡介
•語音合成又名文句轉語音(Text-To-Speech,TTS),是指將輸入的文字或儲存於電腦中的文件模擬人聲發出語音的技術。
•語音合成較語音辨識的發展早了許多,但應用層面大多仍在閱讀電腦螢幕上的文章,語音指引,互動回饋,或輔助說明。

語音合成的作法
•頻譜參數合成方法(Articulatory Synthesis):
如Holmes的並聯共振峰合成器(1973)和Klatt的串/並聯共振峰(Formant)(1980)合成、基於LPC等聲學參數的合成系統,但要合成出清晰的語音需要準確的設定參數,使用困難,且合成出的語音仍不夠自然。
•波形拼接法(Formant Synthesis):
如基頻同步累加法(PSOLA)(1990)在語音波形上做時域(time domain)的韻律修正來合成語音,就可以產生出具有韻律的合成語音。 PSOLA的設計重點,在改良頻域(frequency domain)耗時,以及在時域(time domain)接合效果太差的情形,其合成的語音在音色與自然度都大大的提升,且架構較簡單,容易實作。

對於 TTS 系統而言,無論接受的是一段文字的輸入或是一篇文章,這些文字本身並沒有包含任何聲學特性 ( 說話的聲調,停頓方式,發音長短等韻律 ) ,只有語言學的特性,所以必須透過自動預測的機制來產生這些文字的可能的聲學特性 (acustic feature) 而所謂自動預測的機制,一般有 rule-based 跟 knowledge-based 兩種方法,但是這兩種方法不但合成的聲音平淡又缺乏吸引力且遇到連續發音或要保留語者音色時表現都不好, 因此近來串接合成法大行其道。

•串接合成法(Concatenated Synthesis):
以一個錄好聲音的語料庫來當作比對的標的,從語料庫中抓出相對應的聲音單元,一些在 rule-based 與 knowledge-based 方法下需要做細節的聲韻調整也因此減少了許多,如此簡化了計算拼接與口音等複雜的計算,也特別適合在少量字彙的輸出時使用。

語音合成的困難點
1.發音的自然度(清晰、流暢)。
2.破音字的處理。
3.即時處理的能力。

語音相關應用
1.語音合成(Speech Synthesize):運用資訊科技使電腦或電子設備模擬人聲。
2.語音辨識(Speech Recognition):讓電腦聽得懂人類說話的聲音。
1.語者相關(Speaker Dependent):不要求語者發音準確,需先經過訓練。
2.非語者相關(Speaker Independent):語者發音需較正確,且無須訓練。
3.語者識別(Speaker Identification):辨識說話者的身份

語音學(phonetics)
•在研究語音之前我們先來看看 聲音/音色(timbre)的要素:

1.頻率(frequency)
頻率是以時間為基準,振動快則頻率高,音調較為高,其衡量單位為赫茲(Hertz,Hz),一次振動是指波形從中軸往上伸延至波峰,往下跨中軸至波谷再返回中軸,稱為一個週期;頻率越高,音頻(pitch)就越高,人類耳朵可聽到的音頻範圍是20Hz至20kHz。頻率是聲波每秒振動的次數,一千赫茲(1000Hz,或稱KHz)就等於每秒鐘振動一千次,也就是每秒鐘產生一千個音波。

2.振幅(amplitude)/響度(loudness)
振幅是指音波的[振動幅度],亦可稱為[力度],影響所及是聲音波形的高低,音波的振幅愈大,則響度愈大,其衡量基準是以振幅的大小為準,以volt或dB(分貝decibe)來衡量.DB的尺度是呈指數增長的,每隔20分貝,其響度或振幅則增加10倍,例如:40分貝比20分貝的響度,提高了10倍,而60分貝則比20分貝提高了一百倍,80分貝提高一千倍之多。

•Digital Audio數位音效
音波由類比型態轉為數位型態,儲存格式方面,PC平台最常用的是WAV格式,Mac平台最常用的是AIFF格式。

•瞭解了聲音的背景之後,讓我們來解析語言的結構,語言架構大致可區分如下:
◦語言的結構[語音學(phonetics)]
1.句子(sentence)
「我是一個講國語的台灣人,雖然我的祖先來自福建,但我的台灣話說得並不流暢。」
2.子句(clause)
「我是一個講國語的台灣人」
3.詞組(phrase)
4.語詞(word)
「台灣人」
5.詞素(morpheme)
「台灣人」
6.音節(syllable)
「台」,「灣」,「人」即一般所說的字音,是聽覺上最容易分辨出來的語音單位。一般來說,一個漢字就是一個音節。漢語的音節一般是由聲母、韻母和聲調構成的;不過,有時也可以沒有聲母,只由韻母和聲調組合而成,稱之為「零聲母」。
7.音素(phoneme)
「人」是由三個音素/r/,/e/,/n/ 所形成,是最小的語音單位。
◦瞭解語言的架構可以幫助我們分析要如何發音,接下來讓我們來瞭解發音的2大要素:
1.元音/母音(vowel)
發音時,氣流會振動聲帶,在經過咽頭、口腔、鼻腔等地方時,氣流幾乎暢通無阻。由於聲帶顫動,所以聲音響亮。
2.輔音/子音(consonant)
發音時,氣流在咽頭、口腔、鼻腔等部位會受到阻礙。由於聲帶不一定顫動,所以聲音大多不響亮。
◦瞭解了發音要素後,重要的是如何讀出聲音來,我們稱之為拼音,這是會隨著國家與地區性而有所不同,我們常用的注音稱之為國音一式,通用拼音與漢語拼音還未確定誰是國音二式,而使用多年方便外國人發音的稱之為羅馬拼音(比較表),以下介紹國音的拼音的3大要素:
1.聲母(initial)=前音=子音=輔音(consonant)
發出的聲音會遭受阻礙,聲母有辨義的作用如ㄍ與ㄎ:幹什麼與看什麼,ㄋ與ㄌ:惱怒與老路
指放在音節開頭的輔音。由於聲母是由輔音充當,因此發音並不響亮,國語的聲母有21個,按發音部位分為七組。 1. 雙唇音Bilabials b(ㄅ) p(ㄆ) m(ㄇ)  
2. 唇齒音Labiodental f(ㄈ)      
3. 舌尖音Apicals d(ㄉ) t(ㄊ) n(ㄋ) l(ㄌ)
4. 舌根音Velars g(ㄍ) k(ㄎ) h(ㄏ)  
5. 舌面音Front Palatals j(ㄐ) q(ㄑ) x(ㄒ)  
6. 舌尖後音(翹舌音)Retroflexes zh(ㄓ) ch(ㄔ) sh(ㄕ) r(ㄖ)
7. 舌尖前音(平舌音)Blade-alveolars z(ㄗ) c(ㄘ) s(ㄙ)  

2.韻母(final)=後音=母音=主音=元音(vowel)
與口腔的開合有關,如ㄧ => ㄝ => ㄚ
是音節中聲母以後的部分,可以由元音 and/or 輔音充當,而且發音響亮。 1. 半元(母)音semi-vowels (y)i(ㄧ) (w)u(ㄨ) (y)u(ㄩ)  
2. 單韻母Simple Vowels a(ㄚ) o(ㄛ) e(ㄜ) ie(ㄝ)
3. 複韻母Diphthongs ai(ㄞ) ei(ㄟ)  ao(ㄠ) ou(ㄡ)
4. 鼻韻母Finals with nasal endings an(ㄢ) en(ㄣ) ang(ㄤ) eng(ㄥ)
5. 捲舌韻母Retroflex er(ㄦ)      

3.聲調(tone)
指字音的高低升降變化、國語語音高低升降、具有區別詞義作用的有規則變化就是聲調。聲正確與否是語音準確的關鍵。舉例說:國語依基頻軌跡(pitch contour)分一聲(陰平)、二聲(陽平)、三聲(上聲)和四聲(去聲)。
◦國語的音節數
依照聲,韻,調的結構,可能的音節組合有22*39*5=4290種,但國語有嚴格的聲韻組合規則,例如聲母的ㄐ,ㄑ,ㄒ後面只能是以ㄧ,ㄩ的韻母,當韻母是ㄩ時只有ㄐ,ㄑ,ㄒ,ㄋ,ㄌ的聲母,因此實際可用的國語音節約1300多個,若不考慮聲調的話只有411個。
◦拼音的組成
聲母在前,韻母在後
聲母輕短,韻母響亮
◦拼法口訣
前音輕短後音重,兩音相連猛一碰!

語音品質的評量
對於語音品質的評量,多年來人們提出了許多方法,歸納起來大致可分為兩類,即客觀評定方法和主觀評定方法。

   客觀評定方法用客觀測量的手段來評價語音編碼的質量,常用的方法有信噪比、加權信噪比、平均分段信噪比等。它們都是建立在度量均方誤差的基礎上,其特點是計算簡單,但不能完全反映人對語音質量的感覺。這個問題對於速率為16Kbit/s以下的中、低速率語音編碼尤為突出,因此主要適用於速率較高的波形編碼類型。

   主觀評定方法符合人類聽話時對語音質量的感覺,因而目前得到廣泛應用。最主要的主觀評定方法是主觀評定等級(Subjective Opinion Scale),或稱平均評定得分(Mean Opinion Score,縮寫MOS)。MOS得分採用五級評分標準,其方法是,由數十名試聽者在相同信道環境中試聽並給予評分,然後對評分進行統計處理,求出平均得分。由於主觀和客觀上的種種原因,每次試聽所得的評分會有波動。為了減小波動的誤差,除了試聽者人數要足夠多之外,所測語音材料也要足夠豐富,試聽環境也應儘量保持相同。

在這裡要特別需要說明的是,試聽者對語音質量的主觀感覺往往是和其注意力集中程度相聯繫的,因而,對應於主觀評定等級,還有一個收聽注意力等級 (Listening Effect Scale)。下表給出主觀評定等級的質量等級、分數和相應的收聽注意力等級。

主觀評定等級表 質量等級 分數 收聽注意力等級
優 5 可完全放鬆,不需要注意力
良 4 需要注意,但不需明顯集中注意力
滿意(正常) 3 中等程度的注意力
差 2 需要集中注意力
劣 1 即使努力去聽,也很難聽懂

   從用戶角度看,通常認為MOS分4.0~4.5分為高質量語音編碼,達到長途電話網的質量要求。MOS分3.5分左右稱作通信質量,這時聽者能感覺到語 音質量有所下降,但不影響正常的通話,可以滿足多數通信系統使用要求。MOS分3.0分以下常稱為合成語音質量,這種語音一般只有足夠高的可懂度,但是自 然度較差,不容易識別講話者。

   語音編碼技術標準的制定,對數位語音技術的實用化和發展起到了推動作用。

參考資料:http://159.226.2.5:89/gate/big5/www.kepu.net.cn/gb/technology/telecom/wireless/wrl216.html

語音相關專用術語
•articulatory phonetics:發音語音學(人類聲道與嘴型閉合等所發出聲音)
•acoustic phonetics:聲學語音學(聲音的物理性質)
•auditory phonetics:聽覺語音學(聽到不同語音的反應)
•phonetics:語音學
•phonology:音韻學
•phonemics:音位學
•phonetic transcription:標音
•articulation:發音
•syllables:音節
•suprasegmental features:附加音素
•allophones: 變音
•prosodic:聲韻學的(韻律學的)
•phonetic:語音學的
•phonologic:語音體系的
•phonetically:語音方面地
•semantic:語義學的
•phoneme:音素
•vocal track:聲道
•speech organs:發音器官
•acoustic:聽覺的
•consonant:子音
•co articulation:連音
•duration:音長
•intonation:語調,聲調
•juncture:連音
•verbal:口頭上的
•vowel:母音
•nasal:鼻音
•pitch:音高,指的是聲音在心理印象上的強或弱。音高常用作頻率的同義字
•utterance:言辭
•lexicon:辭典
•LPC(Linear Predict Coding):線性預估編碼,通常被當成語音訊號的特徵值
•HMM(隱藏式馬可夫模型法):在國語的TTS系統中,其文句分析必須抽取語言參數並把文字串轉換為音節串,但中文文句並沒有明顯的詞邊界,會因斷詞點不同而有不同的語意,故以n階的HMM來做語言參數的抽取。
•EGG(Electro-GlottoGraph):
•IVR(Interactive Voice Response):互動式語音回覆
•wavelength:波長,指的是在波形中,兩個連續高峰週期間的距離又稱為「樂段」(period)

聲音的格式類型
1..wav : (WAVE)Microsoft作業系統的聲音檔案格式
2..aif : (Audio Interchange File Format,AIFF)Apple發展的格式,適用於Mac與SGI
3..au : (u-law)Unix作業系統的聲音檔案格式
4.AIFC : Unix作業系統的聲音檔案格式 Audio Interchange Format Compressed
5..mp3 : MPEG Audio Layer-3 的聲音壓縮格式

免費的語音分析軟體WaveSurfer
WaveSurfer is an Open Source tool for sound visualization and manipulation. It has been designed to suit both novice and advanced users. WaveSurfer has a simple and logical user interface that provides functionality in an intuitive way and which can be adapted to different tasks. It can be used as a stand-alone tool for a wide range of tasks in speech research and education. Typical applications are speech/sound analysis and sound annotation/transcription. WaveSurfer can also serve as a platform for more advanced/specialized applications. This is accomplished either through extending the WaveSurfer application with new custom plug-ins or by embedding WaveSurfer visualization components in other applications.
Speech Filing System
SFS 4/Windows is a free computing environment for PCs for conducting research into the nature of speech. It comprises software tools, file and data formats, subroutine libraries, graphics, special programming languages and tutorial documentation. It performs standard operations such as acquisition, replay, display and labelling, spectrographic and formant analysis and fundamental frequency estimation. It comes with a large body of ready made tools for signal processing, synthesis and recognition, as well as support for your own software development.
more....

未整理資料
連續 vs. 不連續語音輸入
語音辨識技術在個人電腦上可分成語音操控及語音輸入。語音操控是用語音指令來操作電腦, 而語音輸入則是用來輸入文字。而早期的語音輸入是所謂「不連續」(discrete 或 discontinuous) 的, 也就是說, 在字與字之間是需要有短暫暫停的。而隨著個人電腦硬體性能的不斷提昇、價格的不斷下滑, 以及語音辨識技術的不斷精進, 從 1997 年下半年起, 電腦語音輸入正式進入到「連續」 (continuous) 輸入時期。

相對於不連續語音輸入, 連續語音輸入在字與字之間是不需要暫停的, 使用者可以將整個句子一氣呵成地念完。以英文的語音辨識產品來說, 最大的兩家廠商為 IBM 及 Dragon。而 IBM 公司挾著其龐大的研發及行銷資源, 也不斷開發其它國家的語言版本, 中文就是 IBM ViaVoice 產品的第八種支援語言。

國內技術發展現況
我國的語音辨識產品開發以本國語言-中文(國語)為主。國內業界以台康公司首先於1991年推出語音辨識產品「捷通」語音輸入系統,包括中文語音聽寫、中文語音指令、中文語音合成等功能。倚 天公司亦於1994年發表「話匣子」語音辨識產品。兩者均屬特定人、單字音辨識的產品,辨識率不如理想。不如理想。此外,國科會 的產學合作計畫亦有多家廠商參與,台大/中研院的「金聲」系列 國語聽寫機參與廠商有倚天、明碁,成大的「音中仙」中文詞輸入系統有台康、技電、旺宏等。華隆微電子亦曾推出小詞彙(20-40詞) 語音辨識晶片(型號:HM2007)。 1995年11月蘋果電腦宣布其「中文聽寫工具」,屬特定人、單詞辨識的產品;宏碁於1995年九月推出 的「渴望」多媒體家用電腦也搭配不特定人、小詞彙的英文語音指令控制功能。最近許多廠商對中文語音電腦及語音辨識晶片的開發 均表示高度興趣。以生命期而言,語音辨識產品尚處於萌芽起步階 段,市場成長率高。 語音辨識技術的發展,在歐美等先進國家由來已久,我國在這項 技術的發展,早期以學術界為主,始於台大的國語聽寫機(1983年 )研究計畫,清大、交大、成大等亦均投入研究多年。交通部電信 研究所亦有偏重電信應用的語音辨識技術研發。經濟部科技專案亦 於1991年起支持工研院電通所投入中文語音辨識技術的研發,在基礎技術及實驗環境建立之後,於1992年七月起於「前瞻性資訊技術 研究計畫」成立一子計畫,1993年完成中文語言模型設定及硬體系 統功能設計, 1994年完成在工作站之一特定人、大詞彙、單字音之國語聽寫機雛型系統整合,1995年完成以分段機率模型開發之不特 定人、中詞彙、單字音組詞辨識技術,1995年12月資訊展展出”PC 版非特定語者中文語音辨識系統”,為不特定人、中詞彙、連音詞 辨識技術(系統流程如圖一),正繼續研發語者調適、噪聲模型、麥 克風調適、標準應用程式介面、進一步提高辨識率等技術,使該技 術可以實用化、商品化,由「能用」逐漸走向「好用」、「到處可用」、和「隨時可用」的境界。另一方面,工研院電通所也同時投 入特定人、小詞彙語音辨識晶片的開發,主要為協助半導體廠商進 入消費性電子所需的語音辨識晶片領域。此外,也將開始語音合成及壓縮技術的發展

國外相關研究研究
單位 產品
AT&T Bell Labs Bell Labs TTS
BT Labs Laureate
Entropic Truetalk
Microsoft Research Whistler
Lernout & Hauspie TTS3000/M
Lucent Next Generation Speech
CSTR University of Edinburgh Festival
ETI-Eloquence ETI-Eloquence
Lernout & Hauspie Realspeak
Elan informatique Elan Speech Engine
香港中文大學人機通訊實驗室 CU VOCAL 「悠揚」語音合成系統

國內相關研究研究
單位 簡介
台大李琳山教授
相關資料 金聲一號二號三號等聽寫系統、文字轉語音系統、對話系統、語音為基礎之資訊檢索系統等。
主從式架構、網路之語音介面、隨網路資源調適之詞典和語言模型、網路語料處理、無線環境下之分散式語音處理等。

清大王小川教授 連續三年的國科會計畫「國語語音資料庫之設計與建立(MAT計畫)」(1995-1998),完成約7000人之電話語音資料收集,這是國內首次大規模的語音收集,目的在建立一個研究環境,提供國內語音處理技術研發工作者一套語音資料庫。其中資料檔之編輯程式(取名為Veditor3.0)已登記著作權。部分語音資料陸絨委託中華民國計算語言學學會發行,MAT-160、MAT-400、MAT-2400已提供學校及研究單位使用,其中MAT-2400則由國科會辦理技術移轉。
成大王駿發教授 用於根據一倒頻譜係數運算式來處理線性預測係數之以線性預測係數為基礎的倒頻譜係數產生器
語音編解碼方法及語音編解碼器
交大陳信宏教授 使用韻律訊息之類神經網路國語連續語音辨認
不特定語者國語連續音節辨認技術之探討
適合視障者使用之電腦界面技術與系統設計-子計畫二:盲用電腦之國語單詞輸入及語音輸出系統之發展
中研院許聞廉教授 中文同音字的自動辨認;中文字轉音以及語音合成系統;語音辨認的後處理(音轉字以及容錯系統);OCR、OLCR的後處理系統;各類自形輸入法同碼字的
自動選取系統;中文句型剖析(PARSING)以及斷詞系統等。
台大陳信希教授 1. 剖析系統
2. 線上即時英文翻中文服務系統
3. 臺灣本土語言互譯及語音合成系統
4. 中文斷詞及人名、組織名辨識系統
5. 多文件新聞自動摘要系統
台科大古鴻炎教授 增進參數獨立控制之彈性、並可產生豐富音色之國語音節信號合成方法
可作動態音色變換之 國語 語音合成 軟體"
客家語(Hakka)語音信號合成
整合動態詞典與馬可夫中文語言模型之方法
長庚呂仁園教授 「國台雙語語音辨認自動掛號系統」以及「台語文字轉語音(語音合成)系統」
台灣地區多語語音資料庫之建立
語音電話掛號總機

語音相關的中文書籍
1.楊鎮光,"Visual Basic與語音辨識-讓電腦聽話",松崗,2002。
2.林寰生,"數位信號-影像與語音處理",全華,1999。
3.謝秀琴,"數位語音訊號基本原理",全華,1996。
4.劉振源,"類神經網路模型與語音識別",全華,1995。
5.王仁華,"人機語音通信",聯經,1995。
6.許志興,"聲霸卡之應用與語音辨識",旗標,1994。(朝陽圖書館有藏書)
7.陳明瑩,"PC電腦語音辨認實做",旗標,1994。(朝陽圖書館有藏書)
8.黃嘉華,"聲音與多媒體PC",全華,1994。(朝陽圖書館有藏書)
9.許雍,"微電腦應用-語音處理",全華,1993。(朝陽圖書館有藏書,偏IC設計,探討midi較多,資工資科電子背景較適合)
10.吳明哲;黃世陽,"VB4.0動畫與語音技巧秘笈-使用物件導向程式設計",松崗,?。

網路資源
1.語音研究應用軟體
2.注音符號簡介
3.Pin-yin
4.大陸的人機語音交互科研組(TTS)
5.語音合成技術的原理
6.大陸的語音合成相關網頁
7.Speech Synthesis & Analysis Software
8.中央研究院語言學研究所籌備處語音實驗室
9.音頻視訊格式介紹
10.吳志勇博士
11.陳永承 Evan Chen
12.Examples of Synthesized Speech
13.Speech Analysis Tutorial
14.Pitch Analysis

摘自: http://irw.ncut.edu.tw/peterju/speech.html

語音合成軟體

國立臺灣大學資訊工程學研究所自然語言處理實驗室

臺灣本土語言互譯及語音合成系統

國內是多語並存的社會,國語、台語、客語、原住民語是我們平常使用的語言,在不同語言文化的保存極為重視的時代,如何運用資訊技術處理本土語言是我們的責任。國立台灣大學資訊工程學系陳信希教授運用國科會計畫所開發出來的語言處理技術,設計一套本土語言互譯及語音合成系統,使用者以中文輸入,可以國語語音、台語語音及客語語音輸出,這對國內不同語言之學習及溝通有大的助益。
  
您在進入本土語言互譯及語音合成系統,輸入想要翻譯的中文詞或句子以後,可以勾選要聽聽國語、台語還是客語的說法,每一種語言又會有不同的選項。輸入並選擇完成後,按下「傳送」以後,系統就會用該語言的翻譯結果呈現在網頁上。翻譯結果的網頁上還有一個播放聲音的按鈕,按下去後就可以聽到這句話的發音,這是語音合成的結果。

http://nlg.csie.ntu.edu.tw/systems/TWLLMT/