Chih-Hao Tsai's Research Page >

2004-07-01
English | Traditional Chinese (BIG5)| Simplified Chinese (GB)

通用拼音與漢語拼音的相似性:在「音節」與「詞」層次上比較

蔡志浩 ()

高雄醫學大學

2000-10-16(最近更新:2004-07-01 日

相關研究:閱讀通用拼音的反應衝突問題:認知心理學的觀點

Copyright (c) 2000-2006 Chih-Hao Tsai. All rights reserved. Reproduction in whole or in part without permission is prohibited. External sites are not endorsed by Chih-Hao Tsai.

目次表

摘要

本研究在音節和詞的層次上計算通用拼音與漢語拼音的相似性。Type-based 與 token-based 的統計方式都被包含在內。研究發現在音節的層次,406 個音節 types 中的 19.47% 有不同的拼法,83,434,515 個音節 tokens 中的 27.49% 有不同的拼法。在詞的層次, 111,415 個詞的 types 中的 48.84% 有不同的拼法,51,119,108 個詞的 tokens 中有 38.27% 有不同的拼法。結果顯示漢語拼音和通用拼音並不如通用拼音的支持者所宣稱的相似。以拼音書寫華語,不管是漢語拼音或通用拼音,都是以「詞」為基礎的,因此兩個系統在「詞」的層次上的相似性,是一個非常好的相容性指標。很明顯地,並沒有理由認為漢語拼音與通用拼音是相容的。除非認為國際化完全不重要,否則通用拼音不應該被採納為台灣的國家標準。

[回目次表]

導論

漢語拼音,最廣為使用的華語拼音系統,早在 1958 年就被中國採為國家標準,並在 1982 成為國際標準( ISO 7098:1991,第二版)。 飛馬小間(繁體中文網頁)有漢語拼音的兩個層次的技術資料:一、標音系統(「漢語拼音方案」);二、書寫系統(「漢語拼音正詞法基本規則」)。除了台灣以外,幾乎所有的華語社群,都採用了漢語拼音。傳統上,台灣把漢語拼音和簡體字一律視為中國統治的政治象徵。因此我們不難理解為什麼長久以來台灣一直抗拒漢語拼音。

通用拼音,主要由余伯泉所研發,可以很貼切地描述成一個希望達到國際化的目標、卻不使用漢語拼音的嘗試。通用拼音修改自漢語拼音,和漢語拼音的差異大約是百分之十。大部分的改變是在聲母的符號:通用拼音裡把 q、x、zh 等符號都去除了。韻母符號也有一些改變,像是用 iou 取代 iu。很難打出來的 umlaut 也去除了。基本上余伯泉想要讓他的系統是對英語使用者友善的。如欲進一步了解華語拼音演進的歷史,請見 Republic of China Yearbook (Government Information Office, 2000)。此外,邱耀初與許鶴鐘的關於中文譯音爭議之相關意見(繁體中文網站)、積丹尼的 個人網站(繁體中文與英文網站)、以及薛意梅的 「自然拼音大家談」網站(繁體中文網站) 收集了通用拼音自 1997 年出現以來的許多新舊資料。請注意我未必同意他們的評論。我建議你在訪問他們的網站時,將資料與評論分開,自己做判斷。

即使通用拼音還在不斷修改,以致於很難找到一個穩定的版本,它仍然吸引了愈來愈多的目光。被宣傳成「與漢語拼音相容」,因此可以達成國際化的目標,而不需要「中國化」,通用拼音在直覺上讓人很喜歡。在 2000 年 10 月 7 日,甚至連教育部國語推行委員會都決定要建議採用通用拼音為國家標準。國語推行委員會已於 2000 年 11 月中,將通用拼音方案上網,請訪問國語會的網站

國語推行委員會的決議已經引發漢語拼音與通用拼音的支持者間的論戰。通用拼音的政治正確似乎吸引了較多的支持者。但是通用拼音據以宣稱可以國際化的假定-與漢語拼音相容-可能是有問題的。 曾志朗,教育部長與頗負盛名的認知科學家,專精華語的認知歷程,就對此表示關切。他提到在低層次的微小差異,會隨著層次升高而呈指數擴張。例如,黑猩猩與人類的 DNA 有 97% 的相似性。但是 3% 的小差異,卻造成兩個物種間的巨大差異(「中文譯音系統變不變?」,2000)。在投入思索中文拼音的問題整整三週後,在 2000 年 10 月 30 日的一場記者會上,曾志朗宣佈教育部將送交給行政院的中文拼音方案,將是以漢語拼音為主,而非通用拼音。但他也強調教育部在採用漢語拼音時,會參考通用拼音,作一些小幅度的修改。在此要強調的是,教育部的決定並不是最後的決定。最後的決定,任要由行政院來做出。

在標音符號的層次,已知有百分之十的差異。本研究在兩個較高的層次,比較通用拼音與漢語拼音的相似性。第一個是音節的層次。音節代表的是書寫單位。第二個是詞的層次,詞代表的是在以拼音拼寫華語時兩旁以空白隔開的基本語言單位。

[回目次表]

方法

材料

詞庫。詞、發音與詞頻採自 libtabe 的詞庫 (Hsiao, Hsieh, Tan, Tsai, & Yeh, 2000)。該詞庫由 138,612 個詞條組成。由於某些詞條並未附發音訊息,這些詞條就不用於分析。有些詞條有一個以上的發音,就只採用第一個。這樣整理後的詞庫,有 111,415 個詞。各個詞長的詞數統計請見表一。

表 1
不同詞長的詞數統計
長度 詞數
1 13,058
2 63,754
3 18,413
4 14,953
5 711
6 339
7 130
8 54
9 3

音節。本研究音節列表,採用 Wang (1998, p. 98) 所定義的 416 個基本音節。

注音、漢語拼音與通用拼音對照表。這張表是我所製作的 (Tsai, 2000b)。漢語拼音的資料來自 DeFrancis (1996) 的 ABC Chinese-English Dictionary。通用拼音的資料來自薛意梅 (2000) 的「 自然拼音大家談」網站。表格中並標記漢語拼音與通用拼音有差異的音節。因為通用拼音還在不斷演變,很難找到「穩定」的版本。我用薛意梅的網站為資料來源,因為它看起來比較新。我無法保證我的對照表是 100% 正確無誤的。萬一你發現錯誤,請讓我知道。(在製作本表一個月後,教育部國語推行委員會終於在 2000 年 11 月中在其網站上公佈了通用拼音方案的最後版本。我用這個最新的版本檢查過我的對照表,看起來原本的資料已經是最新的了。)

設計與程序

統計分析是針對音節與詞這兩個層次分開進行的。對每個音節或詞,兩種拼音的拼法是否相同先做紀錄。然後,針對每一個層次,計算兩種統計。第一個是基於個別的音節或詞的 types 而不考慮頻率,一般稱為 type-based 統計。第二個是以頻率加權後的統計,一般稱為 token-based 的統計。

[回目次表]

結果

音節層次

表 2
拼法不同的音節 types 的數量與百分比
拼法不同 總數 拼法不同的百分比
81 416 19.47
表 3
拼法不同的音節 tokens 的數量與百分比
拼法不同 總數 拼法不同的百分比
22,936,039 83,434,515 27.49

詞層次

表 4
拼法不同的詞 types 的數量與百分比
拼法不同 總數 拼法不同的百分比
54,411 111,415 48.84
表 5
拼法不同的詞 tokens 的數量與百分比
拼法不同 總數 拼法不同的百分比
19,562,049 51,119,108 38.27

[回目次表]

討論

由所得到的結果可以很明顯看出來,層次愈高,兩種拼音系統間的差異也愈大。而差異的擴大也的確是呈指數的程度,特別是在 type-based 的指標:從 10%(標音符號)到 19.47%(音節)到 48.84%(詞)。因此,本研究的結果清楚顯示,這兩種拼音系統並不如通用拼音的支持者所宣稱的相似。

Token-based 的指標,反映實際上一個人在閱讀或打字時會遇到的困難度。例如,假定有一本中文書,被轉寫成兩種拼音的版本。我們如果一個字一個字(其實是一個音節一個音節)去比較兩個版本的差異,我們算出來的百分比就會在 27.49% 左右。換句話說,每四個音節就有一個不同。如果我們一個詞一個詞去比較兩個版本的差異,我們算出來的百分比就會在 38.27% 左右。換句話說,每三個詞就有一個拼法不同。這再度顯示,沒有任何理由可以說兩種拼音系統「相似」。

或許有人會問,本研究得到的結果是否有代表性,特別是考量所用的詞庫品質。的確,libtabe 詞庫不是由計算語言學家製作的,它的詞頻資料也不是由仔細平衡過的語料庫計算得來。不過,我曾經利用一個學術用途的詞庫算過,得到的結果非常相似。我從學術用途詞庫計算所得的結果,並未在本文中報告。這是我在網上發表文章的習慣:如果我在真實的研究中發現一些大眾可能會覺得有趣的東西,我會改用非研究用途的資料來源,重覆一次,並張貼於網路上。(另一個很重要的原因是,學術層次的研究資源,通常對合法使用範圍限制較多,大部分只限學術用途,所以結果就不可能上網。)我的另一個網頁 Mandarin syllable frequency counts for Chinese characters (Tsai, 2000a) 是這種雙重模式的另一個實作例子。背後的哲學是「取之於網,用之於網」。也就是說,你從網上拿到好東西,對你有幫助。所以你把它們變得更好,再回饋到網路上。

你可能也會希望用別的詞庫驗證我的發現。我想提醒你的是,我不是那種故意用偏頗的資料來誤導讀者的人。如你所見,本研究是完全客觀、不偏頗的。我鼓勵你挑這個研究的毛病,也鼓勵你驗證我的發現。

最後,我想藉此機會澄清關於「拼音系統」的觀念;通用拼音的倡議者對此經常有誤解。華語的拼音系統,不管是漢語拼音或通用拼音,都不只是一種標音方案。它同時也是一個 書寫系統。它可以被視為中文書寫系統的「第二式」(第一式當然就是中文字)。「中文第二式」常被用於中文字不方便或不能夠使用的場合。當然我們很少看到整篇純粹的中文文章以拼音寫作,不過當遇到不熟悉中文字的讀者、或需要在非中文的文件中表達華語詞彙時,這個「中文第二式」就很常被使用。路牌拼音是很好的例子。書面語是要被閱讀的。在視覺層次上認詞,並不只是把字母轉換成語音,再把語音轉換成意義。閱讀是一種視覺活動,經常接觸的詞可以直接由視覺管道直接以較快的速度辨識而不需要經過語音的中介 (Rayner & Pollatsek, 1989)。如果一個華語詞彙在不同的文化和國家拼法都一樣,辨識它就很容易。反之,如果將近一半的華語詞彙在台灣的拼法都和其他地方不同,那只會造成混淆,不可能達到國際化的目標。畢竟,我們花在閱讀的時間比寫作多得多。「相容性」當然應該在閱讀的層次評估。以拼音書寫華語,不管是漢語拼音或通用拼音,都是以「詞」為基礎的,因此兩個系統在「詞」的層次上的相似性,是一個非常好的相容性指標。很明顯地,漢語拼音和通用拼音並不相容。(也請參閱 閱讀通用拼音的反應衝突問題:認知心理學的觀點,這是一個在微觀的層次,從認知與工程心理學的角度所做的相容性分析。)

通用拼音的倡議者認為,通用拼音可以達成國際化的目標,因為它和英文的發音規則相近。他們認為通用拼音對英語使用者比較友善。既然英語是最廣為使用的語言,他們就更進一步推論通用拼音可以直接和國際接軌而不需要經由中國(也就是使用漢語拼音)。如果對拼音系統有了正確的觀念,我們馬上可以發現這種推論的謬誤。他們的推論是基於「拼音系統只是一種標音方案」的假定,而這個假定是錯的。他們忽略了拼音系統作為一種書寫系統的角色。因此,不正確的假定導致不正確的結論。而「去中國化」的政治正確性,更進一步讓他們無法看到事實的真相。

[回目次表]

結論

漢語拼音和通用拼音的相似性,並不如通用拼音支持者所宣稱的高。事實上,不管是在書寫單位的層詞(字/音節)或在語言單位的層次(詞),它們都非常不相似。如果以這兩個系統在詞層次上的相似性做為一個相容性的指標,並沒有理由認為漢語拼音和通用拼音是相容的。再加上來自 閱讀通用拼音的反應衝突問題的證據,可以更明顯看出,關於通用拼音和漢語拼音相容性的問題已經解決了的說法,並不是事實。因此,除非認為國際化完全不重要,否則通用拼音不應該被採納為台灣的國家標準。

[回目次表]

參考文獻

DeFrancis, J. (1996). ABC Chinese-English dictionary. Honolulu, HI: University of Hawaii Press.

Government Information Office. (2000). The Republic of China yearbook [On-line]. Available http://www.gio.gov.tw/info/book2000/0content.htm

Hsiao, P.-H., Hsieh, T.-H., Tan, K.-S., Tsai, C.-H., & Yeh, W. (2000). Localization library for Taiwan and BIG5 encoding (libtabe) (Version 0.1-3) [Computer programming library]. Available http://sourceforge.net/projects/libtabe/

薛意梅。(2000)。自然拼音大家談 [On-line]. Available http://www.chinesewaytogo.org/waytogo/expert/pinyin/pinying.htm

Rayner, K., & Pollatsek, A. (1989). The psychology of reading. Englewood Cliffs, NJ: Prentice-Hall.

Tsai, C.-H. (2000a). Mandarin syllable frequency counts for Chinese characters [On-line]. Available http://technology.chtsai.org/syllable/

Tsai, C.-H. (2000b). Zhuyin, hanyu pinyin, and tongyong pinyin cross-reference table [On-line]. Available http://research.chtsai.org/papers/pinyin-xref.html

Wang, H.-M. (1998). Statistical analysis of Mandarin acoustic units and automatic extraction of phonetically rich sentences based upon a very large Chinese text corpus. Computational Linguistics & Chinese Language Processing, 3, 93-114.

中文譯音系統變不變?曾志朗:須評估代價有多高。(2000, October 14)。中國時報

[回目次表]

作者附註

我非常感謝余伯泉、邱耀初與積丹尼對於本文先前版本所提供的寶貴意見。

本文報告的研究是一個獨立的研究計劃,並未在財務上獲得任何機構或個人的贊助。事實上,不論由財務或時間來衡量,這都是一個低成本的研究。執行本研究的電腦,只是一部一般的個人電腦。計算各種統計數據的電腦程式,是用 DJGPP 來編譯的。DJGPP 是一套免費的(版權是 GNU GPL)、在 Intel 80386(或更高)的 MS-DOS/Windows PC 上使用的、完整的 32 位元 C/C++ 發展系統。對於熟悉 Unix 的人來說,沒錯,DJGPP 正是 gcc 在 PC 上的版本。本研究所使用的 libtabe 詞庫也是免費的。詞庫屬於 libtabe 計劃的一部分(我個人是計劃發展者之一)。Libtabe 的版權是 BSD,亦可免費取得。

寫作這篇報告時所使用的文書處理軟體是 StarOffice,它是一套可以自由取得、功能完整的整合性辦公室軟體。編輯這篇報告的 HTML 版本所使用的編輯器是 NoteTab Light,它是一個免費的文字編輯軟體。檢查 HTML 語法與重新編排 HTML 原始碼的軟體是可免費取得的 HTML tidy。編寫 cascading style sheets (CSS) 的軟體是 Cascade,亦可免費取得。網頁發表於 我的網站,位於 GeoCities,其網頁空間也是免費取得的。我用來和讀者通訊的免費電子郵件地址由 Yahoo!Mail 提供。最後,我使用了免費的撥接服務 AltaVista Free Access,來建立網際網路連線,以傳送 HTML 檔案至我的網站。因此,唯一可見的財務成本,就是打幾通市內電話的花費。

花費的時間部分。我花了四小時準備拼音的對照表及 C 程式。執行程式與收集程式的輸出只花了幾分鐘。寫作英文版的報告花了六小時,另外又花了兩小時將它編為 HTML 的檔案。此外,將英文版的文件翻譯成中文,又花了六小時。加上花在做各種交互檢查以確定每一個細節都正確的時間,從開始研究到完成寫作,總共花費的時間少於廿四小時。

[回目次表]

評論文章

蔡志浩。(2004 年 7 月 1 日)。 國王的拼音。網上發表。

蔡志浩。(2002 年 7 月 17 日)。 通用拼音的迷思台灣新聞報

蔡志浩。(2001 年 7 月 16 日)。 北京申奧成功 帶動漢語拼音中國時報

蔡志浩。(2000 年 11 月 29 日)。 台灣,低估了國際競爭激烈聯合報

蔡志浩。(2000 年 10 月 22 日)。 從閱讀的角度評估拼音系統。網上發表。

蔡志浩。(2000 年 10 月 18 日)。 通用、漢語拼音很難相容中國時報

蔡志浩。(2000 年 10 月 14 日)。 回顧歷史 還原真相。網上發表。

蔡志浩。(2000 年 10 月 12 日)。 回歸使用者。網上發表。

蔡志浩。(2000 年 10 月 12 日)。 尊重「誰的」專業?。網上發表。

蔡志浩。(2000 年 10 月 10 日)。 相似不等於相容。網上發表。

蔡志浩。(2000 年 10 月 10 日)。 哪一種拼音比較「準確」?。網上發表。

蔡志浩。(2000 年 10 月 10 日)。 通用拼音 國內國外都不適於推行中國時報

蔡志浩。(2000 年 10 月 8 日)。 通用拼音,核四命運?聯合報

蔡志浩。(2000 年 10 月 8 日)。 漢語拼音 符合國際化標準化中國時報

[回目次表]