Chih-Hao Tsai's Research Page >

2004-07-01
English | Traditional Chinese (BIG5) | Simplified Chinese (GB)

通用拼音与汉语拼音的相似性:在“音节”与“词”层次上比较

蔡志浩 ()

高雄医学大学

2000-10-16(最近更新:2004-07-01

相关研究:阅读通用拼音的反应冲突问题:认知心理学的观点

Copyright (c) 2000-2006 Chih-Hao Tsai. All rights reserved. Reproduction in whole or in part without permission is prohibited. External sites are not endorsed by Chih-Hao Tsai.

目次表

摘要

本研究在音节和词的层次上计算通用拼音与汉语拼音的相似性。Type-based 与 token-based 的统计方式都被包含在内。研究发现在音节的层次,406 个音节 types 中的 19.47% 有不同的拼法,83,434,515 个音节 tokens 中的 27.49% 有不同的拼法。在词的层次, 111,415 个词的 types 中的 48.84% 有不同的拼法,51,119,108 个词的 tokens 中有 38.27% 有不同的拼法。结果显示汉语拼音和通用拼音并不如通用拼音的支持者所宣称的相似。以拼音书写华语,不管是汉语拼音或通用拼音,都是以“词”为基础的,因此两个系统在“词”的层次上的相似性,是一个非常好的相容性指标。很明显地,并没有理由认为汉语拼音与通用拼音是相容的。除非认为国际化完全不重要,否则通用拼音不应该被采纳为台湾的国家标准。

[回目次表]

导论

汉语拼音,最广为使用的华语拼音系统,早在 1958 年就被中国采为国家标准,并在 1982 成为国际标准( ISO 7098:1991,第二版)。 飞马小间(繁体中文网页)有汉语拼音的两个层次的技术资料:一、标音系统(“汉语拼音方案”);二、书写系统(“汉语拼音正词法基本规则”)。除了台湾以外,几乎所有的华语社群,都采用了汉语拼音。传统上,台湾把汉语拼音和简体字一律视为中国统治的政治象征。因此我们不难理解为什么长久以来台湾一直抗拒汉语拼音。

通用拼音,主要由余伯泉所研发,可以很贴切地描述成一个希望达到国际化的目标、却不使用汉语拼音的尝试。通用拼音修改自汉语拼音,和汉语拼音的差异大约是百分之十。大部分的改变是在声母的符号:通用拼音里把 q、x、zh 等符号都去除了。韵母符号也有一些改变,像是用 iou 取代 iu。很难打出来的 umlaut 也去除了。基本上余伯泉想要让他的系统是对英语使用者友善的。如欲进一步了解华语拼音演进的历史,请见 Republic of China Yearbook (Government Information Office, 2000)。此外,邱耀初与许鹤钟的关于中文译音争议之相关意见(繁体中文网站)、积丹尼的 个人网站(繁体中文与英文网站)、以及薛意梅的 “自然拼音大家谈”网站(繁体中文网站) 收集了通用拼音自 1997 年出现以来的许多新旧资料。请注意我未必同意他们的评论。我建议你在访问他们的网站时,将资料与评论分开,自己做判断。

即使通用拼音还在不断修改,以致于很难找到一个稳定的版本,它仍然吸引了愈来愈多的目光。被宣传成“与汉语拼音相容”,因此可以达成国际化的目标,而不需要“中国化”,通用拼音在直觉上让人很喜欢。在 2000 年 10 月 7 日,甚至连教育部国语推行委员会都决定要建议采用通用拼音为国家标准。国语推行委员会已于 2000 年 11 月中,将通用拼音方案上网,请访问国语会的网站

国语推行委员会的决议已经引发汉语拼音与通用拼音的支持者间的论战。通用拼音的政治正确似乎吸引了较多的支持者。但是通用拼音据以宣称可以国际化的假定-与汉语拼音相容-可能是有问题的。 曾志朗,教育部长与颇负盛名的认知科学家,专精华语的认知历程,就对此表示关切。他提到在低层次的微小差异,会随着层次升高而呈指数扩张。例如,黑猩猩与人类的 DNA 有 97% 的相似性。但是 3% 的小差异,却造成两个物种间的巨大差异(“中文译音系统变不变?”,2000)。在投入思索中文拼音的问题整整三周后,在 2000 年 10 月 30 日的一场记者会上,曾志朗宣布教育部将送交给行政院的中文拼音方案,将是以汉语拼音为主,而非通用拼音。但他也强调教育部在采用汉语拼音时,会参考通用拼音,作一些小幅度的修改。在此要强调的是,教育部的决定并不是最后的决定。最后的决定,任要由行政院来做出。

在标音符号的层次,已知有百分之十的差异。本研究在两个较高的层次,比较通用拼音与汉语拼音的相似性。第一个是音节的层次。音节代表的是书写单位。第二个是词的层次,词代表的是在以拼音拼写华语时两旁以空白隔开的基本语言单位。

[回目次表]

方法

材料

词库。词、发音与词频采自 libtabe 的词库 (Hsiao, Hsieh, Tan, Tsai, & Yeh, 2000)。该词库由 138,612 个词条组成。由于某些词条并未附发音讯息,这些词条就不用于分析。有些词条有一个以上的发音,就只采用第一个。这样整理后的词库,有 111,415 个词。各个词长的词数统计请见表一。

表 1
不同词长的词数统计
长度 词数
1 13,058
2 63,754
3 18,413
4 14,953
5 711
6 339
7 130
8 54
9 3

音节。本研究音节列表,采用 Wang (1998, p. 98) 所定义的 416 个基本音节。

注音、汉语拼音与通用拼音对照表。这张表是我所制作的 (Tsai, 2000b)。汉语拼音的资料来自 DeFrancis (1996) 的 ABC Chinese-English Dictionary。通用拼音的资料来自薛意梅 (2000) 的“ 自然拼音大家谈”网站。表格中并标记汉语拼音与通用拼音有差异的音节。因为通用拼音还在不断演变,很难找到“稳定”的版本。我用薛意梅的网站为资料来源,因为它看起来比较新。我无法保证我的对照表是 100% 正确无误的。万一你发现错误,请让我知道。(在制作本表一个月后,教育部国语推行委员会终于在 2000 年 11 月中在其网站上公布了通用拼音方案的最后版本。我用这个最新的版本检查过我的对照表,看起来原本的资料已经是最新的了。)

设计与程序

统计分析是针对音节与词这两个层次分开进行的。对每个音节或词,两种拼音的拼法是否相同先做纪录。然后,针对每一个层次,计算两种统计。第一个是基于个别的音节或词的 types 而不考虑频率,一般称为 type-based 统计。第二个是以频率加权后的统计,一般称为 token-based 的统计。

[回目次表]

结果

音节层次

表 2
拼法不同的音节 types 的数量与百分比
拼法不同 总数 拼法不同的百分比
81 416 19.47
表 3
拼法不同的音节 tokens 的数量与百分比
拼法不同 总数 拼法不同的百分比
22,936,039 83,434,515 27.49

词层次

表 4
拼法不同的词 types 的数量与百分比
拼法不同 总数 拼法不同的百分比
54,411 111,415 48.84
表 5
拼法不同的词 tokens 的数量与百分比
拼法不同 总数 拼法不同的百分比
19,562,049 51,119,108 38.27

[回目次表]

讨论

由所得到的结果可以很明显看出来,层次愈高,两种拼音系统间的差异也愈大。而差异的扩大也的确是呈指数的程度,特别是在 type-based 的指标:从 10%(标音符号)到 19.47%(音节)到 48.84%(词)。因此,本研究的结果清楚显示,这两种拼音系统并不如通用拼音的支持者所宣称的相似。

Token-based 的指标,反映实际上一个人在阅读或打字时会遇到的困难度。例如,假定有一本中文书,被转写成两种拼音的版本。我们如果一个字一个字(其实是一个音节一个音节)去比较两个版本的差异,我们算出来的百分比就会在 27.49% 左右。换句话说,每四个音节就有一个不同。如果我们一个词一个词去比较两个版本的差异,我们算出来的百分比就会在 38.27% 左右。换句话说,每三个词就有一个拼法不同。这再度显示,没有任何理由可以说两种拼音系统“相似”。

或许有人会问,本研究得到的结果是否有代表性,特别是考量所用的词库品质。的确,libtabe 词库不是由计算语言学家制作的,它的词频资料也不是由仔细平衡过的语料库计算得来。不过,我曾经利用一个学术用途的词库算过,得到的结果非常相似。我从学术用途词库计算所得的结果,并未在本文中报告。这是我在网上发表文章的习惯:如果我在真实的研究中发现一些大众可能会觉得有趣的东西,我会改用非研究用途的资料来源,重覆一次,并张贴于网路上。(另一个很重要的原因是,学术层次的研究资源,通常对合法使用范围限制较多,大部分只限学术用途,所以结果就不可能上网。)我的另一个网页 Mandarin syllable frequency counts for Chinese characters (Tsai, 2000a) 是这种双重模式的另一个实作例子。背后的哲学是“取之于网,用之于网”。也就是说,你从网上拿到好东西,对你有帮助。所以你把它们变得更好,再回馈到网路上。

你可能也会希望用别的词库验证我的发现。我想提醒你的是,我不是那种故意用偏颇的资料来误导读者的人。如你所见,本研究是完全客观、不偏颇的。我鼓励你挑这个研究的毛病,也鼓励你验证我的发现。

最后,我想藉此机会澄清关于“拼音系统”的观念;通用拼音的倡议者对此经常有误解。华语的拼音系统,不管是汉语拼音或通用拼音,都不只是一种标音方案。它同时也是一个 书写系统。它可以被视为中文书写系统的“第二式”(第一式当然就是中文字)。“中文第二式”常被用于中文字不方便或不能够使用的场合。当然我们很少看到整篇纯粹的中文文章以拼音写作,不过当遇到不熟悉中文字的读者、或需要在非中文的文件中表达华语词汇时,这个“中文第二式”就很常被使用。路牌拼音是很好的例子。书面语是要被阅读的。在视觉层次上认词,并不只是把字母转换成语音,再把语音转换成意义。阅读是一种视觉活动,经常接触的词可以直接由视觉管道直接以较快的速度辨识而不需要经过语音的中介 (Rayner & Pollatsek, 1989)。如果一个华语词汇在不同的文化和国家拼法都一样,辨识它就很容易。反之,如果将近一半的华语词汇在台湾的拼法都和其他地方不同,那只会造成混淆,不可能达到国际化的目标。毕竟,我们花在阅读的时间比写作多得多。“相容性”当然应该在阅读的层次评估。以拼音书写华语,不管是汉语拼音或通用拼音,都是以“词”为基础的,因此两个系统在“词”的层次上的相似性,是一个非常好的相容性指标。很明显地,汉语拼音和通用拼音并不相容。(也请参阅 阅读通用拼音的反应冲突问题:认知心理学的观点,这是一个在微观的层次,从认知与工程心理学的角度所做的相容性分析。)

通用拼音的倡议者认为,通用拼音可以达成国际化的目标,因为它和英文的发音规则相近。他们认为通用拼音对英语使用者比较友善。既然英语是最广为使用的语言,他们就更进一步推论通用拼音可以直接和国际接轨而不需要经由中国(也就是使用汉语拼音)。如果对拼音系统有了正确的观念,我们马上可以发现这种推论的谬误。他们的推论是基于“拼音系统只是一种标音方案”的假定,而这个假定是错的。他们忽略了拼音系统作为一种书写系统的角色。因此,不正确的假定导致不正确的结论。而“去中国化”的政治正确性,更进一步让他们无法看到事实的真相。

[回目次表]

结论

汉语拼音和通用拼音的相似性,并不如通用拼音支持者所宣称的高。事实上,不管是在书写单位的层词(字/音节)或在语言单位的层次(词),它们都非常不相似。如果以这两个系统在词层次上的相似性做为一个相容性的指标,并没有理由认为汉语拼音和通用拼音是相容的。再加上来自 阅读通用拼音的反应冲突问题的证据,可以更明显看出,关于通用拼音和汉语拼音相容性的问题已经解决了的说法,并不是事实。因此,除非认为国际化完全不重要,否则通用拼音不应该被采纳为台湾的国家标准。

[回目次表]

参考文献

DeFrancis, J. (1996). ABC Chinese-English dictionary. Honolulu, HI: University of Hawaii Press.

Government Information Office. (2000). The Republic of China yearbook [On-line]. Available http://www.gio.gov.tw/info/book2000/0content.htm

Hsiao, P.-H., Hsieh, T.-H., Tan, K.-S., Tsai, C.-H., & Yeh, W. (2000). Localization library for Taiwan and BIG5 encoding (libtabe) (Version 0.1-3) [Computer programming library]. Available http://sourceforge.net/projects/libtabe/

薛意梅。(2000)。自然拼音大家谈 [On-line]. Available http://www.chinesewaytogo.org/waytogo/expert/pinyin/pinying.htm

Rayner, K., & Pollatsek, A. (1989). The psychology of reading. Englewood Cliffs, NJ: Prentice-Hall.

Tsai, C.-H. (2000a). Mandarin syllable frequency counts for Chinese characters [On-line]. Available http://technology.chtsai.org/syllable/

Tsai, C.-H. (2000b). Zhuyin, hanyu pinyin, and tongyong pinyin cross-reference table [On-line]. Available http://research.chtsai.org/papers/pinyin-xref.html

Wang, H.-M. (1998). Statistical analysis of Mandarin acoustic units and automatic extraction of phonetically rich sentences based upon a very large Chinese text corpus. Computational Linguistics & Chinese Language Processing, 3, 93-114.

中文译音系统变不变?曾志朗:须评估代价有多高。(2000, October 14)。中国时报

[回目次表]

作者附注

我非常感谢余伯泉、邱耀初与积丹尼对于本文先前版本所提供的宝贵意见。

本文报告的研究是一个独立的研究计划,并未在财务上获得任何机构或个人的赞助。事实上,不论由财务或时间来衡量,这都是一个低成本的研究。执行本研究的电脑,只是一部一般的个人电脑。计算各种统计数据的电脑程式,是用 DJGPP 来编译的。DJGPP 是一套免费的(版权是 GNU GPL)、在 Intel 80386(或更高)的 MS-DOS/Windows PC 上使用的、完整的 32 位元 C/C++ 发展系统。对于熟悉 Unix 的人来说,没错,DJGPP 正是 gcc 在 PC 上的版本。本研究所使用的 libtabe 词库也是免费的。词库属于 libtabe 计划的一部分(我个人是计划发展者之一)。Libtabe 的版权是 BSD,亦可免费取得。

写作这篇报告时所使用的文书处理软体是 StarOffice,它是一套可以自由取得、功能完整的整合性办公室软体。编辑这篇报告的 HTML 版本所使用的编辑器是 NoteTab Light,它是一个免费的文字编辑软体。检查 HTML 语法与重新编排 HTML 原始码的软体是可免费取得的 HTML tidy。编写 cascading style sheets (CSS) 的软体是 Cascade,亦可免费取得。网页发表于 我的网站,位于 GeoCities,其网页空间也是免费取得的。我用来和读者通讯的免费电子邮件地址由 Yahoo!Mail 提供。最后,我使用了免费的拨接服务 AltaVista Free Access,来建立网际网路连线,以传送 HTML 档案至我的网站。因此,唯一可见的财务成本,就是打几通市内电话的花费。

花费的时间部分。我花了四小时准备拼音的对照表及 C 程式。执行程式与收集程式的输出只花了几分钟。写作英文版的报告花了六小时,另外又花了两小时将它编为 HTML 的档案。此外,将英文版的文件翻译成中文,又花了六小时。加上花在做各种交互检查以确定每一个细节都正确的时间,从开始研究到完成写作,总共花费的时间少于廿四小时。

[回目次表]

评论文章

蔡志浩。(2004 年 7 月 1 日)。 国王的拼音。网上发表。

蔡志浩。(2002 年 7 月 17 日)。 通用拼音的迷思台湾新闻报

蔡志浩。(2001 年 7 月 16 日)。 北京申奥成功 带动汉语拼音中国时报

蔡志浩。(2000 年 11 月 29 日)。 台湾,低估了国际竞争激烈联合报

蔡志浩。(2000 年 10 月 22 日)。 从阅读的角度评估拼音系统。网上发表。

蔡志浩。(2000 年 10 月 18 日)。 通用、汉语拼音很难相容中国时报

蔡志浩。(2000 年 10 月 14 日)。 回顾历史 还原真相。网上发表。

蔡志浩。(2000 年 10 月 12 日)。 回归使用者。网上发表。

蔡志浩。(2000 年 10 月 12 日)。 尊重“谁的”专业?。网上发表。

蔡志浩。(2000 年 10 月 10 日)。 相似不等于相容。网上发表。

蔡志浩。(2000 年 10 月 10 日)。 哪一种拼音比较“准确”?。网上发表。

蔡志浩。(2000 年 10 月 10 日)。 通用拼音 国内国外都不适于推行中国时报

蔡志浩。(2000 年 10 月 8 日)。 通用拼音,核四命运?联合报

蔡志浩。(2000 年 10 月 8 日)。 汉语拼音 符合国际化标准化中国时报

[回目次表]