現代漢字屬性的研究
?作者簡(jiǎn)介:孔祥卿,女,1966年出生于河北辛集,文學(xué)博士,現為中國文字學(xué)會(huì )會(huì )員,中國民族語(yǔ)言學(xué)會(huì )會(huì )員,中國民族古文字研究會(huì )會(huì )員,南開(kāi)大學(xué)教授。
史建偉, 男, 1966年出生,河北省樂(lè )亭縣人。南開(kāi)大學(xué)漢語(yǔ)言文化學(xué)院副教授。
孫易,女,祖籍山東,1976年8月生于山西高平?,F為中國語(yǔ)言文學(xué)系副教授、中國民族古文字研究會(huì )會(huì )員。
一、字頻
文字是輔助性的交際工具,在交際過(guò)程中,有的字用得多一些,有的字用得少一些,呈現出一定的統計規律性。一個(gè)字在一定范圍的語(yǔ)料中出現的次數,稱(chēng)為字的頻度,即字頻。字頻統計對漢字研究和漢字應用都有重要意義。
漢字字頻的統計工作從20世紀20年代開(kāi)始,陳鶴琴的《語(yǔ)體文應用字匯》是最早的漢字字頻統計研究。書(shū)中使用頻度最高的前二十個(gè)字是:的、不、一、了、是、我、上、他、有、人、全、這、來(lái)、小、在、們、說(shuō)、子、可、道。開(kāi)始的統計是手工進(jìn)行,目的是為識字教學(xué),所用的語(yǔ)料范圍也較小。經(jīng)過(guò)80多年的發(fā)展,字頻研究取得了長(cháng)足的進(jìn)步,統計的目的從識字教學(xué)擴展到信息處理;所用的語(yǔ)料從幾十萬(wàn)字增加到兩千萬(wàn)字;統計的項目從單純的字頻發(fā)展到多種數據;所用的手段從手工發(fā)展到計算機。
1977年,新華印刷廠(chǎng)編成《漢字頻度表》,選用語(yǔ)料2160多萬(wàn)字,用手工統計,得到不同的字種數6374個(gè),按頻度由高到低排列成字表,共分《政治理論頻度表》、《新聞通訊頻度表》、《科學(xué)技術(shù)頻度表》、《文學(xué)藝術(shù)頻度表》、《綜合頻度表》五個(gè)表。每個(gè)表都分編號、單字、出現次數、累計數、累計數百分比五個(gè)欄目。這項研究成果成為《信息交換用漢字編碼字符集•基本集》的主要依據。后來(lái),1984年,貝貴琴、張學(xué)濤在原統計數據的基礎上,用計算機重新計算,編成《漢字頻度統計》,其中的《漢字頻度統計表》,把漢字分為五級,統計如下:
1979至1985年,北京語(yǔ)言學(xué)院編成《現代漢語(yǔ)頻率辭典》,這本辭典用人工和計算機相結合的方法,從詞語(yǔ)應用的角度進(jìn)行計量研究,同時(shí)兼顧漢字字頻和組詞能力的統計與分析。所用語(yǔ)料180萬(wàn)字。其中的《漢字頻度表》,共有字種4574個(gè),分級統計如下:
級別 序號 累計頻率%
Ⅰ 1~100 47.33584
Ⅱ 101~1000 91.36559
Ⅲ 1001~2418 99.00023
Ⅳ 2419~4574 100.00000
前十個(gè)高頻字依次是:的、一、了、是、不、我、在、有、人、這。
1981年,北京航空學(xué)院承擔了文字改革委員會(huì )和國家標準局下達的現代漢語(yǔ)字頻統計任務(wù),利用計算機進(jìn)行統計?!蹲畛S玫臐h字是哪些?——3000高頻度漢字表》(文字改革出版社,1986)就是這次統計的部分成果,全部成果匯編成《現代漢語(yǔ)字頻統計表》(語(yǔ)文出版社,1992)。統計的語(yǔ)料總字數為1108萬(wàn)字,得到字種7754個(gè)。統計得出13個(gè)字頻統計表:
1.社會(huì )科學(xué)•自然科學(xué)綜合漢字頻度表,收字1~7754
2.社會(huì )科學(xué)綜合漢字頻度表,收字1~7373
3.自然科學(xué)綜合漢字頻度表,收字1~6009
4.新聞報道類(lèi)漢字頻度表,收字1~4913
5.歷史哲學(xué)類(lèi)漢字頻度表,收字1~5402
6.文學(xué)藝術(shù)類(lèi)漢字頻度表,收字1~6501
7.政治經(jīng)濟類(lèi)漢字頻度表,收字1~4888
8.文體生活類(lèi)漢字頻度表,收字1~4210
9.基礎知識類(lèi)漢字頻度表,收字1~4426
10.農林牧副漁類(lèi)漢字頻度表,收字1~3688
11.重工業(yè)類(lèi)漢字頻度表,收字1~3619
12.輕工業(yè)類(lèi)漢字頻度表,收字1~4502
13.建筑運輸類(lèi)漢字頻度表,收字1~3010
由此看到,不同的學(xué)科用字的情況很不一致,統計選用語(yǔ)料的范圍非常重要,對統計的結果有很大影響。近些年,國內有很多家單位建起了大型語(yǔ)料庫,今后的統計工作必須有大型語(yǔ)料庫的支持,人工統計的時(shí)代已經(jīng)一去不復返了。
通過(guò)對字頻統計結果的分析,還得到了兩條規律:
1.漢字效用遞減率
1000常用字的覆蓋率已達90%以上,增加到3000字時(shí),覆蓋率已達99%以上,以后無(wú)論增加多少字,其增加的覆蓋率都只在1%。這個(gè)規律對于研制現代漢語(yǔ)常用字表和通用字表有指導意義。
2.常用字筆畫(huà)趨簡(jiǎn)率
根據統計結果,最常用的字,其平均筆畫(huà)較少,隨著(zhù)常用程度的降低,其平均筆畫(huà)數成比例地增加。王鳳陽(yáng)從漢字歷史也得出這樣的結論:應用頻率高的字一般地趨向簡(jiǎn)化。①這條規律對說(shuō)明漢字的發(fā)展演變,指導漢字的簡(jiǎn)化工作,有重要意義。
二、字量
漢字的字數有多少?是個(gè)很難回答的問(wèn)題。雖然各種字典中收的漢字已達幾萬(wàn)字,但那是歷代積累下來(lái)的,不是實(shí)際用字的量,而且其中有很多是異體、別體?,F代漢語(yǔ)的用字究竟有多少,這是漢字定量研究的大課題。早在20世紀50年代,周有光就提出研制《現代漢語(yǔ)用字全表》的問(wèn)題,可是《全表》只能解決定量的問(wèn)題,還需要定形、定音、定序,合稱(chēng)“四定”,目前,有關(guān)部門(mén)正在研制《規范漢字表》。在此之前,先研制出常用漢字和通用漢字。
1988年1月,國家語(yǔ)委和教委聯(lián)合發(fā)布《現代漢語(yǔ)常用字表》,共收常用字3500字,又分為一級常用字2500個(gè)和二級常用字1000個(gè)。經(jīng)過(guò)檢驗,一級常用字覆蓋率97.97%,二級常用字覆蓋率99.48%。
1988年3月,國家語(yǔ)委和新聞出版署聯(lián)合發(fā)布《現代漢語(yǔ)通用字表》,收現代漢語(yǔ)通用字7000字,包括《現代漢語(yǔ)常用字表》中的3500字。
區分通用字和罕用字、常用字的標準主要有四條:
1.字的頻度
2.字的分布面和使用度
3.字的構詞能力和構字能力
4.根據漢字的實(shí)際使用情況
基礎教育的用字研究、對外漢語(yǔ)教學(xué)的識字研究都是在此基礎上進(jìn)行的。張衛國研究出《小學(xué)語(yǔ)文用字表》,包括字種3071個(gè);② 陳良璜統計出小學(xué)各年級課本的生字量,六個(gè)年級合計3091字。③ 1990到1991年,國家漢辦和北京語(yǔ)言學(xué)院聯(lián)合研制了《漢語(yǔ)水平詞匯與漢字等級大綱》,其中《漢字等級表》收漢字2905個(gè),分為四級:甲級字800個(gè),乙級字804個(gè),丙級字601個(gè),丁級字700個(gè)。其中有2485個(gè)字是《現代漢語(yǔ)常用字表》里的一級常用字。
此外還需要對專(zhuān)門(mén)用字進(jìn)行研究,比如人名用字的研究、地名川字的研究、化學(xué)用字的研究等,如果這些專(zhuān)門(mén)用字不加限制,也會(huì )大大增加漢字的總量。
三、字音
理想的漢字應該是一字一音的,但是,漢字中有不少多音字,多音實(shí)際就是字無(wú)定音,需要根據上下文義來(lái)確定讀音。
據統計,《新華字典》所收的8000多字中,多音字有828個(gè),包含1857個(gè)讀音。④ 《辭?!分惺盏亩嘁糇钟?641個(gè),其中一字二音的有2112個(gè),一字三音的有422個(gè),一字四音的有81個(gè),一字五音的有18個(gè),一字六音的有7個(gè),一字八音的有一個(gè),即“那”字。⑤ 《現代漢語(yǔ)詞典》收字11000左右,其中一字多音的大約1000個(gè)。⑥ 《現代漢語(yǔ)通用字表》收字7000個(gè),其中多音字625個(gè),占總字數的8.9%;常用字和次常用字中多音字417個(gè),占多音字總字數的67%,三分之二的多音字是常用字。⑦ 《漢字信息字典》收字7785個(gè),其中多音字747字,占9.595%,其中二音字671個(gè),占8.619%;三音字69個(gè),占0.886%;四音字5個(gè),占0.064%;五音字2個(gè),占0.026%。⑧
以上的統計所用材料不同,結果當然會(huì )有差異。大體上說(shuō),現代漢字里的多音字約占總字數的十分之一。多音字的發(fā)展趨勢是單音化,呂叔湘說(shuō):“一字一讀是合乎文字功能的原則,因而也是深入人心的趨勢。因此只有少數幾個(gè)讀音都是常常應用,勢均力敵,才能長(cháng)久并列,例如‘長(cháng)’由cháng和‘長(cháng)’zhǎng,‘樂(lè )’lè和‘樂(lè )’yuè。否則比較少用的讀音很容易被常用的讀音擠掉。”⑨
雖然多音字不可能消滅,但是可以不斷地精簡(jiǎn)。我們的漢字整理規范工作應該通盤(pán)考慮,比如,在整理異形詞、審定異讀詞時(shí),應該以盡量減少多音字作為一個(gè)考慮的指標,漢字簡(jiǎn)化時(shí)的近音替代造成多音字的增加,就是考慮不周全的地方,今后應該避免。
四、字序
字序就是字的排列順序。在文字的應用中,字典、辭典的排檢都涉及到排序問(wèn)題。字母文字的字序(實(shí)際是詞序)由字母表的順序決定,非常簡(jiǎn)單,又統一。而漢字是語(yǔ)素文字,字具有形音義三個(gè)方面,其排序也就有不同的方法。
目前大型辭書(shū)的排序法主要是兩種:部首法和音序法。前者如《辭源》、《辭?!?、《漢語(yǔ)大字典》、《漢語(yǔ)大辭典》,后者如《現代漢語(yǔ)詞典》、《新華字典》。但是不管使用哪種排字法,往往都要配有兩三種檢字法,所以部首檢字法、音序檢字法、筆畫(huà)檢字法都是常用的檢字法。
(一)部首法存在的問(wèn)題
1.立部數量不統一
從東漢許慎創(chuàng )立540部首以后,歷代的字書(shū)對部首進(jìn)行了歸并,到明代梅膺祚的《字匯》,減少至214部,以后的字書(shū)在這個(gè)基礎上進(jìn)行調整?,F代的字書(shū)基本上都在200部左右,部首按筆畫(huà)數排列,筆畫(huà)相同的部首前后排列次序比較混亂。1983年制訂的《漢字統一部首表》(草案),確定201個(gè)部首,按畫(huà)數和起筆筆形順序排列,發(fā)布后,部首的立部和排序有望得到統一。
2.歸部原則不統一
主要是據義歸部和據形歸部?jì)煞N。傳統的字書(shū)主要是據義歸部。因為漢字形旁表義的特點(diǎn),據義歸部實(shí)際是把字形和字義聯(lián)系起來(lái)的做法,對于幫助理解字義、理解字形的構造都有好處。但是對于不認識這個(gè)字的人來(lái)說(shuō),不便檢索。據形歸部對于檢索來(lái)說(shuō),確實(shí)方便一些,但是需要定出嚴格的條例。因為漢字字形帶有很大的無(wú)序性,從形體入手,要找出一套嚴整、簡(jiǎn)易的部首規則來(lái),也是很不容易的。而且,有時(shí)只從形體入手歸部,又會(huì )和識字教學(xué)實(shí)踐相矛盾,比如若規定部首“從左不從右,從上不從下”,而有些偏旁習慣于放在右邊,如:刂、攵、頁(yè)、月(月)、阝(邑);有的偏旁習慣于放在下邊,如:皿、心。如果一定“從左不從右,從上不從下”,就破壞了這些字的系統性。
3.字頭下面多音詞的排序問(wèn)題
有的按雙字詞、三字詞、四字詞的順序排列,字數相同的再按第二字、第三字的筆畫(huà)數由少到多排列;也有的不管是幾字詞,第二字相同的排在一起。
(二)音序法存在的問(wèn)題
1.同音字的先后順序
漢字的同音字很多,音序法無(wú)法解決同音字的先后順序問(wèn)題,必須結合別的排序方法,有的按筆畫(huà)多少排列,有的把聲符相同的字排在一起。
2.字頭下面多音詞的排序問(wèn)題
有的按音節多少排列,音節數相同的再按第二音節的音序排列;有的不分音節,整個(gè)詞按音序排列。
這些排序的不一致都是需要研究的問(wèn)題。信息處理中字序的問(wèn)題就更重要了。因此,必須研究制訂統一的字序,使每一個(gè)漢字都能有一個(gè)唯一的位置。按筆畫(huà)和起筆筆形給漢字排序是比較客觀(guān)而又科學(xué)的,即便是在使用部首法排序和音序法時(shí)也要用筆畫(huà)筆形作為補充手段。但是先筆畫(huà)數后起筆筆形,還是先起筆筆形后筆畫(huà)數,目前還不統一;幾個(gè)基本筆形的先后順序也不統一;筆畫(huà)數和起筆筆形都相同的字怎樣排序也還需要再進(jìn)行研究。
①王鳳陽(yáng)《漢字學(xué)》,吉林文史出版社,1989年。
②張衛國《小學(xué)語(yǔ)文用字研究》,《教育研究》1983年5期。
③陳良璜《對我國小學(xué)語(yǔ)文課本生字量的研究》,《教育研究》1990年9期。
④李如龍《關(guān)于多音字的精簡(jiǎn)問(wèn)題》,《文字改革》1984年2期。
⑤傅永和《漢字結構及其構成成分的分析和統計》,《中國語(yǔ)文》1985年4期。
⑥張清?!稘h語(yǔ)漢文的一字多音問(wèn)題》,《語(yǔ)言學(xué)論文集》136頁(yè),商務(wù)印書(shū)館,1993年。
⑦龔嘉鎮《現行漢字形音關(guān)系研究》57頁(yè),湖北人民出版社,1995年。
⑧《漢字信息字典》1086頁(yè),科學(xué)出版社,1988年。
⑨呂叔湘《語(yǔ)文常談》31—32頁(yè),三聯(lián)書(shū)店,1980年。
——摘自 孔祥卿,史建偉,孫易《漢字學(xué)通論》
購買(mǎi)本書(shū)請點(diǎn)擊上方鏈接
漢典:zdic.net