漢字字頻統(tǒng)計方法的改進的策略
時間:
若木1由 分享
一、漢字字頻統(tǒng)計的概念
在漢語漢字的語境下,漢字字頻常常簡稱為字頻,漢字字頻是漢字使用的一個重要屬性。馮志偉指出:“傳統(tǒng)的文字學(xué)認為,漢字具有形、音、義三個要素,但是,漢字作為記錄漢語的符號,它必須作為一種交際工具而存在,在交際過程中,有的漢字使用得多些,有的使用的少些,呈現(xiàn)出一定的統(tǒng)計規(guī)律性。因此,從使用的角度來看,漢字還具有第四個要素——字頻。”①顧名思義,字頻就是字的使用頻度。蘇培成在《現(xiàn)代漢字學(xué)綱要》(增訂本)給字頻下的定義是:“字頻就是漢字的使用頻度,是指在一定的歷史時期內(nèi)經(jīng)抽樣取得的文字資料里,每一個漢字的使用次數(shù)與抽樣資料總字數(shù)的比例。”②他所說的“字頻”,就是指漢字字頻。沙宗元在《文字學(xué)術(shù)語規(guī)范研究》中收了“字頻”這個詞條,他給出的定義是:“某個漢字在一定語料中使用(出現(xiàn))的次數(shù)與樣本總字數(shù)(又叫樣本容量)之比。”③這個“字頻”也指漢字字頻。兩家的定義大體不錯,但表述不夠嚴密。第一,用來作為字頻統(tǒng)計的文字資料不一定是經(jīng)抽樣取得的,如《史記》的字頻統(tǒng)計這類專書字頻統(tǒng)計是根據(jù)特定目的選取的,而非“經(jīng)抽樣取得”的。“經(jīng)抽樣取得”不能作為字頻統(tǒng)計的必要條件。第二,“總字數(shù)”的說法比較含混,應(yīng)該改作“總字次”。第三,“樣本總字數(shù)”的“樣本”表意不明確。綜合學(xué)術(shù)界的研究,漢字字頻可以定義為:個體漢字字符在按特定原則選定的文本中出現(xiàn)的次數(shù)與選定文本總字次之比。
對使用中的漢字進行字頻統(tǒng)計,并按字頻的高低排列漢字的順序即可以得出漢字的頻序,依據(jù)頻序給漢字分級可以劃分出漢字的頻級,漢字的頻級是對使用中的漢字進行分級的主要依據(jù),對漢字規(guī)范、漢字教學(xué)及漢字信息處理有重要意義。漢字字頻統(tǒng)計是漢字研究中的一項具有實用意義的重要工作。
二、漢字字頻統(tǒng)計的主要成果
以往的漢字字頻統(tǒng)計與研究取得了重要的研究成果,為漢字的研究與應(yīng)用作出了重要的貢獻。字頻統(tǒng)計一般分綜合字頻統(tǒng)計及分類字頻統(tǒng)計兩類。其代表性成果主要有以下幾項:
現(xiàn)代漢字綜合字頻統(tǒng)計的主要成果有:1.《漢字頻度表》,此表于1976年12月由“七四八”工程查頻組完成。本次字頻統(tǒng)計使用的語料時間范圍為1973-1975年,語料內(nèi)容包括科學(xué)技術(shù)、文學(xué)藝術(shù)、政治理論和新聞通訊四類,統(tǒng)計方式為手工操作。備選語料3億多字次,選用語料2160多萬字次,統(tǒng)計得出6376個字種。2.《漢字頻率表》,此表包含在北京語言學(xué)院語言教學(xué)研究所編的《現(xiàn)代漢語頻率辭典》中,1986年6月由北京語言學(xué)院出版社出版。本次字頻統(tǒng)計使用的語料時間范圍較多選用20世紀40年代至70年代的作品,語料內(nèi)容包括報刊政論文章及專著、科普書刊材料、劇本和日常口語材料和各種體裁的文學(xué)作品四類,統(tǒng)計方式采用人工和計算機相結(jié)合。選用語料180萬字次,統(tǒng)計得出“不同漢字4574個”。(參考該書“前言”和編纂說明)3.《現(xiàn)代漢語字頻統(tǒng)計表》,此表由北京航空學(xué)院計算機科學(xué)與工程系和國家語言文字委員會漢字處研制,于1992年1月由語文出版社出版,出版署名單位是國家語言文字工作委員會和國家標準局。本次字頻統(tǒng)計使用的語料時間范圍為1977-1982年,語料內(nèi)容包括自然科學(xué)和社會科學(xué)兩大類,統(tǒng)計方式完全采用計算機自動統(tǒng)計,選用語料13800萬字次,抽取出的統(tǒng)計樣本語料11873029字次,統(tǒng)計得出漢字7754個。(參考該書說明)4.《報紙、廣播電視、網(wǎng)絡(luò)用字總表》,本表收錄在“中國語言生活狀況報告”課題組編《中國語言生活狀況報告(2005)》中,《報告》于2006年9月由商務(wù)印書館出版?!吨袊Z言生活狀況報告(2005)》是由國家語委首次向社會發(fā)布的年度語言生活報告,其中的《報紙、廣播電視、網(wǎng)絡(luò)用字總表》是2005年年度用字字頻統(tǒng)計表。該表語料時間范圍為2005年,語料介質(zhì)包括報紙、廣播電視和網(wǎng)絡(luò),統(tǒng)計手段采用計算機,共選擇892034個文本文件,包括732143010字次,統(tǒng)計得出字種數(shù)8128個。(該書把字種界定為“這里的字種,指字形不同的漢字。”④)
古代文獻使用漢字的綜合字頻統(tǒng)計成果主要有《古籍漢字字頻統(tǒng)計》,該書由北京書同文數(shù)字化技術(shù)有限公司編寫,2008年7月由商務(wù)印書館出版。本書統(tǒng)計的語料為電子版《四庫全書》和《四部叢刊》,統(tǒng)計方式完全采用計算機自動統(tǒng)計,使用語料8億字次,統(tǒng)計得出漢字30127個。(在該書收錄的“大規(guī)模古籍漢字用字統(tǒng)計報告”中“統(tǒng)計結(jié)果匯總與初步分析”一節(jié)中介紹該書統(tǒng)計出的總字數(shù)時說:“1.文淵閣《四庫全書》漢字總字數(shù):29088字;2.《四部叢刊》漢字用字總字數(shù):27606字;3.《四庫全書》與《四部叢刊》漢字用字合計:30127字。”⑤但是該書《古籍字頻統(tǒng)計表》的順序號的最后一號是30136,比30127多出9個數(shù)字。查《古籍字頻統(tǒng)計表》中含有部分空格和非漢字符號,如八卦卦符、古琴書中的指符等,甚至有新式標點和網(wǎng)址符@。因此,本書給出的總字數(shù)并不準確,只是個大致的數(shù)字。)
古代文獻專書使用漢字字頻統(tǒng)計的成果主要有《史記字頻研究》,李波著《史記字頻研究》,2006年3月由商務(wù)印書館出版。該書的字頻統(tǒng)計以漢代司馬遷所撰《史記》一書的全部文字為對象,選擇中華書局標點本130卷《史記》三家注本作底本,統(tǒng)計方式采用計算機手段。全書計572864字次,統(tǒng)計得出4932個字。
上述字頻統(tǒng)計的成果在漢字理論研究和現(xiàn)實應(yīng)用等方面起了重要作用。理論研究方面,如周有光在字頻統(tǒng)計成果的基礎(chǔ)上發(fā)現(xiàn)了漢字效用遞減率⑥。王鳳陽在字頻統(tǒng)計成果的基礎(chǔ)上發(fā)現(xiàn)了漢字常用字筆畫遞減率⑦。社會應(yīng)用方面,如1980年由國家標準總局發(fā)布,1981年5月1日實施的《信息交換用漢字編碼字符集·基本集》是在《漢字頻度表》的基礎(chǔ)上研制完成的。1988年1月26日由國家語言文字工作委員會、國家教育委員會聯(lián)合發(fā)布的《現(xiàn)代漢語常用字表》的研制參考了《漢字頻度表》(常用字部分4152字)、《社會科學(xué)、自然科學(xué)綜合漢字頻度表》(常用字部分3500字)和《漢字頻率表》(4574字)⑧。1988年3月25日由國家語言文字工作委員會、中華人民共和國新聞出版署聯(lián)合發(fā)布的《現(xiàn)代漢語通用字表》也參考了上述字頻統(tǒng)計成果。這些字頻統(tǒng)計的結(jié)果和在字頻統(tǒng)計成果基礎(chǔ)上研制的《字表》對漢字教學(xué)、漢字水平測試、漢字識別、漢字信息處理、漢字字典編纂、漢字規(guī)范等工作都起到了重要的參考作用。
在漢語漢字的語境下,漢字字頻常常簡稱為字頻,漢字字頻是漢字使用的一個重要屬性。馮志偉指出:“傳統(tǒng)的文字學(xué)認為,漢字具有形、音、義三個要素,但是,漢字作為記錄漢語的符號,它必須作為一種交際工具而存在,在交際過程中,有的漢字使用得多些,有的使用的少些,呈現(xiàn)出一定的統(tǒng)計規(guī)律性。因此,從使用的角度來看,漢字還具有第四個要素——字頻。”①顧名思義,字頻就是字的使用頻度。蘇培成在《現(xiàn)代漢字學(xué)綱要》(增訂本)給字頻下的定義是:“字頻就是漢字的使用頻度,是指在一定的歷史時期內(nèi)經(jīng)抽樣取得的文字資料里,每一個漢字的使用次數(shù)與抽樣資料總字數(shù)的比例。”②他所說的“字頻”,就是指漢字字頻。沙宗元在《文字學(xué)術(shù)語規(guī)范研究》中收了“字頻”這個詞條,他給出的定義是:“某個漢字在一定語料中使用(出現(xiàn))的次數(shù)與樣本總字數(shù)(又叫樣本容量)之比。”③這個“字頻”也指漢字字頻。兩家的定義大體不錯,但表述不夠嚴密。第一,用來作為字頻統(tǒng)計的文字資料不一定是經(jīng)抽樣取得的,如《史記》的字頻統(tǒng)計這類專書字頻統(tǒng)計是根據(jù)特定目的選取的,而非“經(jīng)抽樣取得”的。“經(jīng)抽樣取得”不能作為字頻統(tǒng)計的必要條件。第二,“總字數(shù)”的說法比較含混,應(yīng)該改作“總字次”。第三,“樣本總字數(shù)”的“樣本”表意不明確。綜合學(xué)術(shù)界的研究,漢字字頻可以定義為:個體漢字字符在按特定原則選定的文本中出現(xiàn)的次數(shù)與選定文本總字次之比。
對使用中的漢字進行字頻統(tǒng)計,并按字頻的高低排列漢字的順序即可以得出漢字的頻序,依據(jù)頻序給漢字分級可以劃分出漢字的頻級,漢字的頻級是對使用中的漢字進行分級的主要依據(jù),對漢字規(guī)范、漢字教學(xué)及漢字信息處理有重要意義。漢字字頻統(tǒng)計是漢字研究中的一項具有實用意義的重要工作。
二、漢字字頻統(tǒng)計的主要成果
以往的漢字字頻統(tǒng)計與研究取得了重要的研究成果,為漢字的研究與應(yīng)用作出了重要的貢獻。字頻統(tǒng)計一般分綜合字頻統(tǒng)計及分類字頻統(tǒng)計兩類。其代表性成果主要有以下幾項:
現(xiàn)代漢字綜合字頻統(tǒng)計的主要成果有:1.《漢字頻度表》,此表于1976年12月由“七四八”工程查頻組完成。本次字頻統(tǒng)計使用的語料時間范圍為1973-1975年,語料內(nèi)容包括科學(xué)技術(shù)、文學(xué)藝術(shù)、政治理論和新聞通訊四類,統(tǒng)計方式為手工操作。備選語料3億多字次,選用語料2160多萬字次,統(tǒng)計得出6376個字種。2.《漢字頻率表》,此表包含在北京語言學(xué)院語言教學(xué)研究所編的《現(xiàn)代漢語頻率辭典》中,1986年6月由北京語言學(xué)院出版社出版。本次字頻統(tǒng)計使用的語料時間范圍較多選用20世紀40年代至70年代的作品,語料內(nèi)容包括報刊政論文章及專著、科普書刊材料、劇本和日常口語材料和各種體裁的文學(xué)作品四類,統(tǒng)計方式采用人工和計算機相結(jié)合。選用語料180萬字次,統(tǒng)計得出“不同漢字4574個”。(參考該書“前言”和編纂說明)3.《現(xiàn)代漢語字頻統(tǒng)計表》,此表由北京航空學(xué)院計算機科學(xué)與工程系和國家語言文字委員會漢字處研制,于1992年1月由語文出版社出版,出版署名單位是國家語言文字工作委員會和國家標準局。本次字頻統(tǒng)計使用的語料時間范圍為1977-1982年,語料內(nèi)容包括自然科學(xué)和社會科學(xué)兩大類,統(tǒng)計方式完全采用計算機自動統(tǒng)計,選用語料13800萬字次,抽取出的統(tǒng)計樣本語料11873029字次,統(tǒng)計得出漢字7754個。(參考該書說明)4.《報紙、廣播電視、網(wǎng)絡(luò)用字總表》,本表收錄在“中國語言生活狀況報告”課題組編《中國語言生活狀況報告(2005)》中,《報告》于2006年9月由商務(wù)印書館出版?!吨袊Z言生活狀況報告(2005)》是由國家語委首次向社會發(fā)布的年度語言生活報告,其中的《報紙、廣播電視、網(wǎng)絡(luò)用字總表》是2005年年度用字字頻統(tǒng)計表。該表語料時間范圍為2005年,語料介質(zhì)包括報紙、廣播電視和網(wǎng)絡(luò),統(tǒng)計手段采用計算機,共選擇892034個文本文件,包括732143010字次,統(tǒng)計得出字種數(shù)8128個。(該書把字種界定為“這里的字種,指字形不同的漢字。”④)
古代文獻使用漢字的綜合字頻統(tǒng)計成果主要有《古籍漢字字頻統(tǒng)計》,該書由北京書同文數(shù)字化技術(shù)有限公司編寫,2008年7月由商務(wù)印書館出版。本書統(tǒng)計的語料為電子版《四庫全書》和《四部叢刊》,統(tǒng)計方式完全采用計算機自動統(tǒng)計,使用語料8億字次,統(tǒng)計得出漢字30127個。(在該書收錄的“大規(guī)模古籍漢字用字統(tǒng)計報告”中“統(tǒng)計結(jié)果匯總與初步分析”一節(jié)中介紹該書統(tǒng)計出的總字數(shù)時說:“1.文淵閣《四庫全書》漢字總字數(shù):29088字;2.《四部叢刊》漢字用字總字數(shù):27606字;3.《四庫全書》與《四部叢刊》漢字用字合計:30127字。”⑤但是該書《古籍字頻統(tǒng)計表》的順序號的最后一號是30136,比30127多出9個數(shù)字。查《古籍字頻統(tǒng)計表》中含有部分空格和非漢字符號,如八卦卦符、古琴書中的指符等,甚至有新式標點和網(wǎng)址符@。因此,本書給出的總字數(shù)并不準確,只是個大致的數(shù)字。)
古代文獻專書使用漢字字頻統(tǒng)計的成果主要有《史記字頻研究》,李波著《史記字頻研究》,2006年3月由商務(wù)印書館出版。該書的字頻統(tǒng)計以漢代司馬遷所撰《史記》一書的全部文字為對象,選擇中華書局標點本130卷《史記》三家注本作底本,統(tǒng)計方式采用計算機手段。全書計572864字次,統(tǒng)計得出4932個字。
上述字頻統(tǒng)計的成果在漢字理論研究和現(xiàn)實應(yīng)用等方面起了重要作用。理論研究方面,如周有光在字頻統(tǒng)計成果的基礎(chǔ)上發(fā)現(xiàn)了漢字效用遞減率⑥。王鳳陽在字頻統(tǒng)計成果的基礎(chǔ)上發(fā)現(xiàn)了漢字常用字筆畫遞減率⑦。社會應(yīng)用方面,如1980年由國家標準總局發(fā)布,1981年5月1日實施的《信息交換用漢字編碼字符集·基本集》是在《漢字頻度表》的基礎(chǔ)上研制完成的。1988年1月26日由國家語言文字工作委員會、國家教育委員會聯(lián)合發(fā)布的《現(xiàn)代漢語常用字表》的研制參考了《漢字頻度表》(常用字部分4152字)、《社會科學(xué)、自然科學(xué)綜合漢字頻度表》(常用字部分3500字)和《漢字頻率表》(4574字)⑧。1988年3月25日由國家語言文字工作委員會、中華人民共和國新聞出版署聯(lián)合發(fā)布的《現(xiàn)代漢語通用字表》也參考了上述字頻統(tǒng)計成果。這些字頻統(tǒng)計的結(jié)果和在字頻統(tǒng)計成果基礎(chǔ)上研制的《字表》對漢字教學(xué)、漢字水平測試、漢字識別、漢字信息處理、漢字字典編纂、漢字規(guī)范等工作都起到了重要的參考作用。