先來看一看歷代字書收字?jǐn)?shù):
1. 秦《倉頡篇》(李斯)3300字
2. 漢《訓(xùn)纂篇》(揚(yáng)雄,公元1-5年)5340字
3. 漢《續(xù)訓(xùn)纂篇》(班固,60-70年)6120字
4. 漢《說文解字》(許慎,100年)9353字,另有1163“古文”(異體字)
5. 魏《聲類》(李登,227-239年)11520字
6. 晉《字林》(呂忱)12824字
7. 后魏《字統(tǒng)》(楊承慶)13734字
8. 后魏《廣雅》(張揖,480年)18150字
9. 梁《玉篇》(顧野王,543年)22726字
10. 唐《唐韻》(孫愐,751年)26194字
11. 唐《韻海鑒源》(顏真卿,753年)26911字
12. 宋《集韻》(丁度,1037-1067年)約30000字
13. 宋《類篇》(司馬光、王洙等,1066年)31319字
14. 明《字彚》(梅膺祚,1615年)33179字
15. 明《正字通》(張自烈,1675年)33440字
16. 清《(康熙)字典》(張玉書、凌紹雯等,1716年)42174字;(后來臺灣地區(qū)高樹藩有重編,1979年在臺灣地區(qū)發(fā)行,上海書店影印過;近年王宏源有增訂,社會科學(xué)文獻(xiàn)出版社,2015年)
17. 民國《中華大字典》(徐元誥, 歐陽溥存編,中華書局,1915年)44908字(按,商務(wù)印書館國際有限公司2014年出版有同名字典,魏勵主編,收字57000多個(gè),而且根據(jù)《通用規(guī)范漢字表》,不再對8105個(gè)漢字外進(jìn)行類推簡化,糾正了《中華字?!匪烈忸愅坪喕谋撞?。)
18. 臺灣地區(qū)《中文大辭典》(張其昀等,1969年)49888字。按,本典近年正在修訂,可能會在大陸發(fā)行修訂版。
19. 臺灣地區(qū)《中文資訊交換碼第三冊》(國字整理小組,1986年)53940字
20. 大陸《漢語大字典》(徐中舒等,1990年第一版)54678字,近年第二版收字超過60000字。
21. 臺灣地區(qū)《異體字字典》(官修,網(wǎng)絡(luò)版)106230字。
22. 近年網(wǎng)絡(luò)“字書詁林”“國學(xué)大師”稱,統(tǒng)計(jì)了“81516個(gè)Unicode漢字+漢語大字典第二版6萬+中華字海8.5萬+古壯字+CJK-F&G區(qū)+日本和制漢字”,一共約20萬字。其中,Unicode一般翻譯成“統(tǒng)一碼、萬國碼、單一碼”等,是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界國際標(biāo)準(zhǔn),即把世界各國的文字放進(jìn)同一個(gè)編碼系統(tǒng)里面,以方便信息交換。
現(xiàn)在回答你多少個(gè)的算法邏輯問題。
首先需要明確的是,我們并不能精確說出究竟?jié)h字有多少個(gè)。原因首先是,以上統(tǒng)計(jì)數(shù)量雖然像滾雪球一樣越滾越多,但大部分是歷史累積的結(jié)果,雖然我們每個(gè)時(shí)代的用字量是基本穩(wěn)定的(約7000字)。其次,大量異體字是按字形算,還是按其對應(yīng)的“正體”算,存在認(rèn)識差異的問題。此外,近年有些字沒有統(tǒng)計(jì)進(jìn)來,比如各種出土文獻(xiàn)的文字編、碑刻字典等。再者,有些看起來像漢字的“漢字”,能不能算“漢字”也是個(gè)問題(比如道教符箓用字、西夏大字、女真大字、越南喃字、日本自造字、朝鮮自造字、古壯字、方言自造字,以及中土原生而借入日語、朝鮮語來記錄他們語言的字)。