乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      用正則表達(dá)式匹配漢字,完整總結(jié)

       弘護(hù)正法 2020-02-11

      提到用正則表達(dá)式匹配漢字,很容易搜到這個[\u4e00-\u9fa5],但是它不算全面,不包含一些生僻漢字。

      本文對此問題做一個梳理。

       

      以下是比較全面的漢字Unicode分布,參考Unicode 10.0標(biāo)準(zhǔn)(2017年6月發(fā)布):

      區(qū)塊 范圍 實際漢字個數(shù)/
      備注
      正則式
      CJK統(tǒng)一漢字

      4E00-62FF, 6300-77FF,

      7800-8CFF, 8D00-9FFF.

      20,971
      常見

      [\u4E00-\u9FFF] 或

      [一-?]

      CJK統(tǒng)一漢字?jǐn)U展A區(qū) 3400-4DBF. 6,582
      罕見
      [\u3400-\u4DBF]
      CJK統(tǒng)一漢字?jǐn)U展B區(qū)

      20000-215FF, 21600-230FF,

      23100-245FF, 24600-260FF,

      26100-275FF, 27600-290FF,

      29100-2A6DF.

      42,711
      罕見,歷史
      [\U00020000-\U0002A6DF]
      CJK統(tǒng)一漢字?jǐn)U展C區(qū) 2A700-2B73F. 4,149
      罕見,歷史
      [\U0002A700-\U0002B73F]
      CJK統(tǒng)一漢字?jǐn)U展D區(qū) 2B740–2B81F. 222
      不常見,仍在使用
      [\U0002B740-\U0002B81F]
      CJK統(tǒng)一漢字?jǐn)U展E區(qū) 2B820–2CEAF. 5,762
      罕見,歷史
      [\U0002B820-\U0002CEAF]
      CJK統(tǒng)一漢字?jǐn)U展F區(qū) 2CEB0-2EBEF. 7,473
      罕見,歷史
      [\U0002CEB0-\U0002EBEF]
      CJK兼容漢字 F900–FAFF. 472
      重復(fù)、可統(tǒng)一變體、公司定義
       [\uF900-\uFAFF]
      CJK兼容漢字增補(bǔ) 2F800-2FA1F. 542
      可統(tǒng)一變體
      [\U0002F800-\U0002FA1F]

       

      ★ 如果想表示最普遍的漢字,用:

      [\u4E00-\u9FFF]  或   [一-?]

      共有20950個漢字,包括了常用簡體字和繁體字,等字。

      基本就是GBK的所有(21003個)漢字。也包括了BIG5的所有(13053個)繁體漢字。

      一般情況下這個就夠用了。

      說明:

      僅僅未包括出現(xiàn)在GBK里的CJK兼容漢字的21個漢字:郎秊裏隣嗀﨎﨏﨑﨓﨔礼﨟蘒﨡﨣﨤﨧﨨﨩

      CJK兼容漢字用于轉(zhuǎn)碼處理,日常中是用不到的,所以不包括也沒什么問題。

      注意此非彼,也不是常用的那個,雖然用眼睛看是一樣的,參見 http://www.zhihu.com/question/20697984

       

      ★ 如果想表示BMP之內(nèi)的漢字,也就是Unicode值<=0xFFFF之內(nèi)的所有漢字,用:

      [\u4E00-\u9FFF\u3400-\u4DBF\uF900-\uFAFF]

      這個包含但不限于GBK定義的漢字,共有28025個漢字。

      說明:

      和上面相比,主要是多了CJK統(tǒng)一漢字?jǐn)U展A區(qū),這是1999年收錄到Unicode 3.0標(biāo)準(zhǔn)里的6,582個漢字。

      CJK統(tǒng)一漢字?jǐn)U展A區(qū),包括了東亞各地區(qū)(陸港臺日韓新越)的漢字,有很多康熙字典的繁體字。

       

      ★ 如果想盡可能表示所有的漢字,用:

      [\u4E00-\u9FFF\u3400-\u4DBF\uF900-\uFAFF\U00020000-U0002EBEF]

      這個包含上表的所有88342個漢字

       

      說明:

      1, 以上正則表達(dá)式不會匹配(英文、漢字的)標(biāo)點符號,不會匹配韓國拼音字、日本假名。

      2, 匹配一些日本、韓國獨有的漢字。

      3, 包含了一些沒有漢字的空位置,這通常不礙事。

      4, \u及\U的正則語法在Python 3.5上測試通過。

      有些正則表達(dá)式引擎不認(rèn)\uFFFF和\UFFFFFFFF這樣的語法,可以換成\x{FFFF}試一下;有些不支持BMP之外的范圍,這就沒辦法處理CJK統(tǒng)一漢字?jǐn)U展B~E區(qū)了,如notepad++。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多