Unicode轉(zhuǎn)義(\uXXXX)的編碼和解碼

日月桃子 2016-02-16

展開全文

在涉及Web前端開發(fā)時, 有時會遇到\uXXXX格式表示的字符, 其中XXXX是16進(jìn)制數(shù)字的字符串表示形式, 在js中這個叫Unicode轉(zhuǎn)義字符, 和\n \r同屬于轉(zhuǎn)義字符. 在其他語言中也有類似的, 可能還有其它變形的格式.

多數(shù)時候遇到需要解碼的情況多點(diǎn), 所以會先介紹解碼decode, 后介紹編碼encode.

下文會提供Javascript C# Java三種語言下不同方法的實現(xiàn)和簡單說明, 會涉及到正則和位運(yùn)算的典型用法.

Javascript的實現(xiàn)

解碼的實現(xiàn)

1
2
3

function decode(s) {
    return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));
}

unescape是用來處理%uXXXX這樣格式的字符串, 將\uXXXX替換成%uXXXX后unescape就可以處理了.

編碼的實現(xiàn)

function encode1(s) {
    return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
        return $1 && '\\' + $1.toLowerCase() || unescape($2);
    });
}

和解碼中相對應(yīng), 使用escape編碼, 然后將%uXXXX替換為\uXXXX, 因為escape還可能把一些字符編碼成%XX的格式, 所以這些字符還需要使用unescape還原回來.

escape編碼結(jié)果%uXXXX中的XXXX是大寫的, 所以后面的replace只處理大寫的A-F.

另一種編碼的實現(xiàn)

不使用正則和escape

function encode2(s) {
    var i, c, ret = [],
        pad = '000';
    for (i = 0; i < s.length; i++) {
        c = s.charCodeAt(i);
        if (c > 256) {
            c = c.toString(16);
            ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;
        } else {
            ret[i] = s[i];
        }
    }
    return ret.join('');
}

遍歷字符串中的字符, 那些charCode大于256的會轉(zhuǎn)換成16進(jìn)制字符串c.toString(16), 如果不足4位則左邊補(bǔ)0pad.substr(0, 4 - c.length). 結(jié)尾將遍歷的結(jié)果合并成字符串返回.

C#的實現(xiàn)

解碼的實現(xiàn)

static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled);

public static string Decode(string s)
{
    return reUnicode.Replace(s, m =>
    {
        short c;
        if (short.TryParse(m.Groups[1].Value, System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture, out c))
        {
            return "" + (char)c;
        }
        return m.Value;
    });
}

正則和js中的一樣, 將XXXX轉(zhuǎn)換以16進(jìn)制System.Globalization.NumberStyles.HexNumber解析為short類型, 然后直接(char)c就能轉(zhuǎn)換成對應(yīng)的字符, "" + (char)c用于轉(zhuǎn)換成字符串類型返回.

由于正則中也有\uXXXX, 所以需要寫成\\uXXXX來表示匹配字符串\uXXXX, 而不是具體的字符.

上面使用到了Lambda, 需要至少dotnet 4的SDK才能編譯通過, 可以在dotnet 2下運(yùn)行.

編碼的實現(xiàn)

static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.Compiled);

public static string Encode(string s)
{
    return reUnicodeChar.Replace(s, m => string.Format(@"\u{0:x4}", (short)m.Value[0]));
}

和C#的解碼實現(xiàn)正好相反, 0-255之外的字符, 從char轉(zhuǎn)換成short, 然后string.Format以16進(jìn)制, 至少輸出4位.

Java的實現(xiàn)

解碼的實現(xiàn)

和C#相似的, 使用正則

static final Pattern reUnicode = Pattern.compile("\\\\u([0-9a-zA-Z]{4})");

public static String decode1(String s) {
    Matcher m = reUnicode.matcher(s);
    StringBuffer sb = new StringBuffer(s.length());
    while (m.find()) {
        m.appendReplacement(sb,
                Character.toString((char) Integer.parseInt(m.group(1), 16)));
    }
    m.appendTail(sb);
    return sb.toString();
}

Java語言沒有內(nèi)嵌正則語法, 也沒有類似C#的@"\u1234"原始形式字符串的語法, 所以要表示正則中匹配\, 就需要\\\\, 其中2個是用于Java中字符轉(zhuǎn)義, 2個是正則中的字符轉(zhuǎn)義.

Java語言中沒有設(shè)計函數(shù)或者委托的語法, 所以它的正則庫提供的是find appendReplacement appendTail這些方法的組合, 等價于js和C#中的replace.

這里使用StringBuffer類型是由于appendReplacement只接受這個類型, StringBuffer有線程安全的額外操作, 所以性能差一點(diǎn). 也許第三方的正則庫能把API設(shè)計的更好用點(diǎn).

Integer.parseInt(m.group(1), 16)用于解析為int類型, 之后再(char), 以及Character.toString轉(zhuǎn)換成字符串.

解碼的另一種實現(xiàn)

因為StringBuffer的原因, 不使用正則的實現(xiàn)

public static String decode2(String s) {
    StringBuilder sb = new StringBuilder(s.length());
    char[] chars = s.toCharArray();
    for (int i = 0; i < chars.length; i++) {
        char c = chars[i];
        if (c == '\\' && chars[i + 1] == 'u') {
            char cc = 0;
            for (int j = 0; j < 4; j++) {
                char ch = Character.toLowerCase(chars[i + 2 + j]);
                if ('0' <= ch && ch <= '9' || 'a' <= ch && ch <= 'f') {
                    cc |= (Character.digit(ch, 16) << (3 - j) * 4);
                } else {
                    cc = 0;
                    break;
                }
            }
            if (cc > 0) {
                i += 5;
                sb.append(cc);
                continue;
            }
        }
        sb.append(c);
    }
    return sb.toString();
}

手工做就是麻煩很多, 代碼中也一坨的符號.

遍歷所有字符chars, 檢測到\u這樣的字符串, 檢測后續(xù)的4個字符是否是16進(jìn)制數(shù)字的字符表示. 因為Character.isDigit會把一些其它語系的數(shù)字也算進(jìn)來, 所以保險的做法'0' <= ch && ch <= '9'.

Character.digit會把0-9返回為int類型的0-9, 第2個參數(shù)是16時會把a-f返回為int類型的10-15.

剩下的就是用|=把各個部分的數(shù)字合并到一起, 轉(zhuǎn)換成char類型. 還有一些調(diào)整遍歷位置等.

編碼的實現(xiàn)

考慮到Java正則的杯具, 還是繼續(xù)手工來吧, 相對解碼來說代碼少點(diǎn).

public static String encode(String s) {
    StringBuilder sb = new StringBuilder(s.length() * 3);
    for (char c : s.toCharArray()) {
        if (c < 256) {
            sb.append(c);
        } else {
            sb.append("\\u");
            sb.append(Character.forDigit((c >>> 12) & 0xf, 16));
            sb.append(Character.forDigit((c >>> 8) & 0xf, 16));
            sb.append(Character.forDigit((c >>> 4) & 0xf, 16));
            sb.append(Character.forDigit((c) & 0xf, 16));
        }
    }
    return sb.toString();
}

對應(yīng)于上文Java編碼的實現(xiàn)正好是反向的實現(xiàn), 依舊遍歷字符, 遇到大于256的字符, 用位運(yùn)算提取出4部分并使用Character.forDigit轉(zhuǎn)換成16進(jìn)制數(shù)對應(yīng)的字符.

剩下就是sb.toString()返回了.

總結(jié)

編碼從邏輯上比解碼簡單點(diǎn).
對付字符串, js還是最順手的, 也方便測試.
位運(yùn)算的性能很高.
Java的正則庫設(shè)計的很不方便, 可以考慮第三方.
Java的語法設(shè)計現(xiàn)在看來呆板, 落后, 也沒有js那種靈活.
上文Java的非正則實現(xiàn)可以寫成等價的C#代碼.

轉(zhuǎn)：http://netwjx./blog/2012/07/07/encode-and-decode-unicode-escape-string/

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：日月桃子 > 《emoji表情》

舉報/認(rèn)領(lǐng)