?? unicode_百度百科.htm
字號:
href="http://baike.baidu.com/view/263416.htm"
target=_blank>字符</A>編碼。它為每種<A href="http://baike.baidu.com/view/9793.htm"
target=_blank>語言</A>中的每個字符設(shè)定了統(tǒng)一并且唯一的<A
href="http://baike.baidu.com/view/18536.htm"
target=_blank>二進制</A>編碼,以滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求。1990年開始研發(fā),1994年正式公布。隨著計算機工作能力的增強,<B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>也在面世以來的十多年里得到普及。<BR><BR>2006年<A
href="http://baike.baidu.com/view/401984.htm" target=_blank>6月</A>的最新版本的
<B style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 是 2005年<A
href="http://baike.baidu.com/view/477558.htm" target=_blank>3月31日</A>推出的<B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 4.1.0 。另外,5.0
Beta已于2005年12月12日推出,以供各會員評價。<BR><BR><B>
<DIV class=titord><SPAN class=t1><A name=1></A><B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
的編碼和實現(xiàn)</SPAN></DIV></B><BR>大概來說,<B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 編碼系統(tǒng)可分為<A
href="http://baike.baidu.com/view/1084820.htm"
target=_blank>編碼方式</A>和實現(xiàn)方式兩個層次。<BR><BR>1.<B>編碼方式</B><BR><BR><B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 的編碼方式與 <A
href="http://baike.baidu.com/view/758572.htm" target=_blank>ISO 10646</A>
的<A href="http://baike.baidu.com/view/354447.htm"
target=_blank>通用字元集</A>(亦稱[通用字符集])(Universal Character
Set,UCS)概念相對應(yīng),目前的用于實用的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 版本對應(yīng)于
UCS-2,使用16位的編碼空間。也就是每個字符占用2個<A
href="http://baike.baidu.com/view/60408.htm"
target=_blank>字節(jié)</A>。這樣理論上一共最多可以表示 65,536(2的16次方) 個字符。基本滿足各種語言的使用。實際上目前版本的
<B style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
尚未填充滿這16位編碼,保留了大量空間作為特殊使用或?qū)頂U展。<BR><BR>上述16位 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
字符構(gòu)成基本多文種平面(Basic Multilingual Plane, 簡稱 <A
href="http://baike.baidu.com/view/7671.htm"
target=_blank>BMP</A>)。最新(但未實際廣泛使用)的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
版本定義了16個輔助平面,兩者合起來至少需要占據(jù)21位的編碼空間,比3字節(jié)略少。但事實上輔助平面字符仍然占用4字節(jié)編碼空間,與 UCS-4
保持一致。未來版本會擴充到 <A href="http://baike.baidu.com/view/1007.htm"
target=_blank>ISO</A> 10646-1 實現(xiàn)級別3,即涵蓋 UCS-4 的所有字符。UCS-4
是一個更大的尚未填充完全的31位字符集,加上恒為0的首位,共需占據(jù)32位,即4字節(jié)。理論上最多能表示
2,147,483,648(2的31次方)個字符,完全可以涵蓋一切語言所用的符號。<BR><BR>BMP 字符的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 編碼表示為
U+hhhh,其中每個 h 代表一個<A href="http://baike.baidu.com/view/230306.htm"
target=_blank>十六進制</A>數(shù)位。與 UCS-2 編碼完全相同。對應(yīng)的4字節(jié) UCS-4
編碼后兩個字節(jié)一致,前兩個字節(jié)的所有位均為0。<BR><BR>2.<B>實現(xiàn)方式</B><BR><BR><B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
的實現(xiàn)方式不同于編碼方式。一個字符的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
編碼是確定的。但是在實際傳輸過程中,由于不同系統(tǒng)平臺的設(shè)計不一定一致,以及出于節(jié)省空間的目的,對 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 編碼的實現(xiàn)方式有所不同。<B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 的實現(xiàn)方式稱為<B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>轉(zhuǎn)換格式(<B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> Translation
Format,簡稱為 <A href="http://baike.baidu.com/view/952329.htm"
target=_blank>UTF</A>)。<BR><BR>例如,如果一個僅包含基本7位<A
href="http://baike.baidu.com/view/15482.htm" target=_blank>ASCII</A>字符的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
文件,如果每個字符都使用2字節(jié)的原 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
編碼傳輸,其第一字節(jié)的8位始終為0。這就造成了比較大的浪費。對于這種情況,可以使用 UTF-8
編碼,這是一種變長編碼,它將基本7位ASCII字符仍用7位編碼表示,占用一個字節(jié)(首位補0)。而遇到與其他 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
字符混合的情況,將按一定算法轉(zhuǎn)換,每個字符使用1-3個字節(jié)編碼,并利用首位為0或1進行識別。這樣對以7位ASCII字符為主的西文文檔就大大節(jié)省了編碼長度(具體方案參見UTF-8)。類似的,對未來會出現(xiàn)的需要4個字節(jié)的輔助平面字符和其他
UCS-4 擴充字符,2字節(jié)編碼的 UTF-16 也需要通過一定的算法進行轉(zhuǎn)換。<BR><BR>再如,如果直接使用與 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 編碼一致(僅限于 BMP
字符)的 UTF-16 編碼,由于每個址都不相同,<A href="http://baike.baidu.com/view/455985.htm"
target=_blank>Macintosh</A>機和<A
href="http://baike.baidu.com/view/13621.htm"
target=_blank>PC</A>機上對字節(jié)順序的理解是不一致的。這時同一字節(jié)流可能會被解釋為不同內(nèi)容,如編碼為 U+594E
的字符“奎”同編碼為 U+4E59 的“乙”就可能發(fā)生混淆。于是在 UTF-16
編碼實現(xiàn)方式中使用了大尾序(big-endian)、小尾序(little-endian)的概念,以及BOM(Byte Order
Mark)解決方案。(具體方案參見UTF-16)<BR><BR>此外 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 的實現(xiàn)方式還包括
UTF-7、Punycode、CESU-8、SCSU、UTF-32等,這些實現(xiàn)方式有些僅在一定的國家和地區(qū)使用,有些則屬于未來的規(guī)劃方式。目前通用的實現(xiàn)方式是
UTF-16小尾序(BOM)、UTF-16大尾序(BOM)和 UTF-8。在微軟公司W(wǎng)indows
XP操作系統(tǒng)附帶的記事本中,“另存為”對話框可以選擇的四種編碼方式除去非 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> 編碼的 ANSI
外,其余三種“<B style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>”、“<B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B> big
endian”和“UTF-8”即分別對應(yīng)這三種實現(xiàn)方式。<BR><BR>目前輔助平面的工作主要集中在第二和第三平面的中日韓統(tǒng)一表意文字中,因此包括<A
href="http://baike.baidu.com/view/25421.htm"
target=_blank>GBK</A>、GB18030、<A
href="http://baike.baidu.com/view/98718.htm"
target=_blank>Big5</A>等簡體中文、正體<A
href="http://baike.baidu.com/view/48682.htm" target=_blank>中文</A>、<A
href="http://baike.baidu.com/view/191385.htm" target=_blank>日文</A>、<A
href="http://baike.baidu.com/view/18922.htm" target=_blank>韓語</A>以及<A
href="http://baike.baidu.com/view/476302.htm" target=_blank>越南字喃</A>的各種編碼與
<B style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
的協(xié)調(diào)性被重點關(guān)注。考慮到 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
最終要涵蓋所有的字符,從某種意義而言,這些編碼方式也可視作 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
的出現(xiàn)于其之前的既成事實的實現(xiàn)方式,如同ASCII及其擴展Latin-1一樣,后兩者的字符在16位 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
編碼空間中的編碼第一字節(jié)各位全為0,第二字節(jié)編碼與原編碼完全一致。但上述東亞語言編碼與 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
編碼的對應(yīng)關(guān)系要復(fù)雜得多。<BR><BR><B>
<DIV class=titord><SPAN class=arr><A title=返回頁首
href="http://baike.baidu.com/view/40801.htm#"></A></SPAN><SPAN class=t1><A
name=2></A>非 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
環(huán)境</SPAN></DIV></B><BR>在非 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
環(huán)境下,由于不同國家和地區(qū)采用的字符集不一致,很可能出現(xiàn)無法正常顯示所有字符的情況。<A
href="http://baike.baidu.com/view/2353.htm"
target=_blank>微軟</A>公司使用了代碼頁(Codepage)轉(zhuǎn)換表的技術(shù)來過渡性的部分解決這一問題,即通過指定的轉(zhuǎn)換表將非 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
的字符編碼轉(zhuǎn)換為同一字符對應(yīng)的系統(tǒng)內(nèi)部使用的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
編碼。可以在“語言與區(qū)域設(shè)置”中選擇一個代碼頁作為非 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
編碼所采用的默認編碼方式,如936為簡體中文GBK,950為正體中文Big5(皆指PC上使用的)。在這種情況下,一些非英語的歐洲語言編寫的軟件和文檔很可能出現(xiàn)亂碼。而將代碼頁設(shè)置為相應(yīng)語言中文處理又會出現(xiàn)問題,這一情況無法避免。從根本上說,完全采用統(tǒng)一編碼才是解決之道,但目前上無法做到這一點。<BR><BR>代碼頁技術(shù)現(xiàn)在廣泛為各種平臺所采用。UTF-7
的代碼頁是65000,UTF-8 的代碼頁是65001。<BR><BR><B>
<DIV class=titord><SPAN class=arr><A title=返回頁首
href="http://baike.baidu.com/view/40801.htm#"></A></SPAN><SPAN class=t1><A
name=3></A>XML 和 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B></SPAN></DIV></B><BR><BR><A
href="http://baike.baidu.com/view/63.htm" target=_blank>XML</A>及其子集<A
href="http://baike.baidu.com/view/692.htm"
target=_blank>HTML</A>采用UTF-8作為標準字集,理論上我們可以在各種支持XML標準的<A
href="http://baike.baidu.com/view/7718.htm"
target=_blank>瀏覽器</A>上顯示任何地區(qū)文字的<A
href="http://baike.baidu.com/view/828.htm" target=_blank>網(wǎng)頁</A>,只要<A
href="http://baike.baidu.com/view/2358.htm"
target=_blank>電腦</A>本身安裝有合適的字體即可。可以利用&#nnn;的格式顯示特定的字符。nnn代表該字符的十進制 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
代碼。如果采用十六進制代碼,在編碼之前加上x字符即可。但部分舊版本的瀏覽器可能無法識別十六進制代碼。<BR><BR>然而部分由于 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
版本發(fā)展原因,很多瀏覽器只能顯示 UCS-2 完整字符集也即現(xiàn)在使用的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
版本中的一個小子集。下表可以檢驗?zāi)臑g覽器怎樣顯示各種各樣的 <B
style="COLOR: black; BACKGROUND-COLOR: #ffff66">Unicode</B>
代碼:<BR><BR>代碼 字符標準名稱
(英語) 在瀏覽器上的顯示
<BR><BR>A
大寫拉丁字母"A"
A <BR><BR>&szlig;
小寫<A
href="http://baike.baidu.com/view/107325.htm" target=_blank>拉丁字母</A>"Sharp
S" &szlig;
<BR><BR>&thorn;
小寫<A href="http://baike.baidu.com/view/38715.htm"
target=_blank>拉丁</A><A href="http://baike.baidu.com/view/94782.htm"
target=_blank>字母</A>"Thorn"
&thorn; <BR><BR>Δ
大寫<A href="http://baike.baidu.com/view/6744.htm"
target=_blank>希臘</A>字母"Delta"
Δ <BR><BR>Й
大寫<A
href="http://baike.baidu.com/view/253815.htm"
target=_blank>斯拉夫</A>字母"Short I"
Й <BR><BR>ק
<A href="http://baike.baidu.com/view/176645.htm"
target=_blank>希伯來</A>字母"Qof"
ק
<BR><BR>م <A
href="http://baike.baidu.com/view/96268.htm" target=_blank>阿拉伯</A>字母
"Meem"
م
<BR><BR>๗ 泰文數(shù)字 7
๗ <BR><BR>ቐ
<A
href="http://baike.baidu.com/view/11274.htm"
target=_blank>埃塞俄比亞</A>音節(jié)文字"Qha"
ቐ <BR><BR>あ
<A
href="http://baike.baidu.com/view/20584.htm" target=_blank>日語</A><A
href="http://baike.baidu.com/view/489512.htm" target=_blank>平假名</A>
"A"
あ <BR><BR>ア
日語<A href="http://baike.baidu.com/view/62454.htm"
target=_blank>片假名</A> "A"
ア <BR><BR>葉
簡體<A
href="http://baike.baidu.com/view/1712.htm" target=_blank>漢字</A> "葉"
葉 <BR><BR>葉
<A
href="http://baike.baidu.com/view/143053.htm" target=_blank>繁體</A>漢字
"葉"
葉 <BR><BR>엽
<A
href="http://baike.baidu.com/view/3299.htm" target=_blank>韓國</A>音節(jié)文字 "
Yeob"
엽 <BR><BR><B>
<DIV class=titord><SPAN class=arr><A title=返回頁首
href="http://baike.baidu.com/view/40801.htm#"></A></SPAN><SPAN class=t1><A
name=4></A>輸入<B
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -