?? rfc3066.txt
字號:
組織:中國互動(dòng)出版網(wǎng)(http://www.china-pub.com/)
RFC文檔中文翻譯計(jì)劃(http://www.china-pub.com/compters/emook/aboutemook.htm)
E-mail:ouyang@china-pub.com
譯者:徐繼偉(bille bill_e@sina.com)
譯文發(fā)布時(shí)間:2001-7-4
版權(quán):本中文翻譯文檔版權(quán)歸中國互動(dòng)出版網(wǎng)所有。可以用于非商業(yè)用途自由轉(zhuǎn)載,但必須
保留本文檔的翻譯及版權(quán)信息。
Network Working Group H. Alvestrand
Request for Comments: 3066 Cisco Systems
BCP: 47 January 2001
Obsoletes: 1766
Category: Best Current Practice
語言鑒定標(biāo)簽
(Tags for the Identification of Languages)
本備忘錄的狀態(tài)
This document specifies an Internet Best Current Practices for the
Internet Community, and requests discussion and suggestions for
improvements. Distribution of this memo is unlimited.
版權(quán)公告
Copyright (C) The Internet Society (2001). All Rights Reserved.
摘要
這個(gè)文檔描述了一種語言標(biāo)簽,用來說明用在信息對象領(lǐng)域的語言,怎樣為此語言標(biāo)簽
注冊值,以及如何來構(gòu)造這種語言標(biāo)簽的匹配。
1. 介紹 2
2. 語言標(biāo)簽 2
2.1 語言標(biāo)簽語法 2
2.2 語言標(biāo)簽來源 3
2.3 語言標(biāo)簽的選擇 5
2.4 語言標(biāo)簽的意義 6
2.5 語言范圍 6
3. 語言標(biāo)簽的IANA 注冊過程 7
4.安全因素 9
5. 符號集合問題 9
6. 鳴謝 9
7.作者地址 10
8.參考文獻(xiàn) 10
附錄A: 11
附錄B: 12
版權(quán)聲明 12
1. 介紹
在我們這個(gè)星球上生存的人,過去的、現(xiàn)在的,已經(jīng)使用了很多種語言。有很多原因使
得我們必須在傳送信息時(shí)確認(rèn)所使用的語言。
在有些時(shí)候,用多于一種語言描述信息也可行的,或者當(dāng)提供了工具(比如字典)來輔
助理解時(shí)也是可行的。
另外,很多類型的信息處理都需要相應(yīng)語言的知識(shí),以便明確的闡釋信息,進(jìn)行處理;
例如,拼寫檢查,計(jì)算機(jī)合成語音,布萊葉盲文,或者是高質(zhì)量打印圖像。
一種說明所使用的語言的方法是,在信息內(nèi)容中加入語言標(biāo)識(shí)符。
這篇文檔指定了一種標(biāo)識(shí)符機(jī)制,一種為標(biāo)識(shí)機(jī)制注冊值的功能(函數(shù)),并構(gòu)造了與
那些值的匹配。
本文檔中的部分關(guān)鍵字"MUST","MUST NOT","REQUIRED","SHALL","SHALL
NOT","SHOULD","SHOULD NOT","RECOMMENDED"和"MAY" 已經(jīng)在RFC2119中有了說
明。
2. 語言標(biāo)簽
2.1 語言標(biāo)簽語法
這種語言標(biāo)簽是由一或幾部分構(gòu)成的:一個(gè)主要語言輔標(biāo)簽(subtag),一系列(可能
是空的)副標(biāo)簽(subsequent subtags)。 這種標(biāo)簽的語法(見rfc2234)是:
Language-Tag = Primary-subtag *( "-" Subtag )
Primary-subtag = 1*8ALPHA
Subtag = 1*8(ALPHA / DIGIT)
以上的ALPHA和DIGIT引自rfc2234; 他們分別表示從A 到 Z 的所有字母(大寫或小
寫)和數(shù)字0到9,"-"表示HYPHEN-MINUS(減號短劃)(ABNF:%x2D)。
所有的標(biāo)簽都被忽略大小寫;他們中的一些有著大小寫的習(xí)慣,但并不表示任何意義。
例如,[ISO 3166]推薦國家表示碼用大寫(MN Mongolia),然而[ISO 639]推薦語言碼用小
寫(mn Mongolian)。
2.2 語言標(biāo)簽來源
根據(jù)本文檔第三部分的規(guī)定,語言標(biāo)簽的名字域由IANA(Internet Assigned Numbers
Authority,見[rfc 2860])管理。
下列規(guī)則適用于主要的標(biāo)簽:
-根據(jù)ISO 標(biāo)準(zhǔn)639中的分配,所有的含2個(gè)字母的標(biāo)簽被解釋為,“表示語言中的名
稱”(見[ISO 639]),或是稍后被分配為維護(hù)和調(diào)節(jié)的標(biāo)準(zhǔn)體(注意,有一處校正尚未完成,
它將在ISO 639-1:2000中發(fā)布)。
-根據(jù)IOS標(biāo)準(zhǔn)639中第二部分的分配,所有的含3個(gè)字母的標(biāo)簽被解釋為,“表示語言
名稱—2:Ahpha-3 code(見ISO 639-2)“,或者稍后被分配為維護(hù)和調(diào)節(jié)的標(biāo)準(zhǔn)體(也在
ISO 639-2中有說明)。
-值I 被保留用作IANA定義的注冊值;
-值X被保留為私用,所以X就不能被IANA注冊。
-除非要修改這個(gè)標(biāo)準(zhǔn),其他的值不可分配。
保留所有其他標(biāo)簽值的原因,是要為ISO 639 標(biāo)準(zhǔn)的修改留有余地;用I和X是我們
為擴(kuò)展這個(gè)機(jī)制,以適應(yīng)我們需求所能使用的最小權(quán)限。
下列規(guī)則適用于第二標(biāo)簽(subtag):
-根據(jù)ISO 3166 alpha-2 的國家標(biāo)識(shí)碼(見[ISO 3166]),所有的含2個(gè)字母的標(biāo)簽被
闡釋,或是稍后被分配為維護(hù)和調(diào)節(jié)的標(biāo)準(zhǔn)體,表示這個(gè)語言所在的區(qū)域。
-根據(jù)本文檔的第五部分,含3至8個(gè)字母的標(biāo)簽可以通過IANA注冊。
-除非本標(biāo)準(zhǔn)被修改,只含1個(gè)字母的標(biāo)簽不可用。
除以上提到的標(biāo)簽,第二標(biāo)簽(second subtag)之外,沒有對第三標(biāo)簽(third tag)
以及之后的標(biāo)簽的語法規(guī)定。
由本章所分配闡釋的代碼構(gòu)造的標(biāo)簽在使用前不需要IANA注冊。
標(biāo)簽中的信息可以是:
-國家鑒定,例如en-US(這種用法在ISO 639中有詳細(xì)說明)。
-方言及變體信息,例如en-scouse.
-沒有在ISO 639中列出的語言,也不是變體信息的,可以在它前面加前綴i注冊,例
如I—tsolyani.
-區(qū)域鑒定,例如sgn-US-MA(馬莎的葡萄園手勢語,被發(fā)現(xiàn)于美國馬薩諸塞的州)。
這篇文檔在第三部分描述了標(biāo)簽的注冊過程。
ISO 639中定義了一種對語言的添加和更新的維護(hù)機(jī)構(gòu),也就是:
International Information Centre for Terminology (Infoterm)
P.O. Box 130
A-1021 Wien
Austria
Phone: +43 1 26 75 35 Ext. 312
Fax: +43 1 216 32 72
ISO 639-2 也同樣定義了一種對語言的添加和更新的維護(hù)機(jī)構(gòu):
Library of Congress
Network Development and MARC Standards Office
Washington, D.C. 20540
USA
Phone: +1 202 707 6237
Fax: +1 202 707 0115
URL: http://www.loc.gov/standards/iso639
ISO 3166維護(hù)機(jī)構(gòu):
ISO 3166 Maintenance Agency Secretariat
c/o DIN Deutsches Institut fuer Normung
Burggrafenstrasse 6
Postfach 1107
D-10787 Berlin
Germany
Phone: +49 30 26 01 320
Fax: +49 30 26 01 231
URL: http://www.din.de/gremien/nas/nabd/iso3166ma/
ISO 3166 保留了國家標(biāo)識(shí)碼AA, QM-QZ, XA-XZ 和 ZZ 分配給用戶,這些不可用作語
言標(biāo)簽。
2.3 語言標(biāo)簽的選擇
我們可能會(huì)偶爾遇到同樣的文本有幾種可能的標(biāo)簽的情況。
如果所有的用戶發(fā)送同樣的標(biāo)簽,在所有的文檔中使用同一種語言的標(biāo)簽,那將是再好
不過的事了。如果應(yīng)用程序有需要使這些規(guī)則在特定場合不適用,則應(yīng)用協(xié)議必須指明是如
何變化的。
下面幾點(diǎn)基于為標(biāo)注的實(shí)體所知的標(biāo)簽的集合:
1. 使用最精確的標(biāo)簽,使意義明確,并且在一定范圍內(nèi)適用;
2. 如果一種語言同時(shí)擁有ISO 639-1 的2字母碼和ISO 639-2 的3字母碼,必須應(yīng)
用由ISO 639-1衍生的2字母碼。
3. 當(dāng)一種語言沒有ISO 639-1 的2字母碼,并且ISO 639-2/T(Terminology)碼和ISO
639-2/B(Bibliographic)碼不同,必須使用Terminology(術(shù)語)碼。注意:目前,
所有的語言都包含2字母碼,并且開發(fā)者(對于這一點(diǎn)的不快)已經(jīng)適當(dāng)?shù)呐cISO
取得了聯(lián)系,所以,我們不希望這種情況發(fā)生。
4. 當(dāng)一種語言同時(shí)有兩種標(biāo)簽,一個(gè)是IANA-registered 標(biāo)簽,另一個(gè)是從ISO注冊
碼衍生而來(的標(biāo)簽)時(shí),你必須要使用ISO 標(biāo)簽。注意:當(dāng)這種情況發(fā)生時(shí),
IANAregistered 標(biāo)簽應(yīng)立即被否決(禁止使用)。
5. 你不應(yīng)該是用UND(未經(jīng)決定的)(標(biāo)簽)代碼,除非應(yīng)用協(xié)議迫使你給語言標(biāo)簽賦
值,甚至于這種語言根本不被人所知時(shí),省略標(biāo)簽將是較好的選擇。
6. 你不應(yīng)該使用MUL(多重)標(biāo)簽,如果協(xié)議允許你應(yīng)用多重語言。
注意:為了避免應(yīng)用中的版本危機(jī)(如RFC 1766中提到的那樣),ISO 639
RA-JAC(Registration Authority Joint Advisory Committee)已經(jīng)在以下決策問題上
達(dá)成了共識(shí):
“在ISO/DIS 639-1作為國際標(biāo)準(zhǔn)頒布以后,所有的新的2字節(jié)碼均不可以被加入
ISO 639-1中,除非某個(gè)3字節(jié)碼也同時(shí)被加入ISO 639-2中。除此之外,在沒有相應(yīng)
的合法2字節(jié)碼時(shí),3字節(jié)碼也同樣無效。“
這將是一種保證。例如,一個(gè)用戶應(yīng)用"hwi"(hawaiian)(它不包含2字節(jié)碼),他或
她將不會(huì)發(fā)現(xiàn)自己的數(shù)據(jù)因?yàn)樽詈蠹尤氲?字節(jié)碼而變得無效。
2.4 語言標(biāo)簽的意義
語言標(biāo)簽總是定義一種語言,作為口語(書寫語,標(biāo)志,或者是信號)供人類進(jìn)行交流
與傳遞信息。計(jì)算機(jī)語言比如程序設(shè)計(jì)語言被明確的排除在外。沒有什么可以保證有同樣標(biāo)
簽的語言之間的關(guān)系;特別地,也不能保證它們(語言)見可以相互理解,盡管有時(shí)是可以
的。
標(biāo)簽和他所依存的信息之間的關(guān)系,在上下文中出現(xiàn)的地方有標(biāo)準(zhǔn)的定義和描述;因此,
這一部分只給出一些可用的例子。
--作為一個(gè)單一的信息對象,他被認(rèn)為是一種需要完整對象理解的語言集合。
例如,普通文本文件。
--作為信息對象的聚集,他被認(rèn)為是聚集的內(nèi)部構(gòu)件語言的集合。
例如,文檔士多和圖書館。
--作為提供選擇的信息載體,標(biāo)簽和與之聯(lián)系的集合應(yīng)該被認(rèn)為是一種提示,被提示的
內(nèi)容是用不同語言描述的;并且要檢查每一種選擇,以便確定它所用的語言。在這種情況下,
多重語言的標(biāo)簽并不意味著它需要多種語言才能使得文檔被人理解。
例如,MIME multipart/alternative.
--在標(biāo)記語言中,例如HTML 和 XML中,語言信息可以被加入到文檔的每一部分當(dāng)中去
(包括整個(gè)文檔本身)。
例如,你可以寫下<span lang="FR">C'est la vie.</span>一句,在一個(gè)挪威語的文檔里;
講挪威語的用戶就可以通過一本French- Norwegian詞典弄懂它的意思。如果一個(gè)用戶通過
語音合成接口來收聽這篇文檔,它的格式能被用來發(fā)信號給合成器,適當(dāng)?shù)厥褂梅▏奈谋?到語音的發(fā)音規(guī)則 ,而不誤用挪威的規(guī)則。
2.5 語言范圍
自從RFC 1766發(fā)布以來,就有需要建立一個(gè)有公共subtsg標(biāo)簽的語言集合,這已經(jīng)變
得很明顯了。
以下的語言范圍定義是有HTTP/1.1衍生而來的[見RFC 2616].
language-range = language-tag / "*"
也就是,語言范圍有著與語言標(biāo)簽相同的句法,或者說就是符號“*”。
語言范圍與語言標(biāo)簽匹配,如果他和標(biāo)簽完全相同,或者,如果它和語言標(biāo)簽有完全相
同的前綴,以至緊跟前綴的符號就是“-”。
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -