?? rfc1691.txt
字號(hào):
組織:中國(guó)互動(dòng)出版網(wǎng)(http://www.china-pub.com/)
RFC文檔中文翻譯計(jì)劃(http://www.china-pub.com/compters/emook/aboutemook.htm)
E-mail:ouyang@china-pub.com
譯者:張彥富(zhyfln zhyfln@163.net)
譯文發(fā)布時(shí)間:2001-4-26
版權(quán):本中文翻譯文檔版權(quán)歸中國(guó)互動(dòng)出版網(wǎng)所有。可以用于非商業(yè)用途自由轉(zhuǎn)載,但必須
保留本文檔的翻譯及版權(quán)信息。
康奈爾大學(xué)數(shù)字圖書館文檔體系結(jié)構(gòu)
(RFC 1691 The Document Architecture for the Cornell Digital Library)
Status of this Memo
This memo provides information for the Internet community. This memo
does not specify an Internet standard of any kind. Distribution of
this memo is unlimited.
Abstract
This memo defines an architecture for the storage and retrieval of
the digital representations for books, journals, photographic images,
etc., which are collected in a large organized digital library.
Two unique features of this architecture are the ability to generate
reference documents and the ability to create multiple views of a
document.
【介紹】
1989年,在Preservation And Access(保存和訪問(wèn))委員會(huì)以及后來(lái)Sun
Microsystems公司的支持下,康奈爾(Cornell)大學(xué)和施樂(lè)(Xerox)公司開始合作
研究為圖書館內(nèi)儲(chǔ)藏的數(shù)據(jù)數(shù)字化建立模型。施樂(lè)公司負(fù)責(zé)開發(fā)大學(xué)圖書館資料
存取系統(tǒng)(CLASS),康奈爾大學(xué)負(fù)責(zé)開發(fā)通過(guò)網(wǎng)絡(luò)訪問(wèn)CLASS數(shù)字化圖書館的軟
件。
施樂(lè)公司和康奈爾大學(xué)圖書館工作人員緊密合作,首先一起明確了存儲(chǔ)要求,
即要保存低分辨率和高分辨率兩個(gè)版本的圖像文件,低分辨率版本用于通過(guò)網(wǎng)絡(luò)
瀏覽,高分辨率版本用于打印輸出。然后定義了內(nèi)部可導(dǎo)向的文檔結(jié)構(gòu)。施樂(lè)公
司開發(fā)創(chuàng)建和存儲(chǔ)文檔的軟件,康奈爾大學(xué)開發(fā)允許通過(guò)網(wǎng)絡(luò)瀏覽和請(qǐng)求打印文
檔的軟件。
康奈爾大學(xué)定義了基于CLASS文檔體系結(jié)構(gòu),并按該體系結(jié)構(gòu)來(lái)管理數(shù)字化
圖書館資料。
【文檔體系結(jié)構(gòu)概述】
正如傳統(tǒng)圖書館保存的圖書是按冊(cè)而不是按頁(yè)一樣,電子圖書館保存資料也
必須是文檔而不是一些圖像文件。在將圖書掃描成圖像文件過(guò)程中,通過(guò)建立的
文檔結(jié)構(gòu)文件,能自動(dòng)將掃描出來(lái)的圖像文件按照?qǐng)D書原來(lái)頁(yè)的順序鏈接起來(lái)。
因此數(shù)字圖書包括兩部分——一組每頁(yè)存為一個(gè)位圖圖像文件和將圖像文件“裝
訂”成書的文檔結(jié)構(gòu)文件。另外為了能使讀者能按作者、標(biāo)題等書目信息檢索電
子文檔,還用數(shù)據(jù)庫(kù)為每一個(gè)文檔保存這些信息。在紙板圖書中,除了有頁(yè)的序
號(hào)外,還提供了許多其它信息給讀者。首先是標(biāo)題和出版信息,在正文前有目錄,
正文分為章節(jié),有時(shí)還會(huì)在正文后給出索引信息。當(dāng)讀者在圖書館書架上找書時(shí),
就是靠這些信息決定是否借閱這本圖書的。
建立文檔結(jié)構(gòu)就是為了能直接訪問(wèn)電子圖書的這些信息,如果不存儲(chǔ)這些信
息,當(dāng)圖書電子化后就不能利用這些信息了。
【文檔體系結(jié)構(gòu)要求】
下面列出了康奈爾大學(xué)數(shù)字圖書館文檔體系結(jié)構(gòu)的基本要求:
1.體系必須是開放的(即能方便出版和訪問(wèn));
2.體系越簡(jiǎn)單越好(便于產(chǎn)品開發(fā));
3.體系采用UNIX文件存儲(chǔ)系統(tǒng);
4.體系要滿足標(biāo)準(zhǔn)使用,如作為FTP和Gopher服務(wù)器; (即一個(gè)文檔的所有頁(yè)
圖像文件必須存儲(chǔ)在同一個(gè)目錄下,文件名必須按標(biāo)準(zhǔn)排序規(guī)則,即按
“0001.TIF, 0002.TIF, ... 0411.TIF”; 如果命名為“1.TIF, 2.TIF, ...
10.TIF”,文件就會(huì)排列成“1.TIF, 10.TIF, 2.TIF”, 這種排序不符和習(xí)慣。)
5.體系應(yīng)能為相同信息按不同格式提供存儲(chǔ),例如 能為每一頁(yè)圖像文件存儲(chǔ)不同
分辨率的文件;
6.必須為每一頁(yè)圖像文件存儲(chǔ)一個(gè)低分辨率的“指甲圖”,以便于瀏覽和數(shù)據(jù)共享;
7.該體系必須支持文件的分發(fā),便于相似的文件存儲(chǔ)在一起,允許對(duì)存儲(chǔ)和性能
優(yōu)化處理;
8.該體系必須對(duì)文檔間相互指引提供支持;
9.該體系必須能通過(guò)網(wǎng)絡(luò)將文件不同內(nèi)容存儲(chǔ)到其它服務(wù)器上;
10.該體系不僅要支持文檔的分級(jí)結(jié)構(gòu),還要能定義文檔的多個(gè)視;
11.該體系要能自由建立而不是事先規(guī)定文件的目錄結(jié)構(gòu),這樣就能將用其它方式
建立的文件能夠簡(jiǎn)單地通過(guò)將信息加入到數(shù)據(jù)庫(kù)中來(lái)建立文檔,而不用拷貝
或移動(dòng)文件。
【文檔體系描述】
數(shù)字化圖書館包括數(shù)字化圖書館服務(wù)器、網(wǎng)絡(luò)存儲(chǔ)和關(guān)系數(shù)據(jù)庫(kù)。一個(gè)數(shù)字
化圖書館包括一組或多組館藏集,每一組館藏集包括一個(gè)或多個(gè)文檔。
關(guān)系數(shù)據(jù)庫(kù)允許讀者按作者、標(biāo)題和文件代號(hào)來(lái)查找文檔。現(xiàn)在實(shí)現(xiàn)的系統(tǒng)
中,關(guān)系數(shù)據(jù)庫(kù)采用的是SQL,每一種館藏集對(duì)應(yīng)數(shù)據(jù)庫(kù)的一個(gè)表。已經(jīng)計(jì)劃將
數(shù)據(jù)庫(kù)升級(jí)到Z39.50來(lái)使用更優(yōu)化的搜索方法,該協(xié)議已經(jīng)成為圖書館數(shù)據(jù)庫(kù)應(yīng)
用的標(biāo)準(zhǔn)。
盡管從設(shè)計(jì)上可以從任何層次上甚至在單個(gè)文件級(jí)別上設(shè)置授權(quán)檢驗(yàn),但本
次實(shí)現(xiàn)訪問(wèn)權(quán)限設(shè)置在館藏集級(jí)的。只有當(dāng)有人試圖打開文檔或訪問(wèn)特別的內(nèi)容
是才會(huì)給出警示通告。
每一個(gè)文檔包括三部分:邏輯結(jié)構(gòu)文件、物理關(guān)聯(lián)文件和數(shù)據(jù)文件。
邏輯結(jié)構(gòu)是文檔的邏輯描述。從概念上講,一個(gè)文檔就是一個(gè)樹結(jié)構(gòu),它的
葉子就是數(shù)據(jù)文件(圖書的頁(yè))。一個(gè)文檔的邏輯結(jié)構(gòu)至少包括圖書頁(yè)的列表和他
們出現(xiàn)的順序。通常文檔要包括更多的結(jié)構(gòu)描述。邏輯結(jié)構(gòu)文件將文檔的邏輯結(jié)
構(gòu)與物理關(guān)聯(lián)文件聯(lián)系起來(lái)組成文檔。
物理關(guān)聯(lián)文件將文檔的邏輯結(jié)構(gòu)的最低層次(樹的葉子)映像到存儲(chǔ)數(shù)據(jù)的
文件。如果文檔得一頁(yè)有多個(gè)版本的文件,比如不同分辨率的圖像文件,在物理
關(guān)聯(lián)文件中都給鏈接到一起。
數(shù)據(jù)文件包括組成文檔的數(shù)據(jù)。要能夠包容所有格式,如影像文件,ASCII
文本文件,PostScript文件等。然而數(shù)據(jù)文件和其格式是一一對(duì)應(yīng)的,以便在物
理關(guān)聯(lián)文件中實(shí)現(xiàn)關(guān)聯(lián)。也就是說(shuō),如果一頁(yè)數(shù)據(jù)有多種文件類型存儲(chǔ),那么這
些文件必須確切地表示它的類型的信息。
【物理關(guān)聯(lián)文件】
物理關(guān)聯(lián)文件是將文檔邏輯結(jié)構(gòu)(文檔的邏輯組成)和實(shí)際存儲(chǔ)的物理文件
聯(lián)系起來(lái)的文檔文件。在物理關(guān)聯(lián)文件中處理文檔關(guān)聯(lián),能使一個(gè)文檔全部或部
分地存儲(chǔ)在不同的服務(wù)其中。
一個(gè)文檔可以包括多種文檔對(duì)象,而每一種文檔對(duì)象又可以包括一個(gè)或多個(gè)
數(shù)據(jù)對(duì)象。如果一個(gè)文檔包括最終的物理數(shù)據(jù)(比如有掃描建立的影像文件),就
要建立一個(gè)主文檔對(duì)象。如果一個(gè)文檔中包含有其它文檔中的內(nèi)容,就要建立一
個(gè)關(guān)聯(lián)文檔對(duì)象。文檔對(duì)象按內(nèi)部關(guān)聯(lián)序號(hào)編號(hào),在對(duì)應(yīng)的數(shù)據(jù)對(duì)象行中也包括
該編號(hào)。
數(shù)據(jù)對(duì)象行包括文檔對(duì)象號(hào)、文件關(guān)聯(lián)號(hào)和文件類型三部分內(nèi)容。數(shù)據(jù)對(duì)象號(hào)指
向文檔對(duì)象行,從文檔對(duì)象行可以得到圖書館名,館藏集名和文檔代號(hào)。用組元
<library ID>+<collection ID>+<document ID>+<filetype>+ <file reference>
(<圖書館代號(hào)>+<館藏集代號(hào)>+<文檔代號(hào)>+<文件類型>+<關(guān)聯(lián)文件>)
保證能夠正確找到文件。每一個(gè)數(shù)據(jù)行都指向單獨(dú)的文件,如果文檔的一頁(yè)有多
種類型文件,就建立多行在數(shù)據(jù)對(duì)象。
在物理關(guān)聯(lián)文件中所有的文檔對(duì)象行位于所有的數(shù)據(jù)對(duì)象行的前面,文檔對(duì)象行
要么作為一組一起存在文件的頭部,要么緊挨存儲(chǔ)在對(duì)應(yīng)的數(shù)據(jù)對(duì)象行的前面。
文檔對(duì)象行按文檔對(duì)象號(hào)的順序排列。數(shù)據(jù)對(duì)象行按期順序號(hào)的順序排列,不安
文檔對(duì)象號(hào)的順序排列。
在物理關(guān)聯(lián)文件種字段間用豎條符|隔開。
文檔對(duì)象行
字段 內(nèi)容 備注
1 文檔對(duì)象號(hào) 0為主文檔對(duì)象,1-9位指向文檔對(duì)象
2 圖書館名 服務(wù)器名
3 館藏集名
4 文檔代號(hào) 8位數(shù)字
5 作者
6 卷號(hào)
7 標(biāo)題
8 版本
數(shù)據(jù)對(duì)象行
字段 內(nèi)容 備注
1 文檔對(duì)象號(hào) 和文檔對(duì)象行中相對(duì)應(yīng)
2 順序號(hào)
3 關(guān)聯(lián)文件 用于在文件系統(tǒng)中查找文件的關(guān)聯(lián)數(shù)字
4 物理關(guān)聯(lián)數(shù)字 與邏輯結(jié)構(gòu)文件中相等
5 文件類型 1=TIFF 600dpi
2=TIFF 小圖塊
3=ASCII文件
4=ASCII文件注釋
5=其它類型
6=TIFF 300dpi
6 備注
?? 快捷鍵說(shuō)明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -