?? 196.txt
字號:
發信人: GzLi (笑梨), 信區: DataMining
標 題: 生物信息學 zz
發信站: 南京大學小百合站 (Sat Dec 7 09:43:01 2002), 站內信件
生物信息學介紹
生物信息學的現狀與展望(The Current Status and The Prospect of Bioinformatics)
中國科學院院士 張春霆
(天津大學生命科學與工程研究院 天津300072)
摘 要:
本文闡述了生物信息學產生的背景,生物學數據庫,生物信息學的主要研究內容,與生物
信息學關系密切的數學和計算機科學技術領域,生物信息學產業等內容,展望了其未來并
提出了若干在我國發展生物信息學的建議。著重指出,理解大量生物學數據所包括的生物
學意義已成為后基因組
時代極其重要的課題。生物信息學的作用將日益重要。有理由認為,今日生物學數據的巨
大積累將導致重大生物學規律的發現。生物信息學的發展在國內、外基本上都處在起步階
段。因此,這是我國生物學趕超世界先進水平的一個百年一遇的極好機會。
關鍵詞:人類基因組計劃 生物信息學
生物信息學產生的背景
有人說,基于序列的生物學時代已經到來,盡管對"序列生物學"這一提法可能有所爭議,
但是今日像潮水般涌現的序列信息卻是無可爭辯的事實。自從1990年美國啟動人類基因組
計劃以來,人與模式生物基因組的測序工作進展極為迅速。迄今已完成了約40多種生物的
全基因組測序工作,人
基因組約3x109堿基對的測序工作也接近完成。至2000年6月26日,被譽為生命"阿波羅計
劃"的人類基因組計劃,經過美、英、日、法、德和中國科學家的艱苦努力,終于完成了
工作草圖,這是人類科學世上又一個里程碑式的事件。它預示著完成人類基因組計劃已經
指日可待。截止目前為止
,僅登錄在美國GenBank數據庫中的DNA序列總量已超過70億堿基對。在人類基因組計劃進
行過程中所積累起來的技術和經驗,使得其它生物基因組的測序工作可以完成得更快捷。
可以預計,今后DNA序列數據的增長將更為驚人。生物學數據的積累并不僅僅表現在DNA序
列方面,與其同步的還
有蛋白質的一級結構,即氨基酸序列的增長。此外,迄今為止,已有一萬多種蛋白質的空
間結構以不同的分辨率被測定。基于cDNA序列測序所建立起來的EST數據庫其紀錄已達數
百萬條。在這些數據基礎上派生、整理出來的數據庫已達500余個。這一切構成了一個生
物學數據的海洋。可以打
一個比方來說明這些數據的規模。有人估計,人類(包括已經去世的和仍然在世的)所說
過的話的信息總量約為5唉字節(1唉字節等于1018字節)。而如今生物學數據信息總量已
接近甚至超過此數量級。這種科學數據的急速和海量積累,在人類的科學研究歷史中是空
前的。
數據并不等于信息和知識,但卻是信息和知識的源泉,關鍵在于如何從中挖掘它們。與正
在以指數方式增長的生物學數據相比,人類相關知識的增長(粗略地用每年發表的生物、
醫學論文數來代表)卻十分緩慢。一方面是巨量的數據;另一方面是我們在醫學、藥物、
農業和環保等方面對新
知識的渴求,這些新知識將幫助人們改善其生存環境和提高生活質量。這就構成了一個極
大的矛盾。這個矛盾就催生了一門新興的交叉科學,這就是生物信息學。美國人類基因組
計劃實施五年后的總結報告中,對生物信息學作了以下定義:生物信息學是一門交叉科學
,它包含了生物信息的
獲取、處理、存儲、分發、分析和解釋等在內的所有方面,它綜合運用數學、計算機科學
和生物學的各種工具,來闡明和理解大量數據所包含的生物學意義。生物信息學這一名詞
的出現僅僅是幾年前的事情,但是計算生物學這一名詞的出現要早的多。鑒于這兩門學科
之間并沒有或難以界定
嚴格的分界線,在這里統稱為生物信息學。
生物學數據庫
《Nucleic Acids
Research》雜志連續七年在其每年的第一期中詳細介紹最新版本的各種數據庫。在2000年
1月1日出版的28卷第一期中詳細地介紹了115種通用和專用數據庫,包括其詳盡描述和訪
問網址。迄今為止,生物學數據庫總數已達500個以上。在DNA序列方面有GenBank、EMBL
和DDBJ等。在蛋白質一級
結構方面有SWISS-PROT、PIR和MIPS等。在蛋白質和其它生物大分子的結構方面有PDB等。
在蛋白質結構分類方面有SCOP和CATH等。應該指出,幾乎所有這些數據庫對學術研究部門
或人員來說都是免費的,可以免費下載或提供免費服務。但是鑒于相當多的數據庫的經營
者們面臨著財務緊缺的
境地,這種免費的局面還能維持多久就不得而知了。有的數據庫,如SWISS-PROT,已開始
向商業用戶每年收取數千至數萬美元不等的使用費。其它數據庫暫時還是免費的,但不知
是否永遠免費。如果一些重要的數據庫對學術研究部門開始收費,這對于我國生物信息學
的發展是非常不利的。
中國是一個基因信息資源大國,我們應當抓緊建設我國自有的數據庫,在世界上做出我們
自己的貢獻,在平等的基礎上與國外共享生物信息資源。
生物信息學的主要研究內容
生物信息學主要包括以下幾個主要研究領域,但是限于篇幅,這里僅列出其名稱并只做簡
單介紹。
1. 序列比對(Alignment)。
基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。序列比對是生物信息學的
基礎,非常重要。兩個序列的比對有較成熟的動態規劃算法,以及在此基礎上編寫的比對
軟件包--BALST和FASTA,可以免費下載使用。這些軟件在數據庫查詢和搜索中有重要的應
用。有時兩個序列總體
并不很相似,但某些局部片斷相似性很高。Smith-Waterman算法是解決局部比對的好算法
,缺點是速度較慢。兩個以上序列的多重序列比對目前還缺乏快速而又十分有效的算法。
2. 結構比對。
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性。已有一些算法。
3. 蛋白質結構預測,包括2級和3級結構預測,是最重要的課題之一。
從方法上來看有演繹法和歸納法兩種途徑。前者主要是從一些基本原理或假設出發來預測
和研究蛋白質的結構和折疊過程。分子力學和分子動力學屬這一范疇。后者主要是從觀察
和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構。同源模建和指認(Thr
eading)方法屬于這一
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -