楊永正
不同的人對生物資訊學的認知都不太相同,不過大致可分兩類。資訊領域學者有興趣的是「生物資訊學」,而生物領域學者有興趣的是「資訊生物學」。前者在本質上是資訊學,因此是以研發運算法、資料庫及網際網路的應用為主,所用的資料是生物資訊。而後者在本質上是生物學,以生物資訊學所發展出之工具及資料庫,來解決生物、農學或醫學上的問題。雖然兩者都很重要,但「生物資訊學」卻是「資訊生物學」的基礎,沒有這基礎就無法發展生物學家有興趣的「資訊生物學」。因為生物學家不能等國內的「生物資訊學」發展成功,再做「資訊生物學」研究,就產生了對研究資源的需求。需要有服務性的機構引入國外的生物資訊學工具,並提供推廣教育,協助生物學家解決生物學上的問題。可是這種類型的研究,一次研究一個問題,這與基因體科學
(genome science) 強調「宏觀 (global) 分析」與「巨量 (high throughput) 分析」的精神不符。這種小型的研究雖比傳統上(完全由實驗來解決問題)快,其效率仍不夠高。若無法升級採用基因體科學的觀點,未來國內生物學的發展可能失去競爭力。在國內發展「生物資訊學」是推動「資訊生物學」的原動力,而後者又是提高基礎研究與生技產業競爭力的關鍵。以國內資訊學、統計學與分子生物學人才濟濟的情形來看,若能成功的整合這三方面的人才,應非常容易有好的成績。分子生物學本是基因體科學的基礎,只要分子生物學者能由宏觀的、巨量的角度想問題,很容易抓住基因體科學的精神。目前因為網際網路發達,不少生物學領域的年輕人也比現在的老師們瞭解電腦,只要稍加訓練,應很容易使國內生物資訊學的工具,緊追在國際水準之後。以陽明大學建立生物資訊核心實驗室的經驗
(http://binfo.ym.edu.tw/core/) 為例,因為有註解定序核心實驗室所產生的序列的需求,只花一年左右即可建立基本架構 (infrastructure)。因此,如何培育新的人才,以保持目前運作的水準將是未來要克服的困難。以陽明大學的經驗為例,是透過設立「生物資訊學程」(http://binfo.ym.edu.tw/edu/) 來培養這種跨生物與資訊領域的後起之秀。可是資訊本是一個不斷進步的領域,生物學背景的人即使對電腦很有興趣,最多也只能做到緊追在國外之後。而且這種追趕是浮游無根的,只要國外不再將新的軟體與資料提供出來,我們馬上就會落後。想要迎頭趕上,就必須培養國內生物學者、統計學者與資訊學者間的合作默契。因為資訊與統計學者不熟悉生物學的名詞,也不太瞭解生物學上的需求,若沒有生物學者的協助,不易獨力發展出適合生物學者使用的工具。在做合作的嘗試時,三方都要付出耐心與決心,才能克服名詞上的障礙,做出一些有用的工具。
合作的題目,對合作是否成功扮演著關鍵的角色。我個人認為所謂的成功,是指是否能建立未來做生物資訊學研究的基礎,一旦建立了這些技術,同樣的技術即可用來解決各種問題。在生物資訊學中的幾個關鍵技術分別是計算能力的取得、資料庫技術的建立,與使用者介面的開發。在計算能力方面,為解決生物學中所產生的大量序列,及分析序列時所衍生的計算問題,可由軟體與硬體兩方面著手。軟體方面要發展的是運算法及其衍生之程式,需要統計與資訊專家的通力合作。在硬體方面則要加強平行計算的設備,這又可分別由高速電腦、個人電腦叢集、與平行計算器等三方面來改善計算的速度。這些方面雖有高速電腦中心提供服務,在運算法方面仍賴資訊學者的努力,不過這也需要生物學者提出好的題目。在資料庫方面則需生物學者與資訊學者的密集討論,建立起默契之後,日後要設計新的資料庫就容易很多了。在做資訊探採
(data mining) 時,資訊學者也需統計與生物學者提出建議。在使用者介面方面,則需要生物學者提供規格,在完成後更要其測試是否可找到正確的資訊。個別的小型研究,無法在短期內累積各方面的經驗,不易看到成效,卻有培養實力的功能。換言之,在進步神速的生物資訊學領域,綜合性的合作計劃才有可能在短期內建立國際競爭力,不然就要累積數年的經驗,才可能產生被一般生物學者接受的工具。根據陽明、中央、台灣等三所大學合作建立「重覆序列資料庫」的經驗,我認為建立「加值資料庫」可能最適合建立生物與資訊學者的合作默契。因為這種類型的計畫不但對發展「資訊生物學」有極大的幫助,能建立上述之技術,也需要生物、統計與資訊學者間的密切合作,所以適合作為培養研究團隊的起點。序列資料是原始的數據,欲由其中取得有用的資訊就必須做進一步的分析,例如資料庫比對等。對一般的生物學家而言,要學習怎樣使用序列分析工具,需要投入不少心力。網頁形式的分析工具,固然減少了學習的障礙,其功能亦受到限制。若要進一步做大量的資料處理,則需要更多的心力。若能由熟悉生物資訊學者規畫,利用夜間電腦空閒的時段,有系統地做常用的運算,並將結果整合為資料庫,則生物學家不但免去了學習分析工具的時間,也不必在思考的過程中,分心做序列分析。過去生物學者限於計算資源或自己的時間,無法檢視所有的數據,只能集中心力在自己有興趣的基因。若資料已全部算出並整理成資料庫,只要善用資料庫,就能取得其他的分析結果佐證自己有興趣的問題。更重要的是這種全面性分析所衍生的資料庫,能讓使用者透過資料庫查詢,來驗證自己在生物學上的假說。
由這樣的角度看,建立「加值資料庫」的整合型計畫,不但有助於建立由生物學者、統計學者與資訊學者結合而成的「生物資訊學」團隊,而且好的加值資料庫,不但增加了生物學者的工作效率,更有指引生物學家研究方向的效果,能讓國內的「資訊生物學」研究取得先機。因此,建立加值資料庫不但在為「生物資訊學」紮根,也是「資訊生物學」的驅動力,具有一石兩鳥的效果。在這次演講中,我將以上述三校在沒有計畫支援的情形下所發展之「重覆序列資料庫」為例,說明生物學者與資訊學者的互動。並希望未來能在計畫支援下,更上一層樓。
在推動的階段上,前期應透過合約型計畫,讓各學校有機會引入網際網路上現有的工具,建立其做生物資訊研究的基礎。目前這部份是由國家衛生院負責推動。在同時或稍後應鼓勵建立由生物學者、統計學者、與資訊學者組成研究團隊,發展運算法或建立加值資料庫。這個階段中成功的產物,可利用合約計畫建立友善的使用者介面或繼續維護這些資料庫。當生物資訊學的發展步入正軌時,應鼓勵學者利用這些加值資料庫,開發具創造性的研究,逐漸將重點移向「資訊生物學」,使國內生物學的研究與生物科技能脫胎換骨,發揮自己的特色。