生命科學為了探究生命的奧秘,因此常由機械論的角度來觀察正常狀態的運作。可是只觀察正常的狀態不易找到問題的關鍵,因此常透過研究不正常的狀態,甚至人為的突變來剖析生命運作的原理。狹義的醫學則企圖將身體由不正常的狀態恢復成正常的狀態,或是退而求其次地減輕病人的痛苦。廣義的醫學則是透過對於致病機制的瞭解,而設計出治療疾病的方法。要瞭解致病的機制經常要觀察分子層次的變化,分子醫學的名詞隨之而生。
在分子醫學中常用的策略是比較正常狀態和異常狀態的差異。在找到許多差異後,要判斷這些差異是造成異常的原因,還是異常狀態所產生的結果。最後希望由尋找「病因」的過程中,找到主控的基因 ( master gene ) 或步驟。因為每個人的精力都是有限的,因此常選擇一個自己可以處理的問題來做。這樣的後果是可能只看到問題的一部分,因此不同的人,可能因為實驗條件的差異,而觀察到不同的結果。這種現象將因我們由基因體世代走向後基因體世代而逐漸產生改變。
所謂後基因體世代指的是一個已有整個基因體序列的時代。因此我們不必再將時間浪費在選殖少數基因與決定序列,而可追問 DNA 中資訊的涵義或是應用序列資訊來解決一些問題,也就是生物科技的應用。基因體分析的精神在於它強調得到所有的資訊,雖然看不看得懂是另一回事,但是在分析問題時比較不會有以偏概全的問題。
基因體分析的產物狹義來說只有基因體的序列,可是若由基因體分析的精神來做廣義的解釋,則可依遺傳訊息運作的 central dogma,而得到三種產物。在 DNA 層次,所得的是基因體序列;在 RNA 層次,所得的是表現序列標幟 ( Expressed Sequence Tag , EST );在蛋白質層次,所得的是所謂的 "蛋白體 ( proteome )",也就是在二維電泳上所展開的個別蛋白質的總稱。
基因體序列所記載的,不止是執行工作所需的元件,更有各元件間交互作用的關係。隱藏在這交互作用之後的,有運作時的階層性與時序性。在有了全序列之後,我們不但知道細胞中有什麼功能,也知道它沒有什麼功能。而後者經常是進步的重要因子,因為科學上的進步,是發生在打破既有的觀念或發現新的觀念上,而不是一再地顯示既有的觀念沒有錯。
基因體序列雖然記載著所有的資訊,可是在一個多細胞生物中,不同的細胞可能會表現不同的基因。在尚未能定出有哪些元件參與作用的現在,根本就談不上如何區辨基因會在哪些細胞中表現。最簡單的反而是由實驗上去決定在不同的細胞中表現了哪些 mRNA 或蛋白質,這些資訊將對我們解讀基因體序列有莫大的幫助。
表現序列標幟是將 mRNA 反轉錄為 cDNA 後,所決定的部份 cDNA 序列。 這一小段 200 bp 到 700 bp 左右的片段,雖然不是一個完整的基因,它卻足以作為序列比對或是原位雜交 ( in situ hybridization ) 時的「標幟 ( tag )」,因此有助於釐清基因表現的時序,甚至其階層性。目前這些 cDNA 殖株都已依序整理好,而由 EST 序列的辨識碼 (ID) ,即可查出其位置。若自己研究的序列與某 EST 序列相似,即可查出其 cDNA 之儲存位置,直接購買 cDNA殖株而不再需要自己選殖。因此研究者可將精力放在尋找差異,判定因果關係並決定主控基因上,而不必花許多精力做選殖、定序。在不同組織中的 mRNA 可能有不同的基因剪接 (splicing) 形式,這在 EST 中可以觀察到。依此類推,透過 EST 序列與基因體序列的比對,將有助於決定基因的兩端與基因剪接點。
mRNA 在轉譯成蛋白質後,還有另一個層次的調控,例如荷爾蒙或生長因子接合到細胞表面後,為了放大訊號,可能會產生磷酸化等蛋白質修飾,這一連串的反應與調控息息相關,可是在 mRNA 的層次可能沒有很大的變化。因此想要瞭解生命現象的全貌,必須靠 RNA 與蛋白質層次的努力才能去解讀 DNA 層次的基因體序列。
在過去生命科學是不講求預測的,因為過去的研究多屬於個案的分析,在實驗條件不能統一的情形下,觀察經常是比預測有效率的。可是在將具有所有序列資訊的未來,當我們試圖瞭解 DNA 中蘊涵的資訊之前,應先自問「生命科學中有原則嗎?」要回答這問題其實該由「生命科學中應該有原則嗎?」問起。因為數學家在花時間證明一個困難的問題之前,必先證明這問題是可被證明的。因此在我們企圖去尋找生命科學之規則前,也要確認我們可以找到原則。
由遺傳學的理論知道,在複製的過程中可能會產生少許的變異。在一個只有一套染色體的生物中,若產生不好的突變,這個變異可能因個體死亡而不會流傳下來。可是在染色體中若發生基因重覆 ( gene duplication ) 的現象,那麼多出來的基因是有機會變化為另一個新的基因。因為多出的基因即使產生致死突變,也不會對生存有影響,可是多出的基因若產生有利於生存競爭的變化,就會被保存下來。例如酵素與受質接合的區域,可能會因為變異,而使酵素能接受另一受質,生物可能因為能利用一種新的碳源,而更具競爭力。例如木糖醇 ( xylitol ) 與核糖醇 ( ribitol )…
除了這種類型的變異外,因為重覆的基因有同源的區域,可能在基因中、或基因間產生基因重組。在抗體產生的過程中,我們已看到組合的策略,使生物能利用少數的元件,而產生大量的、不同的新元件;組合策略也在基因調控上被觀察到。其中有利的組合會被應用在不同的系統之中,由這角度來看,生物體中是有規則可循的。
在此舉兩個例子說明生物體中的規律性。第一個例子是α– 酮酸的氧化。在生物體中,胺基酸分解的第一個步驟就是轉胺作用,在轉胺後胺基酸就成為α– 酮酸。若將生物體中分解α– 酮酸的方法並列在一起,可發現它們的共同特徵是它們都會經過「脫氫,釋放二氧化碳,並與輔酵素A形成比原α– 酮酸少一個碳的 acylCoA」。事實上由丙酮酸變成乙醯輔酵素 A 的反應也是如此。這些酵素利用同樣的催化原理,因此產生同類型的反應。可是它們與受質接合的位置卻稍有不同,因此有些可與線狀的分子作用,有些可與分叉的分子作用。這是一個酵素產生變異的例子,接下來要舉一個反應路徑被應用在不同的代謝路徑中的例子。
在 TCA 循環中,可分為兩個階段。第一個階段是乙醯輔酵素 A與載體 OAA 結合後,會一次一個地放出兩個二氧化碳。第二個階段是要將放出二氧化碳後剩餘的四碳化合物,再轉化為 OAA。這樣才能再繼續接受乙醯輔脢 A,而源源不斷地釋出二氧化碳,並產生能轉化為 ATP 的還原力。在這第二個階段的反應中是將碳 - 碳的單鍵經過「脫氫、加水、脫氫」的步驟,建立碳 – 氧雙鍵的酮基。在有機化學上酮基與碳 – 碳鍵的形成或斷裂有關,因此四碳化合物必須轉化為含酮基的 OAA,才可能和乙醯輔酵素 A 結合。當然在這個「氧化」(即脫氫) 的過程中,原儲在四碳化合物中的能量也同時以還原力的形式被釋出。
在脂肪酸的β- 氧化過程中,每次會切下一個乙醯輔酵素A。這個碳 – 碳鍵斷裂的過程也與酮基的存在有關。可是酮基是怎樣被引入具飽和的碳鏈上的呢?若觀察細部反應,會發現此路徑與 TCA 循環中,將四碳的 succinate 轉化為 OAA 的過程相同,也是經過「脫氫、加水、脫氫」的步驟。這個例子是整個反應路徑被重覆使用,但受質的大小卻有很大差異的例子。
在以上的例子中我們可看到生物體內確實有某些規則存在,只要我們再努力尋找,將會找到更多的原則。接下來要討論得到全部的基因體序列後,要怎麼來尋找生物體中的規則。在此我要以「語言」為模型來說明,在這模型中,蛋白質內的模組,例如 motif 或 domain 代表的是語言中的「字」。這些模組各具獨立的功能,有些會接合DNA,有些會與其他蛋白質作用,就像不同的字傳達不同的意義。不同模組「組合」成的蛋白質則代表語言中的「詞」,它亦具另一層的意義。若以 DNA 為例,在啟動子上某一轉錄因子的接合位置可能代表「字」;而協同調控的一組轉錄因子接合位置就相當於「詞」。這些字和詞在文法的規範下可形成句子,就像是巨分子間的交互作用有一些目前尚不瞭解的原則。
語言學的模型固然有助於瞭解組成的元件與元件間交互作用的規則,可是生命是有方向性的,受精卵經過分裂、分化與細胞間的交互作用而產生個體,在這過程中特定的基因只在某段時間,在某一細胞中表現。某些基因一定在另一類型的基因表現前先表現,而下游的基因可能又會將訊號回饋給上游的基因。若以簡單的乳糖 operon 之調控為例,即可發現一個靜態的交互作用圖譜,只能顯示哪些分子會交互作用,可是不足以顯示不同狀態下的交互作用結果。例如在葡萄糖存在時,或用乳糖取代葡萄糖時是兩個不同的狀態。語言的模型不易呈現出基因表現的階層性與時序性,更無法表達回饋現象等和調控有關的機制。這些問題在工學上研究的非常清楚,因此一個機械的模型較能表達動態與調控的特性。例如一個引擎必須先起動,起動後就會循著「進氣、壓縮、點火、排氣」的步驟週而復始地運動。