語言學的類比

1988 年開始的基因體研究計劃,非但對生物學家研究的方式產生影響,也是電腦在生物學上應用的一個重要轉折點。因為有計劃的序列分析將產生大量的資訊,大到沒有電腦就無法處理這些資訊。在基因體分析計劃中也支持生物資訊學(bioinformatics) 的發展,因為研究所得的圖譜、序列資訊若不整理就無法有效的利用。能預見的是誰能有效利用這些圖譜、序列資訊,誰就能掌握先機。雖然目前大部份的資源都用於決定序列上,未來最大的挑戰將是如何了解這些序列中所存的資訊,也就是所謂的「DNA語言」。

解讀 DNA「語言」的策略

DNA 語言之所以難懂是因為我們表示 DNA 序列的方式,並不是一個自然的表示法。如圖2 所示,若將 Sidney Brenner 的一句名言改用表示 DNA 序列的方式來寫,就很難一眼看出這句話的意義。序列的自然表示法是以基因為單位,因為它像一個句子那樣表達一個完整的概念。可是在基因被調控時,或是表現成蛋白質而執行功能時,可能由一些獨立運作的小單元,例如 TATA box leucine zipper 等,分別執行不同的任務。這些獨立單元就像字一樣,會重覆出現在不同的句子中。字在不同的句子中,有不同的組合方式,這就靠文法來規範。文法就像整合各種共有(consensus) 序列或蛋白質模組(motif) 成為基因的方式,文法也像是核酸序列與蛋白質之間交互作用的規則。想要瞭解一個未知的語言,就要由瞭解字的意義與文法的使用著手。

要了解如何破解一未知的語言,可以由瞭解破解密碼的方法入手。假設我將 Brenner 的句子中的每一個字母都轉化成為另一個字母,例如,將所有的 A 都變成 BB 都變成 C,... (圖1)。任何不知道轉化規則的人,將無法了解這句話的意義。可是字母、字、詞的特性是它們會重覆的出現在文章中,因此只要文章夠長,就可以利用統計的工具來辨識什麼是字,例如在轉化過的句子中 kvol 出現兩次,它剛巧代表 junk 這字。戰時所用的密碼比這個例子複雜許多,可是破解的原理卻很相似,事實上由敵軍的反應中,可猜測字的意義。在二次世界大戰時,美軍就因為破解了日本的密碼,而在中途島重創日本海軍。這個比喻讓我們知道若能破解 DNA 語言的文法,共有序列與蛋白質模組的功能,就可以幫助我們瞭解基因的功能。基因間交互作用的方式,是以 DNA 語言記載在書的章節中,而生命現象就紀錄在「基因體序列」這一本書中。

1. 表示 DNA 序列的方式,對解讀 DNA 語言的影響

語言的比喻使我們知道破解 DNA 語言的作法,可是 DNA 序列中重覆出現的區域是 junk 或是真的有意義? 這可由遺傳和變異之間的平衡來討論: 到序列重覆出現的意義

Last updated on 08/29/01