搜尋資料庫的策略

搜尋資料庫有三種策略,最容易了解的是「字串搜尋(string search)」。在圖書館中常用的Medline系統就是利用這種方式及像「醫學主題(MEdical Subject HeadingsMESH)」這樣的控制語彙(control word) 來做檢索。使用控制語彙,使我們不必在意作者使用單複數名詞、形容詞或同義字。可是序列資料庫的管理者沒有那麼多人力去編寫控制語彙,所以採用其他的運算法,以便於辨識模組樣式(pattern) 或是相似(similar) 的序列。像 FindPatterns 這樣的程式,可以讓使用者輸入比較含糊的描述方式,例如 EcoRII 酵素的辨識序列CCAGGCCTGG兩種序列可表顯示成CCWGG

可是有些時候使用者寫不出那麼明確的模組樣式,只能給一些條件來規定什麼叫做相像。

String search :字串是由一連串明確的字元的序列片段,例如

Pattern search :模組樣式是一個含有不明確字元的序列片段,例如

Similarity search : 根據運算法(algorithms),尋找相似的序列,也就是尋找符合下列條件的所有序列:

*若你的目的是要收集資料庫中所有」和給定序列相關的序列,做親緣分析等工作字串搜尋」是不夠的,因為你不知道資料庫中是使用哪些關鍵字來描述序列的,所以難免會漏掉一些序列。可是相似性搜尋」則可找出所有相似的序列,再由你選擇你要用哪一種相似性之上的序列做分析。因此 FastA TFastA Blast 等資料庫搜尋程式,也可用來收集序列」。

回到搜尋資料庫

Last updated on 11/23/01