Blast 的計分方式
雖然 FastA 與 Blast 同為 heuristic algorithm,前者在計算的過程中並無統計理論的基礎,而是在找到相似區之後再做統計意義的評估(利用最佳化之後的得分算期望值)。Blast 則是以嚴謹的統計理論,直接選出有意義的區域再做並列分析。不過目前的理論無法處理空隙的問題,這是 Blast 只能輸出相似片段的原因。
Blast 利用混亂編碼的方式,能夠很快地找到相似性高的區,並向兩側延伸,因此每一對序列都有許多相似的片段。在這些片段中,得分最高的片段稱之為 MSP (Maximal Segment Pair)。根據統計理論,可直接由隨機序列的模型中,算出在給定的查詢序列長度,資料庫大小之下,讓此片段的相似性具統計意義的門檻值 (cutoff score) S。在比較的過程中,會先選擇值得分析的「字」,也就是其得分必須高於某一可調整的門檻值t,這個字才會被納入計分,進一步分析其延伸後的總分是否超過 S 。在 Blast 中所使用的設定是電腦模擬所求出的最佳「字長」 (word length) 門檻值 T ,能平衡速度與靈敏度的需求。整個的篩選過程中不需做並列分析,即可確定各片段在統計上的意義,所以速度很快。若在找到有意義的區域後,自動做區域性為序列互並列分析,則速度就與 FastA 相似,而不再具有特色。因此 Blast 是以搜尋速度為主要的訴求,讓使用者很快找到相似的序列,再決定該怎樣做下一步的分析。
[ GCG程式 | 參數設定 | 結果分析 | 程式類別 | 個案分析 | 標準分析 ]
Last updated on 11/21/01