序列品質(quality)對分析的影響

在序列品質不理想時,做DNA比對較能避免刪除式或插入式突變的影響,但錯誤的序列仍可能使相似的區域變小,甚至偵測不到,所以對靈敏度的要求比較高。若用靈敏度較高的蛋白質比對,就需有方法來解決讀架移動的影響。在此將以實例說明比較分析的方法。

既然蛋白質比對的靈敏度高於核酸比對,而核酸資料庫的資料卻比蛋白質資料庫豐富,最好就是將核酸資料庫轉譯為蛋白質資料庫做比對。更正確地說,是做六個讀架的轉譯,以免失去DNA資料庫中的任何資訊。不過這種比對不但比較消耗計算資源,在資料分析上也比較困難。例如以TFIIIA的蛋白質搜尋轉譯的DNA資料庫時,EST aa033782TFIIIA的蛋白質會同時在 +1 +2兩個不同的讀架上有相似的區域,而這兩個區域也不重疊。

若不考慮轉譯讀架的問題,而只列出最長的相似區域,不論是用BlastNTBlastN做分析,都只會找到約258個鹼基對 (86個胺基酸)的相似區。可是若用FastA或是FrameAlign的結果,則可找到約534個鹼基對 (178個胺基酸)的相似區。這結果顯示這兩個方法比較靈敏,其中FastA 的使用較簡單,而在訊號微弱時,FrameAlign又會優於FastA。因為FrameAlign考慮的是蛋白質的比對,「訊號/雜訊」比較高。新版的Blast (gapped blast)已可加入「空隙 (gap)」來改善並列分析的結果,理論上可以延伸相似的區域,增加靈敏度,可惜測試的結果還是不理想。GCG要到下一版才支援gapped blast的功能,不過GenWebBlast有提供此功能。

Program Output Query Local Databank Longest Match without FrameAlign Comments
blastn EST aa033782 GenEMBL 256 nt / ~ 85 aa End of analysis
blastx EST aa033782 SwPlus 258 nt / 86 aa Can be optimeized
tblastx+ EST aa033782 GenEMBL$ 258 nt / 86 aa Can be optimeized
gapped blast EST aa033782 NCBI NR 48 nt / 16 aa End of analysis
fasta EST aa033782 GenEMBL 534 nt / 178 aa End of analysis
tblastn tfiiia.pro GenEMBL 258 nt / 86 aa Can be optimeized
blast"s" => framealign* - - 534 nt / 178 aa End of analysis

+ tblastx will have a better results if the databank seq. also have a low sequence quality, such as dbEST.

$ Only dbEST can be searched by tblastx if you are using the remote (NCBI) databanks.

* The blast result is difficult to analyze without FrameAlign. The FrameAlign output will match ~ 534 nt or ~ 178 aa, which is about twice longer than the longest match listed in the table.

Last updated on 11/23/01