個案分析解答 - GCG 環境下建立 blast 個人資料庫

Blast 為增加計算速度,將序列壓縮以便在記憶體中執行比對,因此其序列格式與GCG序列的格式不同。在 GCG 套組中提供工具,讓你將自己有興趣序列,壓縮成為可搜尋的blast資料庫。

需用檔案

GCG格式的核酸或蛋白質序列檔案

需用程式

GCG套組中的GCGToBlast程式、文書編輯器

方法步驟

  1. 簽入提供GCG套組的工作站電腦,進入GCG的環境
  2. 建立一個新的子目錄,例如「db
  3. 將欲編輯成資料庫的所有序列檔存在此子目錄下,並將所有的序列的附加檔名設為「.seq」。
  4. 在提示符號後輸入「gcgtoblast del in=*.seq out=mydb( 1),將所有的序列,編輯成為可以供BLAST進行搜尋的格式。設定參數「-del」的目的,在於刪除ToBlast所產生的FASTA格式檔案。「in=*.seq」表示將所有附加檔名為「.seq」的序列檔輸入區域資料庫之中。以「-out=mydb」指定新的資料庫名稱為mydb
 
% gcgtoblast -del -in=*.seq -out=mydb
GCGToBLAST combines any set of GCG sequences into a database that you can
search with BLAST.
1003515 455 characters.
1004648 400 characters.
1014786 281 characters.
1018651 378 characters.
975408 574 characters.
……
98474 389 characters.
989452 641 characters.
991051 540 characters.
162 entries (64,309 nucleotides) packed to 16,464 bytes
GCGTOBLAST complete:
Sequences: 162
Symbols: 64,309
Ambiguity Symbols: 625
Output files in: .
  1. BLAST的區域性資料庫多了第26mydb
  1. 用「fetch blast.sdbs」取回資料庫描述檔「blast.sdbs」。
  2. 如圖 2所示,以文書編輯器在「blast.sdbs」檔案之中加入「./mydb n my private database」。其中「./」是用來指定區域性資料庫位於目前的子目錄,以「mydb」是指定資料庫的名稱,所以必須要和執行GCGToBlast時用的名稱相同。「n」代表指定資料庫的型態為核酸(nucleotide)。「my private database」則是用來說明資料庫的性質。
 
Database Type Description ..
./mydb n my private database
  2. 資料庫描述檔「blast.sdbs」的內容
  1. 在提示號後鍵入「blast」,開始搜尋資料庫。在區域性的資料庫選單之中,就會出現第26項資料庫「mydb(3,粗體字部分),這是以GCGToBlast建立的區域性個人資料庫。指定搜尋第26項資料庫,BLAST便會以查詢序列搜尋「mydb」資料庫。
 
LOCAL
Press <Return> for more:
 
20) swplus p SWISS-PROT+SP-TREMBL
21) pir p Protein Information Resource
22) genembl n GenBank+EMBL
23) est n Expressed Sequence Tags
24) sts n Sequence Tagged Sites
25) gss n Genome Survey Sequences
26) mydb n local private database
 
Please choose one (* 1 *): 26
  3. BLAST的區域性資料庫多了第26mydb

註解討論

  1. 在網際網路上所提供的 Blast 分析,能使用個人資料庫嗎?

參考資料

黃彥華的經驗

- 黃彥華 著

[ 回原個案 | 分析原理 | 程式手冊 ]

Last updated on 11/23/01