個案分析解答 - GCG 環境下搜尋資料庫序列之子集 (subset)

原理

蛋白質三級結構座標通常存於 pdb (protein databank)中,每一個結構也像 GenBank 序列那樣有一個獨特 (unique)的編號。為了達到交互參照的目的,在 SwissPro 的序列資料,若有三級結構,就會記載 pdb 的編號。因為 pdb 這三個字母不易出現在一般的字中,所以可以利用它為關鍵字,抓出所有具有蛋白質三級結構的 SwissPro 序列。在 UNIX 下,LookUp 的使用方式與在 SeqWeb 中相似,可是可以將結果建入檔名檔 (list file)中。此處將以另一程式 StringSearch 為例,說明檔名檔的產生與使用。

需用檔案

GCG 格式的 SwissProt 資料庫

需用程式

GCG 套組中之 LookUpStringSearch 程式。因為在 UNIX 環境下與 SeqWeb 環境下,LookUp 程式的使用法相似,所以在此只介紹 StringSerach 程式

方法步驟

  1. 簽入系統,啟動 GCG
  2. 在提示符號後輸入「stringsearch -bat」,在背景中執行 StringSearch 程式
  3. 在選用資料庫的提示後,輸入「swp:*」,代表搜尋「SwissProt」與「TrEMBL」這兩個資料庫的聯集
  4. 選擇「b」,指定搜尋「complete sequence annotation
  5. 指定將含「pdb」字串的序列檔案名稱,紀錄在「pdb.lst」中
  6. 其他程式 ( 例如 FastA,參閱第3.3.1) 可以找尋「pdb.lst」檔案中的所有序列。可是請注意在指定檔名檔時,必須在檔案名稱前加上「@,例如「@pdb.lst

註解討論

什麼是檔名檔 (list file)?

參考資料

Yang's experience

[ 回原個案 | 下一題 | 分析原理 | 程式手冊 ]

Last updated on 11/23/01