PALSDB Ver. 0.9.X使用者手冊
中華民國91417
什麼是PALS資料庫
    PALSDBPutative Alternative Splicing Site DataBase的縮寫,
主要是探討關於mRNA至基因所產生的剪接模式,進而蒐集
一些利用生物資訊的方法所推論出的非傳統認知的剪接位置?

 

如何使用PALS資料庫
   PALS資料庫中主要分成兩個方法來進行搜尋?一為以關鍵字
的方法來下搜尋指令;一為利用想要找尋的基因的位置數來
作一搜尋?下面就這兩個方法來作一說明:
一、    以關鍵字的方法來作搜尋
此欄位總共分成五個部分分別為:
1、Gb_id:此部份主要是依照GenBank的編碼進行搜尋?
當然如果所下的指令不當,將無法得到所需的資料?
例如:在一個欄位內放入一個以上的編碼,並以標點符號分隔開?
2、Gene description + Gene name:此部分使用者可將所
欲查詢的基因名稱或關於基因的一些描述都可於此部
分進行搜尋,當然此部份的禁忌亦是不可輸入一筆以
上的基因資料,否則仍無結果出現?
3、Ug_id:此部份為unigene的編碼,主要的依據是來
NCBIunigene叢集的資料庫,因此所下的指令亦需
符合NCBI unigene的規定,此部份是否可輸入一筆以上
的編碼,答案仍然是否定的
4、sequence description: 此部分使用者可依據本身對序列
的了解程度來下指令找尋所要的資料,下指令的方式考
參考NCBImRNA/gene sequences的方式查詢?當然此部份
的查詢方式較複雜,因此使用者在查詢時速度可能不是
頂快的?請各位使用者多包涵?
5、cytoband:此部份所的到的資料量非常大,因此使用
者在使用此方法下指令時,不得不慎重,此部份的指令
可直接下哪一條染色體或哪一條染色體的p臂或q?但因
此部分有一缺陷,即是當使用者下1時,資料庫會顯現出
1相關的染色體如1p和1q?

 

二、利用想要找尋的基因的位置數來作一搜尋
    針對使用者的需要,我們特開闢此一搜尋方法,主要是使
用者可依個人所需要知道的非傳統剪接位置數來進行搜查,使用者
只需給予一大於四以上的數字,則資料庫會列出所需的資料
,以利使用者進行下一步的研究?遺憾的是此部份的搜尋有以
下的限制,使用者不得不知道,否則將無法得到想搜尋的資料
?使用者輸入此欄的數字必須大於四以上;當數字小於十時,使
用者必須給定一範圍且此範圍的間隔只可相隔五以下,大於十
以上則無此限制? 主要有三種 Example :(1)9, (2)9-12 ,(3)20- ?
(1) 為列出cluster 數目為9 的 Hs. cluster.

(2) 為列出cluster 數目範圍為9-12 的 Hs. cluster,
    但限制在範圍起始數字未達10時,查詢只接受範圍區間小於5以下。
    原因是如數量過多,除例出無意義外,也可能會使系統負荷過大。

(3) 為列出cluster 數目範圍為20以上 的 Hs. cluster,
    但限制在範圍起始數字未達10時,查詢不接受。
搜尋此資料庫時,必須勾選所欲搜尋本資料庫中與使用者
所下的指令其相似度百分比如何及所欲配對的鹼基數?如果
使用者沒有勾選則本資料庫的設定值在於百分之九十的相
似度及四十五鹼基的配對程度?

所產生的資料結構如何
  每一筆資料的產生都是經過一連串的計算完成的,因此每一筆
查詢結果都有一標準資料格式作為對應?
   一、Flat File
   下列是一個典型的資料儲存格式:
________________________________________________________________________

#Notice! Some records may be filtered out using the following criteria!
#Aligned lengths of all items listed below cannot be shorter than 45 bps and
 aligned identity must be greater than 90%
#AS qualified to the lower limits are marked with red color and asterisk "**"!
#Current lower Limit of Identity is 90, Lower limit of Length is 45
ug_id                Hs.289113
ref_unigene_id  Hs#S2332554         
ref_gb_id                      AF125533
ref_len              1617
[1]
ALTER_INFO POS1=182 POS2=990 ID1=98 ID2=94 LEN1=162 LEN2=259 INTRON_SIZE=807 ALTERTYPE=1
AS_SEQ_COUNT CDS_C=0 C_CDS_C=0 C_SEQ_C=0 S_EST_C=1 O_EST_C=0            DB_EST_C=0
Junction_Seq1  ACCCCAATGAAAAGTACCTG-CTACGACTGCTAGACAAGAC 
Junction_Seq2  TCCCTGGTGCTGTTCGCTGC-AGTTGTTCCCCATCAGTACT 
AS_SEQ_INFO            T78950 SelfClusterEST
LIB_INFO        lid=163 tissue=Soares_fetal_liver_spleen_1NFLS           pool, liver+spleen
[2]**
ALTER_INFO POS1=206 POS2=277 ID1=98 ID2=99 LEN1=184 LEN2=364 INTRON_SIZE=70 ALTERTYPE=1
AS_SEQ_COUNT CDS_C=0 C_CDS_C=0 C_SEQ_C=0 S_EST_C=2 O_EST_C=0            DB_EST_C=2
Junction_Seq1  GACTGCTAGACAAGACGACT-GTAAGCCACAACACCAAGAG 
Junction_Seq2  CACTCTGGGGCTGCCTGTGG-GCAAACATATCTACCTCTCC 
AS_SEQ_INFO            BF308716         dbEST
AS_SEQ_INFO            BF307134         dbEST
AS_SEQ_INFO            BE299196         SelfClusterEST
LIB_INFO        lid=2208           tissue=NIH_MGC_17  muscle
AS_SEQ_INFO            BE297034         SelfClusterEST
LIB_INFO        lid=2208           tissue=NIH_MGC_17  muscle
//
   此資料儲存格式包括:
a)    ug_idNCBI所給定的一unigene編碼?
b)    ref_unigene_id資料與mRNA作一比對後所產單一序列編碼,
此為unigene自己所給定的編碼?
c)    ref_gb_idGenBank所給定的編碼,為mRNA/gene sequences?
d)    ref_len – 所比對的mRNAcDNA序列的長度?
e)   ALTER_INFO – 所有關於預測剪接位置的資訊全部放置於此
欄位中,包括資料的位置,可被轉譯成基因的DNA序列,多少
百分比的相似度,intro大小及剪接位置的分類 (請參考圖一的說明)?

 

 

 
f)       Junction_Seq – 兩個序列之間所夾的細縫序列形式?
g)    AS_SEQ_COUNT – 在所預測出有剪接位置的範圍內是
否有出現任何的有力證據,且數量為何,更進一步確信其
剪接位置的存在,包括:完整的cds序列及完整的序列?
h)    AS_SEQ_INFO – 所找尋出來預測剪接位置的部分其是
否有另外的序列支持,包括dbESTselfClusterEST及其他EST的資訊?
i)       LIB_INFO – 是否有任何的組織被涵蓋其中
二、結果呈現
   此部分將分四個部分來說明:
   1、第一部份是以一個表格呈現,請參考圖二? 


圖二、為一搜尋結果的表格
內容包括:Ug_id, GENE,.
a)     Ug_idNCBI所給定的一unigene編碼?
b)    GENENCBI所給定的一基因編碼?
c)     UniGene member – unigene叢集所包含的成員?
d)    AS lists (pic) – 符合使用者下的條件,經過整理
後所呈現出來筆數,此部份可作一聯結至圖示?
e)     Text_Info – 即是資料儲存格式所包含的任何資訊?
f)      All seq info – 符合使用者下的條件,未經過修飾處理
的筆數,此部份亦可作一聯結至圖示?
g)     Descriptions - 對於unigene所作的描述?
h)     Cytoband – 相對之染色體位置?
2、第二部分所呈現出來的是一個圖,分別指出物種及此
序列的簡單說明(Homo sapiens NADH-cytochrome b5 reductase 
isoform mRNA, complete cds.)ug_id (Hs.289113)Complete cds
的範圍(38,955)ref_unigene_id (Hs#S2332554)ref_gb_id (AF125533)
gb_idseqtype,圖中的各種顏色分別表示為具有小於百分之
八十的相似度 (以黑色表示)、百分之八十至八十四的相似度 
(以藍色表示)、百分之八十五至八十九的相似度 (以綠色表示)
、百分之九十至九十四相似度 (以粉紅色表示)、百分之九十五
至百分之百相似度 (以紅色表示),柱狀圖的左方所出現的星號
標定表示此資料符合使用這所下的限制? 由紅、黃、綠所組成
的柱狀圖表示一參考之mRNAcDNA的序列,請參考圖三所示?
                    


圖三、初步搜尋結果的圖示

3、第三部分所呈現出來的為一將資料加以重整後叢集一起的圖示
,此圖示中所出現的”=”符號,表示為一個細縫無法相連的範圍,
柱狀圖的左方所出現的數字表示是由初步分析加以叢集後所得結果
,所出現的數字代表有幾筆資料加以叢集的筆數? 請參閱圖四所示?


圖四、經由整理後的結果圖示

4、第四部分為一unigene的描述,此描述是根據NCBI的網站介紹? 
每一個Ug_id皆可對應至一NCBI unigene叢集? 請參考圖五的介紹?


圖五、NCBIunigene網站

對於此資料庫有任何的問題,請聯絡我們!! 陽明生資