主營(yíng)產(chǎn)品：

ELISA試劑盒，人ELISA試劑盒，大鼠ELISA試劑盒，小鼠ELISA試劑盒，裸鼠ELISA試劑盒，倉(cāng)鼠ELISA試劑盒，標(biāo)準(zhǔn)品，培養(yǎng)基和生物試劑等

上海恒遠(yuǎn)生物科技有限公司

18221656311

聯(lián)系我們/CONTACT US

聯(lián)系人：錢(qián)經(jīng)理

電話(huà)：18221656311

手機(jī)：18221656311

地址：上海市松江臨港科技城漢橋文化科技園B座

郵編：200093

傳真：021-64881400

郵箱：2885617636@qq.com

阿儀網(wǎng)商鋪：http://www.app17.com/c58469/

手機(jī)網(wǎng)站：m.hybiosh.com

產(chǎn)品分類(lèi)/CLASS

公司新聞NEWS

序列比對(duì)和數(shù)據(jù)庫(kù)搜索

閱讀次數(shù)：3816 發(fā)布時(shí)間：2012/9/21 9:41:21

上海恒遠(yuǎn)生物科技有限公司主要經(jīng)營(yíng)的產(chǎn)品有：elisa試劑盒，生物試劑，標(biāo)準(zhǔn)品，血清，抗體，培養(yǎng)基，細(xì)胞，歡迎前來(lái)咨詢(xún)。

Gregory D.Schuler

National Center for Biotechnology Information

National Library of Medicine. National Institutes of Health

Bethesda. Maryland

引言

在生物學(xué)的研究中,有一個(gè)常用的方法,就是通過(guò)比較分析獲取有用的信息和知識(shí)。達(dá)爾文正是研究比較了galapagos finches同其它一些物種的形態(tài)學(xué)特征，從而提出了自然選擇學(xué)說(shuō)。今天，我們對(duì)基因和蛋白質(zhì)序列進(jìn)行比較，從本質(zhì)上來(lái)講是同達(dá)爾文一樣，進(jìn)行同樣的分析，只不過(guò)更加精細(xì)，更加詳盡。在這個(gè)意義上，我們從核酸以及氨基酸的層次去分析序列的相同點(diǎn)和不同點(diǎn)，以期能夠推測(cè)它們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系。*常用的比較方法是序列比對(duì)，它為兩個(gè)或更多個(gè)序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的圖譜。在這一章，我們只討論一下雙重比對(duì)，即只比較兩個(gè)序列，至于較多的序列即多序列比對(duì)，將在第八章介紹。

七十年代以來(lái)，DNA測(cè)序方法的飛速發(fā)展，極大地引發(fā)了序列信息量的擴(kuò)增，從而使可供比較的序列數(shù)量呈現(xiàn)爆炸式增長(zhǎng)。分子生物學(xué)家應(yīng)該意識(shí)到，將未知序列同整個(gè)數(shù)據(jù)庫(kù)中的已知序列進(jìn)行比較分析已經(jīng)成為他們手中一個(gè)強(qiáng)有力的研究手段。在過(guò)去的三十年里，即使不提及計(jì)算機(jī)的應(yīng)用，序列比較的各種算法也已經(jīng)發(fā)展得越來(lái)越迅速，也越來(lái)越成熟，已經(jīng)能夠跟上序列數(shù)據(jù)庫(kù)增長(zhǎng)的步伐。今天，我們已經(jīng)擁有一些小的模式物種的基因組的全序列，還擁有人類(lèi)基因序列的一些較大的樣品，我們已經(jīng)進(jìn)入比較基因組時(shí)代，也就是說(shuō)，對(duì)兩個(gè)物種進(jìn)行全基因組序列比較已經(jīng)不再是一個(gè)夢(mèng)想。

序列比對(duì)的進(jìn)化基礎(chǔ)

進(jìn)行序列比對(duì)的目的是讓人們能夠判斷兩個(gè)序列之間是否具有足夠的相似性，從而判定二者之間是否具有同源性。值得注意的是，相似性和同源性雖然在某種程度上具有一致性，但它們是完全不同的兩個(gè)概念。相似性是指一種很直接的數(shù)量關(guān)系，比如部分相同或相似的百分比或其它一些合適的度量，而同源性是指從一些數(shù)據(jù)中推斷出的兩個(gè)基因在進(jìn)化上曾具有共同祖先的結(jié)論，它是質(zhì)的判斷�；蛑g要么同源，要么不同源，絕不象相似性那樣具有多或少的數(shù)量關(guān)系。如圖7.1所示，比較家鼠和小龍蝦的同源的胰蛋白酶序列，發(fā)現(xiàn)它們具有41%的相似性。

由于受到研究進(jìn)化關(guān)系這一目的的影響，大多數(shù)比對(duì)方法很自然地都希望能夠在某種程度上建立起分子進(jìn)化的模型。我們通常都假定同源序列是從某一共同祖先不斷變化而來(lái)，但事實(shí)上，我們無(wú)法得知這個(gè)祖先序列到底是什么樣子，除非能夠從化石中獲得它的DNA，我們所能夠做到的只是從現(xiàn)存物種中，探求真相。從祖先序列以來(lái)所發(fā)生的變化包括取代、插入以及缺失。在理想情況下，同源基因或蛋白質(zhì)序列在相互比較時(shí)，殘基之間相互對(duì)應(yīng)，從而使取代的情況很明顯地表現(xiàn)出來(lái)。在某些位置，一個(gè)序列中擁有某些殘基而另一個(gè)序

Bioinformatics: A Practical Guide to the Analysis of Genes ａnd Proteins

Edited by A.D.Baxevanis ａnd B.F.F.Ouellette

列中缺少這種殘基，表明這些殘基是插入到前者或是從后者中丟失的。這些空位在序列比對(duì)時(shí)用連續(xù)的短線填補(bǔ)。如圖7.1，在序列比對(duì)中，發(fā)現(xiàn)了5個(gè)空位。

|－－－－－－ S-S－－－－－－-*|

Mouse IVGGYNCEENSVPYQVSLNS－－－－-GYHFCGGSLINEQWVVSAGHCYK－－－－－－-SRIQV

Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI

Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA

Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ

|－－－－ S-S－－－－－－－－|

Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE

Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE

◇ *|－－－－－－－－－－－－-S-S－－－－－－－－－－－－－－－－－－|

Mouse GGKDSCQGDSGGPVVCNG－－－－QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN

Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV－－

圖7.1、保守位點(diǎn)通常在功能上極為重要。對(duì)老鼠的胰蛋白酶（Swiss-Prot P07146）和小龍蝦的胰蛋白酶（Swiss-Prot P00765）作比對(duì)，相同的殘基用下標(biāo)線標(biāo)出，在比對(duì)上方標(biāo)出的是三個(gè)二硫鍵（-S-S），這些二硫鍵中的半胱氨酸殘基極為保守，打星號(hào)的殘基的側(cè)鏈參與電荷傳遞系統(tǒng)，打菱形符號(hào)的活性位點(diǎn)的殘基負(fù)責(zé)底物的特異性。

在殘基-殘基比對(duì)中，很明顯，某些位置的氨基酸殘基相對(duì)于其它位置的殘基具有較高的保守性，這個(gè)信息揭示了某些殘基對(duì)于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重要的。如圖7.1所示，處于活性位點(diǎn)的殘基都是極為保守的，比如形成二硫鍵的半胱氨酸，參與電子傳遞的氨基酸殘基以及決定底物特異性的氨基酸殘基。這些保守的殘基對(duì)于保持蛋白的結(jié)構(gòu)與功能非常重要，另一方面，由于歷史原因，某些保守位置對(duì)蛋白功能并無(wú)太大的重要性。當(dāng)我們處理非常相近的物種時(shí)必須十分小心，因?yàn)橄嗨菩栽谀承┣闆r下更多地是歷史的反映而不是功能的反映，比如，mouse和rat的某些序列具有高度的相似性，可能僅僅是因?yàn)闆](méi)有足夠的時(shí)間進(jìn)行分化而已。盡管如此，系列比對(duì)仍然是從已知獲得未知的一個(gè)十分有用的方法，比如通過(guò)比較一個(gè)新的蛋白同其它已經(jīng)經(jīng)過(guò)深入研究的蛋白，可以推斷這個(gè)未知蛋白的結(jié)構(gòu)與功能的某些性質(zhì)。必須指出的是，不能夠僅僅是通過(guò)比較分析這一判據(jù)來(lái)斷定結(jié)論是否正確，結(jié)論還必須經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。

當(dāng)我們發(fā)現(xiàn)兩個(gè)基因或蛋白質(zhì)具有驚人的相似性時(shí)，我們會(huì)認(rèn)為他們之間具有一段共同的進(jìn)化歷程，從而我們判斷他們會(huì)具有相似的生物學(xué)功能，但是，這個(gè)推斷在成為結(jié)論之前必須經(jīng)過(guò)實(shí)驗(yàn)的驗(yàn)證。例如，ζ-晶狀物是脊椎動(dòng)物眼睛里晶狀體基質(zhì)的組成部分，根據(jù)序列相似性的基礎(chǔ)，它在E.coli中的同源物是代謝酶苯醌氧化還原酶（如圖7.2），不管二者的共同祖先如何，它們的功能在進(jìn)化中已經(jīng)改變了（Gonzalez et al.,1994）。這就好象火車(chē)變成了鐵路餐車(chē)，雖然對(duì)二者的外部結(jié)構(gòu)的觀察揭示了它們結(jié)構(gòu)的歷史，但是僅僅根據(jù)這一信息往往會(huì)得出有關(guān)其功能的錯(cuò)誤結(jié)論。當(dāng)一個(gè)基因適應(yīng)了一個(gè)新的功能時(shí)，保守位置通常也會(huì)發(fā)生一些形式上的變化，比如，當(dāng)?shù)鞍拙哂写呋δ軙r(shí)，活性為點(diǎn)的殘基相當(dāng)保守，而當(dāng)?shù)鞍坠δ芨淖儠r(shí)，這些殘基將會(huì)發(fā)生漂移。

Human-ZCr MATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYS

Ecoli-QOR －－－－－－MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP

. . ******. . . * …. . . * *.* ..****** *

Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEK

Ecoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA

* ** *.. **.. ** . * **** . . * *. **

Human-ZCr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTA

Ecoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV

. * * ** . * * * .. .* * * * *.***** *** *.* * *..**

Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHG

Ecoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR

** . . *. ** .* * ** …. * * * . .. . . . . * * .

Human-ZCr GRVIVVG-SRGTIEINPROTMAKES－－－－SIIGVTLFSSTKEEFQQYAAALQAGMEIGWL

Ecoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI

* .. * * *.. . . . . . .*.** . . * . . * .

Human-ZCr KPVIGSQ－－YPLEKVAEAHENIIHGSGATGKMILLL

Ecoli-QOR KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP

* . * *** *** *. . * .*.

圖7.2、*佳全局比對(duì)：對(duì)人類(lèi)ζ-晶狀物（Swiss-Prot Q08257）和E.coli苯醌氧化還原酶（Swiss-Prot P28304）的氨基酸序列進(jìn)行比對(duì)。這是一個(gè)由CLUSTAL W程序（Higgins et al., 1996）得到的*佳全局比對(duì)結(jié)果。在比對(duì)下方，星號(hào)表示殘基相同，打點(diǎn)表示這個(gè)殘基是保守的。

早期的序列比對(duì)方法只應(yīng)用于那些在全長(zhǎng)范圍內(nèi)具有簡(jiǎn)單相似性的一些序列。全序列比對(duì)就是對(duì)序列進(jìn)行全程掃描，進(jìn)行比較。以上討論的胰蛋白酶和ζ-晶狀物之間的比較就屬于全序列比對(duì)。具有簡(jiǎn)單的球形結(jié)構(gòu)域的蛋白一般可以使用全序列比對(duì)的策略，以為所有的同源序列尚未經(jīng)過(guò)實(shí)質(zhì)上的變化

蛋白質(zhì)的模塊性質(zhì)

許多蛋白質(zhì)在全程范圍內(nèi)并不具有相似性，但卻似乎是由眾多的模塊結(jié)構(gòu)域搭建而成。圖7.3描述了這樣的一個(gè)例子，如圖所示的是在血凝過(guò)程中的兩種蛋白的組成結(jié)構(gòu)，它們是凝血因子XII（F12）和組織型血纖蛋白溶酶原活化因子（PLAT），除了具有絲氨酸蛋白酶活性的催化結(jié)構(gòu)域，這兩種蛋白還具有不同數(shù)量的其它結(jié)構(gòu)域單元，包括兩種纖連蛋白重復(fù)，一個(gè)類(lèi)似于上皮生長(zhǎng)因子的結(jié)構(gòu)域以及一個(gè)成為“kringle”域的單元。這些組分可以以不同順序反復(fù)出現(xiàn)，組分形式的不同通常是由于整個(gè)外顯子交換引起的。由于全程比對(duì)建立時(shí)，基因的外顯子/內(nèi)含子結(jié)構(gòu)還沒(méi)有被發(fā)現(xiàn)，因此全程比對(duì)并沒(méi)有顧及到上述現(xiàn)象的重要性，這是可以理解的。在大多數(shù)情況下，使用局部比對(duì)是較為合理的，這種比對(duì)方法可能會(huì)揭示一些匹配的序列段，而本來(lái)這些序列段是被一些完全不相關(guān)聯(lián)的殘基所淹沒(méi)的，因此，操作者應(yīng)該明白，如果不恰當(dāng)?shù)厥褂昧巳瘫葘?duì)，很可能會(huì)掩埋一些局部的相似性。設(shè)計(jì)局部比對(duì)的另外一個(gè)很明顯的原因就是在比較一個(gè)拼接后的mRNA和它的基因序列時(shí)，每個(gè)外顯子都應(yīng)該進(jìn)行局部比對(duì)。

圖7.3、血凝過(guò)程中的兩中蛋白的模塊結(jié)構(gòu)：人類(lèi)組織血纖蛋白溶酶原活化因子以及凝血因子XII的模塊結(jié)構(gòu)的示意圖。標(biāo)記為Catalytic的模塊在若干種凝血蛋白中是常見(jiàn)的，F1和F2是較為常見(jiàn)的重復(fù)模塊，首先在纖連蛋白中被發(fā)現(xiàn)。E模塊同表皮生長(zhǎng)因子極為類(lèi)似。通常稱(chēng)為”Kringle domain”的模塊被標(biāo)記為K。

點(diǎn)陣描述方法之所以廣泛流行，其部分原因就在于它能夠揭示出擁有多個(gè)局部相似性的復(fù)雜關(guān)系，圖7.4就是應(yīng)用這種處理后的一個(gè)例子。圖中F12和PLAT蛋白質(zhì)序列使用DOTTER程序進(jìn)行比較（軟件可見(jiàn)本章結(jié)尾列表），其基本思路就是把兩個(gè)序列分別作為一個(gè)二維坐標(biāo)系中的兩個(gè)坐標(biāo)軸，在這個(gè)坐標(biāo)系區(qū)域內(nèi)，如果某一點(diǎn)所對(duì)應(yīng)的橫軸坐標(biāo)和縱軸坐標(biāo)所對(duì)應(yīng)的兩條序列的殘基相同，則在這個(gè)位置上打上標(biāo)記點(diǎn)，每個(gè)點(diǎn)通常都表示在一些小窗口中，序列相似性高于其它一些隔絕的區(qū)域（或者由DOTTER程序定義的隔絕區(qū)域，由不同的灰色陰影標(biāo)記）。如果兩個(gè)序列在一段區(qū)域內(nèi)很相似，標(biāo)記點(diǎn)將會(huì)連成一條斜線段，將這些線段的位置同圖7.3中兩個(gè)蛋白的已知的組成結(jié)構(gòu)相比較是很有價(jià)值的，特別是要注意連續(xù)反復(fù)出現(xiàn)的結(jié)構(gòu)域的出現(xiàn)方式。從PLAT的kringle結(jié)構(gòu)域開(kāi)始水平掃描，可以發(fā)現(xiàn)兩條線段對(duì)應(yīng)于F12序列中的兩個(gè)kringle結(jié)構(gòu)域，雖然現(xiàn)在我們已經(jīng)擁有許多更復(fù)雜更精確的方法來(lái)尋求局部相似性（下面將會(huì)討論），點(diǎn)陣描述方法仍然是一個(gè)很流行很有效的描述方法。

圖7.4、點(diǎn)陣序列比較：對(duì)人類(lèi)凝血因子XII（F12：Swiss-Prot P00748）和組織血纖蛋白溶酶原活化因子（PLAT：Swiss-Prot P00750）的氨基酸序列進(jìn)行打點(diǎn)比較。這個(gè)圖由DOTTER程序（Sonnhammer ａnd durban,1996）產(chǎn)生。

在點(diǎn)陣描述方法中，某些形式的點(diǎn)可能會(huì)勾勒出一定的路徑，但這需要操作者通過(guò)這些信息進(jìn)行推理，另外一個(gè)圖形描述方法即路徑圖提供了更直接明了的比較結(jié)果，圖7.5描述了ＰＬＡＴ和ＰＬＡＵ中與ＥＧＦ相似的結(jié)構(gòu)域之間進(jìn)行比較時(shí)的比對(duì)、點(diǎn)陣和路徑圖三種方法的關(guān)系。

PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP—SGPH-CLCPQHLTGNHCQKEK－－-CFE 137

PLAT 23 ELHQVPSNCD－－－－CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72

圖7.5、點(diǎn)陣、路徑圖和比對(duì)：所有這三種視圖都表示人類(lèi)尿激酶血纖蛋白溶酶原活化因子（PLAU:Swiss-Prot P00749）和組織血纖蛋白溶酶原活化因子（PLAT:Swiss-Prot P00750）中同EGF相似的模塊的比對(duì)結(jié)果。a） .整個(gè)蛋白都由DOTTER程序進(jìn)行比較：這里只顯示了同EGF模塊相似的較小區(qū)域的放大圖；b）由BLASTP得到的比對(duì)的路徑圖；.c）.用普通的字符形式顯示的BLASTP空位比對(duì)。

要理解路徑圖，先想象一個(gè)二維格子，頂點(diǎn)表示序列殘基之間的點(diǎn)（與點(diǎn)陣中表示殘基本身相反），沿線段上連接兩個(gè)頂點(diǎn)的邊緣對(duì)應(yīng)兩個(gè)序列上匹配的殘基，水平和豎直線段的邊緣對(duì)應(yīng)一個(gè)序列擁有而另一個(gè)序列上沒(méi)有的殘基，換句話(huà)說(shuō)，這些邊緣平臺(tái)組成了比對(duì)中的空位，全圖對(duì)應(yīng)了所有可能的比對(duì)中必須審視的搜索空間，這個(gè)空間中每條可能的路徑都對(duì)應(yīng)于一種比對(duì)。

*佳比對(duì)方法

除了某些很不重要的問(wèn)題，對(duì)于眾多問(wèn)題而言，比對(duì)方法多種多樣，很有必要從中挑選出的一個(gè)或幾個(gè)方法，這就是把一種比對(duì)描述成一個(gè)路徑的概念所指。許多計(jì)算機(jī)科學(xué)的問(wèn)題都可以簡(jiǎn)化為通過(guò)圖表尋求*優(yōu)路徑（比如尋找從紐約打電話(huà)到舊金山的*有效的途徑）。為了這一目的已經(jīng)確立了許多行之有效的算法，對(duì)每一種路徑都有必要對(duì)其進(jìn)行某種意義上的打分，通常是對(duì)沿這一途徑的每一步的增量進(jìn)行加和。更精密的打分程序?qū)⒃谙挛臄⑹�，在這里我們只假定相同殘基加正分，有插入或缺失的殘基就加負(fù)分（扣分），根據(jù)這一定義，*合適的比對(duì)方法會(huì)得到分，也就是我們尋找的*佳路徑。

今天我們所熟悉的Needleman-Wunsch算法就是針對(duì)尋求*佳序列比對(duì)這一問(wèn)題所設(shè)計(jì)的動(dòng)態(tài)規(guī)劃尋優(yōu)策略（Needleman ａnd Wunsch,1970）。動(dòng)態(tài)規(guī)劃的思想是這樣的，如果一條路徑終止于*佳路徑上的一點(diǎn)，那么這條路徑本身就是起點(diǎn)到這個(gè)中間點(diǎn)的*佳路徑，也就是說(shuō)，任何一個(gè)終止于*佳路徑上的一點(diǎn)的次級(jí)路徑必然就是終止于這一點(diǎn)的*佳路徑本身。這樣，*佳路徑就可以通過(guò)把各個(gè)*佳的次級(jí)路徑連接而成。在基本的Needleman-Wunsch公式表達(dá)中，*佳比對(duì)必然對(duì)每個(gè)序列都由始至終，就是說(shuō)從搜索空間的左上角直至右下角。換句話(huà)說(shuō),它搜索全程比對(duì)。

然而，對(duì)這種基本策略稍作修改就可以實(shí)現(xiàn)*佳的局部比對(duì)。這種比對(duì)的路徑不需要到達(dá)搜索圖的盡頭，只需要在內(nèi)部開(kāi)始和終結(jié)。如果某種比對(duì)的打分值不會(huì)因?yàn)樵黾踊驕p少比對(duì)隊(duì)的數(shù)量而增加時(shí)，這種比對(duì)就是*佳的。這個(gè)過(guò)程依賴(lài)于打分系統(tǒng)的性質(zhì)，就是說(shuō)某種路徑的打分會(huì)在不匹配的序列段位置減少（以下敘述的打分系統(tǒng)合乎這個(gè)標(biāo)準(zhǔn)）。當(dāng)分值降為零時(shí)，路徑的延展將會(huì)終止，一個(gè)新的路徑就會(huì)應(yīng)運(yùn)而生。這樣，我們會(huì)得到許多獨(dú)立的路徑，它們以不匹配的序列段為界限而不是像在全程比對(duì)中以序列的結(jié)尾作為界限。在這些路徑中，擁有分的一個(gè)就是*佳的局部比對(duì)。

應(yīng)該意識(shí)到，尋優(yōu)方法總是把*佳的比對(duì)方法表達(dá)出來(lái)，而不在意它是否具有生物學(xué)意義，另一方面，尋求局部比對(duì)時(shí)可能會(huì)發(fā)現(xiàn)若干個(gè)重要的比對(duì)，因此，不能僅僅注意*佳的一個(gè)。改良的Smith-Waterman（Altschul ａnd Erickson,1986;Waterman ａnd Eggert,1987）算法把尋找K種的但不相互交叉的比對(duì)方式*為目標(biāo)，這些思想后來(lái)都在SIM算法（Huang et al.,1990）的發(fā)展中得以體現(xiàn)。一個(gè)名叫LALIGN（在FASTA程序包中）的程序提供了有用的SIM工具（Pearson,1996）。對(duì)于比對(duì)多模塊的蛋白質(zhì)而言，尋找次優(yōu)比對(duì)尤為重要。正如圖7.6所示，LALIGN程序被用來(lái)獲得三個(gè)的局部比對(duì)（比對(duì)人類(lèi)凝血因子IX和因子XII）。一個(gè)標(biāo)準(zhǔn)的Smith-waterman算法只會(huì)報(bào)告出的一個(gè)比對(duì)，改良的算法會(huì)報(bào)告出第二和第三的比對(duì)方式，從而顯示出功能結(jié)構(gòu)域。

Comparison of:

f9-human.aa >f9 gi|119772|sp|P00740|FA9_HUMAN COAGULATION FA -461 aa
f12-hum.aa>f12 gi|119763|sp|P00748|FA12_HUMAN COAGULATION -615 aa

using protein matrix

① 35.4% identity in 254 aa overlap; score: 358

220 230 240 250 260 270

F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE－－-TGVKI

.:....:::::: : .:. :. ..: ..::.::... :..:::::.. . ..

F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL

370 380 390 400 410 420

280 290 300 310 320 330

F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELDEPL－－－－-VLNSY

::: :... ... .. :. .: . :...... .:.::.::: :.: .:..:

F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV－－SYQHDLALLRLQEDADGSCALLSPY

430 440 450 460 470 480

340 350 360 370 380

F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF-

: :.:... . .. :.:::. :. . . : :: .::... . : ..

F12 VQPVCLPSGAARPSETTLCQ—VAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHG

490 500 510 520 530

390 400 410 420 430 440

F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS－－-FLTGIISWGEECAMKGKYGIY

.: .:.:::: ::: :.:::::::: : : .... : ::::::..:. ..: :.:

F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY

540 550 560 570 580 590

450

F9 TVVSRYVNWIKEKT

:.:. :..::.:.:

F12 TDVAYYLAWIREHT

600 610

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

② 34.7% identity in 49 aa overlap; score: 120

100 110 120 130 140

F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR

.....: .::::.::.: . . : :: :..: :..:.. . .::

F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR

180 190 200 210 220

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－-

③ 33.3% identity in 36 aa overlap; score: 87

100 110 120

F9 DQCESN-PCLNGGSCKDDINSYECWCPFGFECKNCE

:.:... :: .::.: . .. .: :: ..:..:.

F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ

100 110 120 130

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

圖7.6、*佳和次佳的局部比對(duì)：在使用LALIGN對(duì)人類(lèi)凝血因子IX（F9;Swiss-Prot 900740）和凝血因子XII（F12;Swiss-Prot P00748）進(jìn)行比對(duì)時(shí)發(fā)現(xiàn)了三個(gè)*佳的比對(duì)結(jié)果。

取代分和空位處罰

剛才描述的打分系統(tǒng)僅僅使用于簡(jiǎn)單的匹配/不匹配的情況，但是在比較蛋白質(zhì)時(shí)，我們可以用取代矩陣來(lái)增強(qiáng)弱勢(shì)比對(duì)的敏感性。很顯然，在相關(guān)蛋白質(zhì)之間，某些氨基酸可以很容易地相互取代而不用改變它們的生理生化性質(zhì)，這些保守取代的例子包括異亮氨酸（isoleucine）和頡氨酸（valin）（體積小，疏水），絲氨酸（serine）和蘇氨酸（threonin）（極性）。在計(jì)算比對(duì)分之時(shí)，相同的氨基酸打分會(huì)高于取代的氨基酸，而保守的取代打分高于非保守變化，換句話(huà)說(shuō)，設(shè)計(jì)了一系列的分值，而且，在比對(duì)非常相近的序列（mouse和rat的同源基因）以及差異極大的序列（mouse和 yeast的基因）時(shí)會(huì)設(shè)計(jì)出不同系統(tǒng)的分值，考慮到這些因素，使用取代矩陣會(huì)極為有利，在這個(gè)矩陣中，任何氨基酸配對(duì)的分值會(huì)一目了然。

個(gè)廣泛使用的*優(yōu)矩陣建立在進(jìn)化的點(diǎn)突變模型上（PAM）（Dayhoff et al.,1978）。一個(gè)PAM就是一個(gè)進(jìn)化的變異單位即1%的氨基酸改變，這并不意味著經(jīng)過(guò)100次PAM后，每個(gè)氨基酸都發(fā)生變化，因?yàn)槠渲幸恍┪恢每赡軙?huì)經(jīng)過(guò)多次改變，甚至可能變回到原先的氨基酸，因此另外一些氨基酸可能不發(fā)生改變。如果這些變化是隨機(jī)的，那么每一種可能的取代頻率僅僅取決于不同氨基酸的出現(xiàn)的頻率（稱(chēng)為背景頻率）。然而，在相關(guān)蛋白中，已經(jīng)發(fā)現(xiàn)的取代頻率（稱(chēng)為目標(biāo)頻率）大大地傾向于那些不影響蛋白質(zhì)功能的取代，換句話(huà)說(shuō)，這些點(diǎn)突變已經(jīng)被進(jìn)化所接受。Dayhoff同合作者們次使用了log-odd處理，在這種處理中，矩陣中的取代分值同目標(biāo)頻率于背景頻率的比值的自然對(duì)數(shù)成比例。為了評(píng)估目標(biāo)頻率，人們用非常相近的序列（比對(duì)時(shí)不需要取代矩陣）來(lái)收集對(duì)應(yīng)于一個(gè)PAM的突變頻率，然后將數(shù)據(jù)外推至250個(gè)PAM，PAM250矩陣結(jié)果如圖7.7。雖然Dayhoff等人只發(fā)表了PAM250，但潛在的突變數(shù)據(jù)可以外推至其它PAM值，產(chǎn)生一組矩陣，在比較差異極大的序列時(shí)，通常在較高的PAM值處得到*佳結(jié)果，比如在PAM200到250之間，較低值的PAM矩陣一般使用于高度相似的序列（Altschul,1991）。

圖7.7、PAM250分值矩陣。

用同樣方式建立了BLOSUM取代矩陣，但在評(píng)估目標(biāo)頻率時(shí)，應(yīng)用了不同的策略，基本數(shù)據(jù)來(lái)源于BLOCKS數(shù)據(jù)庫(kù)，其中包括了局部多重比對(duì)（包含較遠(yuǎn)的相關(guān)序列，同在PAM中使用較近的相關(guān)序列相反）。雖然在這種情況下，沒(méi)有進(jìn)化模型，但它的優(yōu)點(diǎn)在于可以通過(guò)直接觀察獲得數(shù)據(jù)而不是通過(guò)外推獲得。同PAM模型一樣，也有許多編號(hào)的BLOSUM矩陣，這里的編號(hào)指的是序列可能相同的水平，并且同模型保持獨(dú)立性。舉例來(lái)說(shuō)，如圖7.8所示的BLOSUM的矩陣，至少有62%的相同比例的序列被組合成一個(gè)序列，因此取代頻率更加受到那些比空位變化還大的序列的極大影響，取代矩陣在處理高度相似序列時(shí)使用高的閾值（直至BLOSUM90），處理差異大的序列時(shí)使用低的閾值（直至BLOSUM30）。

圖7.8、BLOSUM62分值矩陣。

為了補(bǔ)償那些插入或缺失，可以在比對(duì)中引入一些空位，但不能太多，否則會(huì)使分子變得面目全非。每引入一個(gè)斷裂，比對(duì)的分值都會(huì)有所扣除，對(duì)于這些斷裂有許多罰分的規(guī)則。*常用的一個(gè)就是用一個(gè)附加的罰分比例去乘空位的長(zhǎng)度，其中有兩個(gè)參數(shù)：G（有時(shí)稱(chēng)為斷裂開(kāi)放懲罰）和L（斷裂延伸懲罰），對(duì)于一個(gè)長(zhǎng)度為n的空位，扣分總數(shù)為G+Ln，但在選擇空位參數(shù)時(shí)，在很大程度上是唯經(jīng)驗(yàn)的，所選的分值很少會(huì)有理論上的支持。通常來(lái)說(shuō)，對(duì)于G會(huì)選擇一個(gè)高分（在BLOSUM62中約為10-15），對(duì)于L會(huì)選擇一個(gè)相對(duì)的低分（大約1-2），選擇這個(gè)范圍是因?yàn)椴迦牒妥儺愂呛芎币?jiàn)的，但當(dāng)它們一旦發(fā)生，就會(huì)影響到一系列附近的殘基。

比對(duì)的統(tǒng)計(jì)學(xué)顯著性

對(duì)任何一個(gè)比隊(duì)，我們都可以計(jì)算一個(gè)分值，但重要的是需要判定這個(gè)分值是否足夠高，是否能夠提供進(jìn)化同源性的證據(jù)。在解決這一問(wèn)題時(shí)，對(duì)于偶然出現(xiàn)的分，有些思想很有幫助，但是，沒(méi)有一個(gè)數(shù)學(xué)理論能夠描述全程比對(duì)的分值分布，其中一個(gè)能評(píng)估其重要性的方法就是將所得的比對(duì)分值和那些同樣長(zhǎng)度和組成的隨機(jī)序列進(jìn)行比較。

但是，對(duì)于局部比對(duì)而言，情況要好得多。正如問(wèn)題總是從簡(jiǎn)單開(kāi)始，人們首先注意到那些沒(méi)有多少空位得局部比對(duì)，這種比對(duì)被稱(chēng)為高分片段配對(duì)（HSP）。HSP通常用改進(jìn)得Smith-waterman算法或簡(jiǎn)單地使用大的空位罰分方法獲得。Karlin-Altschul統(tǒng)計(jì)學(xué)為描述隨機(jī)的HSP分值的分布提供了數(shù)學(xué)理論，概率密度函數(shù)形式被稱(chēng)為極值分布，這很值得注意，因?yàn)�，更普遍更一般的分布的�?yīng)用可能會(huì)夸大它的重要性，把一個(gè)已知得比對(duì)分值S同預(yù)期的分布相關(guān)聯(lián)可能會(huì)計(jì)算出P值，從而給出這個(gè)分值的比對(duì)顯著性的可能性。通常，P值越趨近于零，分值越有意義。

相關(guān)的變量E表示分值不低于S得可能的比對(duì)數(shù)量，而極值分布由兩個(gè)參數(shù)表示，即K和λ，可以得到解析解，并且對(duì)于任何打分系統(tǒng)以及背景頻率都是固定的。比對(duì)的顯著性依賴(lài)于搜索空間的大�。ň拖裨诓荻阎姓裔樢蕾�(lài)于草堆的大�。�。搜索空間的大小由序列長(zhǎng)度計(jì)算出來(lái)，但由于統(tǒng)計(jì)的正確性，這個(gè)長(zhǎng)度必須由局部比對(duì)的預(yù)期長(zhǎng)度進(jìn)行校正，以免出現(xiàn)邊緣效應(yīng)（Altschul ａnd Gish,1996），需要進(jìn)行這種校正還因?yàn)樵谒阉骺臻g邊緣開(kāi)始的比對(duì)在達(dá)到一個(gè)有效分值之前就會(huì)超出序列的范圍。

把比對(duì)局限于沒(méi)有空位的基礎(chǔ)之上，使問(wèn)題大大簡(jiǎn)化，但是卻脫離分子生物學(xué)的實(shí)際情況。實(shí)際上，要建立一個(gè)插入和缺失的精確模型需要空位，但如果空位相對(duì)較少，在這些空位之間仍然可以獲得高分值區(qū)域，有代表性的是可能會(huì)獲得緊密相鄰的HSP，在這種情況下，從總體上去評(píng)估它的顯著性是較為合理的，也許，每個(gè)片段并不顯得很重要，但是幾個(gè)片段同時(shí)出現(xiàn)就不太像是偶然事件了。Karlin-Altschul加和統(tǒng)計(jì)學(xué)可以計(jì)算N個(gè)HSP的統(tǒng)計(jì)值，這個(gè)方法的實(shí)質(zhì)是把N個(gè)*佳片段的分值進(jìn)行加總，從而計(jì)算事件偶然發(fā)生的可能性，其它一些論據(jù)也被用來(lái)確認(rèn)這些分值只是在片段與比對(duì)一致的情況下進(jìn)行加總。雖然加總的分值分布與HSP分值值有差異，仍然可以得到解析解。

*后，仍然有必要對(duì)局部排隊(duì)的顯著性進(jìn)行合理評(píng)估，其中包括了模型中的空位。正如同傳統(tǒng)的Smith-waterman比對(duì)，雖然沒(méi)有先驗(yàn)的證據(jù)，人們?nèi)匀徽J(rèn)為這些比對(duì)的分值也應(yīng)該遵循極值分布，但是，分布參數(shù)K和λ的值不能通過(guò)計(jì)算獲得，當(dāng)然，通過(guò)模型獲得這些值的方法已經(jīng)被大大地發(fā)展了。

數(shù)據(jù)庫(kù)中的相似性搜索

上述討論主要集中于那些較為特別的匹配的序列，但是對(duì)于一個(gè)新發(fā)現(xiàn)的序列，我們無(wú)法得知用什么序列同它進(jìn)行比對(duì)，數(shù)據(jù)庫(kù)相似性搜索使我們能夠從數(shù)據(jù)庫(kù)中存在的數(shù)十萬(wàn)個(gè)序列中挑選出可能同感興趣的序列有關(guān)聯(lián)的序列，這個(gè)方法有時(shí)會(huì)導(dǎo)致意想不到的收獲。用這種策略獲得成功的個(gè)例子是人們因此發(fā)現(xiàn)病毒腫瘤基因v-sis是細(xì)胞中編碼血小板派生生長(zhǎng)因子的基因的一個(gè)變體形式（Doolittle et al., 1983; Waterfield et al., 1983）。那個(gè)時(shí)候，序列數(shù)據(jù)庫(kù)還不大，因此這個(gè)發(fā)現(xiàn)足以另人感到萬(wàn)分驚奇。然而今天如果進(jìn)行數(shù)據(jù)庫(kù)搜索并且一無(wú)所獲的話(huà)，那就更另人感到費(fèi)解了。如同其它幾個(gè)小的物種基因組一樣，酵母saccharomyces cerevisiae的基因組全序列已經(jīng)被測(cè)定出來(lái)。在脊椎動(dòng)物中，大量的部分基因諸如人類(lèi)和老鼠的基因都已經(jīng)被測(cè)定并存入基因庫(kù)（genebank）中，這也導(dǎo)致了表達(dá)序列標(biāo)簽（EST）工程。EST片段的主要用途是在數(shù)據(jù)庫(kù)搜索中，用EST片段進(jìn)行cDNA克隆可以分離出感興趣的基因，包括其它模型生物中的同源基因。*近報(bào)導(dǎo)的多重內(nèi)分泌腺腫瘤（MENI）基因就和人與老鼠的多個(gè)EST片段相匹配，其中在MENI發(fā)表前一年就已經(jīng)入庫(kù)保存了（Chandrasekharappa et al., 1997）。

在數(shù)據(jù)庫(kù)搜索中，基本操作就是將查詢(xún)序列和數(shù)據(jù)庫(kù)中的主題序列作比對(duì)。比對(duì)結(jié)果是排列好的hit list，后面是一系列的單獨(dú)的比對(duì)情況，以及不同的分值和統(tǒng)計(jì)值（如圖7.9）。下文將會(huì)詳細(xì)介紹選擇不同的搜索程序、序列數(shù)據(jù)庫(kù)和不同的參數(shù)都會(huì)對(duì)搜索產(chǎn)生影響，而且還有不同的界面，比如操作臺(tái)命令、WWW形式和E-mail等。圖7.10給出了一個(gè)使用Web界面進(jìn)行數(shù)據(jù)庫(kù)搜索的例子。這種形式的一個(gè)優(yōu)點(diǎn)就是對(duì)任何一個(gè)感興趣的比對(duì)，全部注解和文獻(xiàn)應(yīng)用都可以通過(guò)超文本簡(jiǎn)單方便地聯(lián)接至原始的序列條目和相關(guān)的在線文獻(xiàn)。

The best score are: initn initl opt z-sc E（59248）

gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0

gi|1703339|sp|P49776|APH1_SCHPO BIS（5’-NUCLEOSYL） 431 395 395 536.2 2.8e-23

gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17

gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07

gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN （ORF U 159 104 157 216.2 1.8e-05

gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028

gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012

à gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072

gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01

gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014

gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02

gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02

gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023

gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027

gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04

gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048

gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05

gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064

gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42

gi|113999|sp|P16550|APA1_YEAST 5’,5’’’-P-1,P-4-TE 108 66 103 137.1 0.47

>>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR （379 aa）

initn: 97 init1: 97 opt: 128 z-score: 169.7 E（）: 0.0072

Smith-Waterman score: 128; 30.8% identity in 107 aa overlap

10 20 30

FHIT MSFRFG-QHLIKPSVVFLKTELSFALVNRKPV

...: X.:.. . : .: ..:: :

GAL7 VWASNFLPDIAQREERSQQTYHNQHGKPLLLEYGHQELLRKERLVLTSEYWIVLVPFWAV

190 200 210 220 230 240

40 50 60 70 80

FHIT VPGHVLVCPLRPVERFHDLRPDEVADLFQTTQRVGTVVEKHFHGTSLTFSM—QDGP－－-

: ..:. : : :.:. .: : : :: .: ... : .. X. ::. .:: . .:

GAL7 WPFQTLLLPRRHVQRLPELTPAERDDLASTMKKLLTKYDNLFE-TSFPYSMGWHGAPMGL

250 260 270 280 290 300

90 100 110 120 130 140

FHIT EAGQTVKH－－VHVHVLPRKAGDFHRNDSIYEELQKHDKEDFPASWRSEEEMAAEAAALRV

..: : : .:.: :

GAL7 KTGATCDHWQLHAHYYPPLLRSATVRKFMVGYEMLAQAQRDLTPEQAAERLRVLPEVHYC

310 320 330 340 350 360

圖7.9：進(jìn)行FASTA搜索的輸出：（a）用人類(lèi)組氨酸三聯(lián)體蛋白作為（Swiss-Prot P.49789）查詢(xún)序列，以Swissprot數(shù)據(jù)庫(kù)為基礎(chǔ)，進(jìn)行FASTA搜索所得到的命中結(jié)果，在這個(gè)操作中，參數(shù)ktup=1；（b）.以數(shù)據(jù)庫(kù)中的一個(gè)條款（在命中列表中以箭頭標(biāo)出）為查詢(xún)序列（其中包含老鼠的1-磷酸-半乳糖尿苷酸轉(zhuǎn)移酶序列）所得到的*佳局部比對(duì)結(jié)果。雖然在這里，序列的相似性不太好，但是這些蛋白在結(jié)構(gòu)上都顯示了很好的相似性。

7.10：在WWW上進(jìn)行數(shù)據(jù)庫(kù)相似性搜索：NCBI數(shù)據(jù)庫(kù)搜索的高級(jí)BLAST形式，在Web網(wǎng)頁(yè)上容易實(shí)現(xiàn)。查詢(xún)序列應(yīng)該由剪切板中粘貼到的文本框中，（在本圖中，框中顯示的是U43746序列）。搜索中另外一些基本的元素包括搜索程序的名字以及數(shù)據(jù)庫(kù)的名字，這兩個(gè)元素都可以通過(guò)下拉框選擇。如果需要的話(huà)，可以設(shè)定附加的選項(xiàng)參數(shù)。這里還有一個(gè)基本的BLAST形式，當(dāng)然高級(jí)的選項(xiàng)參數(shù)被隱藏起來(lái)了。*后，簡(jiǎn)單地點(diǎn)擊一下“Submit”鍵，提交請(qǐng)求后就可以開(kāi)始搜索了。

　

如今的序列數(shù)據(jù)庫(kù)非常之大，并且正以爆炸式的速度不斷增長(zhǎng)，在這種條件下，利用動(dòng)態(tài)程序的方法直接進(jìn)行數(shù)據(jù)庫(kù)搜索已經(jīng)變得不切實(shí)際。一個(gè)解決方法就是使用大型計(jì)算機(jī)和相關(guān)的特殊硬件，但是我們要討論的目的是普通計(jì)算機(jī)能干些什么。當(dāng)*佳方法不可行時(shí)，我們必須求助于那些啟發(fā)式方法，這些方法充分利用了近似值以加快序列比較，但同時(shí)會(huì)在錯(cuò)過(guò)正確比對(duì)這一方面冒一點(diǎn)險(xiǎn)。

有一種啟發(fā)式方法建立在這樣的策略之上，它將序列分解成由連續(xù)字母組成的短串（稱(chēng)為字串）。基于字的方法，在八十年代早期由Wilbur和Lipman提出，并且廣泛使用于今天的搜索程序之中。其基本思想是這樣的，一個(gè)能夠揭示出正確的序列關(guān)系的比對(duì)至少包含一個(gè)兩個(gè)序列都擁有的字串，把查詢(xún)序列中的所有字串編成索引，并且在數(shù)據(jù)庫(kù)掃描中查詢(xún)這些索引，這些擊中的字串就會(huì)很快被鑒定出來(lái)。

FASTA

FASTA程序是個(gè)廣泛使用的數(shù)據(jù)庫(kù)相似性搜索程序。為了達(dá)到較高的敏感程度，程序引用取代矩陣實(shí)行局部比對(duì)以獲得*佳搜索。但眾所周知，使用這種策略會(huì)非常耗費(fèi)工作時(shí)，為了提高速度，在實(shí)施耗時(shí)的*佳搜索之前，程序使用已知的字串檢索出可能的匹配。在速度和敏感度之間權(quán)衡選擇依賴(lài)于ktup參數(shù)，它決定了字串的大小。增大ktup參數(shù)就會(huì)減少字串命中的數(shù)目，也就會(huì)減少所需要的*佳搜索的數(shù)目，提高搜索速度。缺省的ktup值在進(jìn)行蛋白比較時(shí)選擇2，但是在間距較大的情況下，將ktup值降為1較為理想。

FASTA程序并不會(huì)研究每一個(gè)遇到的字串命中，但在一開(kāi)始會(huì)尋找包含若干個(gè)附近的命中的片段。使用啟發(fā)式方法，這些片段會(huì)被賦予分值，的一個(gè)在輸出時(shí)會(huì)顯示為init1分值，這若干個(gè)片段會(huì)被組合起來(lái)，一個(gè)新的initn分值會(huì)從中計(jì)算出來(lái)。然后在的初始片段中局限于其對(duì)角線帶上，會(huì)進(jìn)行一次包含空位的局部比對(duì)以評(píng)估*可能的匹配。這個(gè)*佳比對(duì)的分值會(huì)在輸出時(shí)顯示為opt分值。對(duì)*后報(bào)導(dǎo)的比對(duì)來(lái)說(shuō)，還要進(jìn)行一次全程的Smith-Waterman比對(duì)。圖7.9b顯示了一個(gè)例子。對(duì)數(shù)據(jù)庫(kù)中的每一個(gè)序列都只會(huì)由一個(gè)*佳的比對(duì)，但是，如果蛋白質(zhì)中包含若干個(gè)模塊，一些很有意義的比對(duì)就會(huì)被錯(cuò)過(guò)，匹配序列還必須由LALIGN程序作進(jìn)一步分析。

從2.0版本開(kāi)始，FASTA對(duì)每一個(gè)檢索到的比對(duì)都提供一個(gè)統(tǒng)計(jì)學(xué)顯著性的評(píng)估。程序?yàn)殡S機(jī)分值假定了一個(gè)極值分布，但是改寫(xiě)了概率密度函數(shù)的形式，其中預(yù)期的分值與數(shù)據(jù)庫(kù)中的序列長(zhǎng)度的自然對(duì)數(shù)呈線形關(guān)系，這樣，可以使用簡(jiǎn)單的線形回歸函數(shù)計(jì)算常規(guī)的比對(duì)的z值。*后，計(jì)算出預(yù)期的E值，從而給出那些z值不小于已知值的隨機(jī)比對(duì)的預(yù)期數(shù)目。

BLAST

BLAST程序?qū)?shù)據(jù)庫(kù)搜索進(jìn)行了大量的改良，提高了搜索速度，同時(shí)把數(shù)據(jù)庫(kù)搜索建立在了嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。但是，為了達(dá)到這一目的，仍然需要權(quán)衡選擇，也就是說(shuō)，局部比對(duì)的限制條件可能不包括空位。這個(gè)限制條件對(duì)應(yīng)用Karlin-Altschul統(tǒng)計(jì)學(xué)極為有利，另一方面，既然空位沒(méi)有明確地放在模型中，結(jié)果就不會(huì)象人們期望的那樣接近于預(yù)期的比對(duì)。這并不是說(shuō)插入和確實(shí)會(huì)妨礙匹配，在大多數(shù)情況下，比對(duì)僅僅會(huì)被分解為若干個(gè)明顯的HSPs。無(wú)論如何，老版本的BLAST程序（1.4以前）的局限性在新版本中已經(jīng)被消除了，新版本在對(duì)待空位問(wèn)題上有著明確的作法（在下面討論）。

對(duì)于一個(gè)即將被BLAST程序報(bào)告的比對(duì)，其中必然包含一個(gè)HSP，其分值不小于終止值S。這個(gè)終止值因人而異，但是使用時(shí)是很難知道其合適值的。因?yàn)槌绦蚧?/font>Karlin-Altschul統(tǒng)計(jì)學(xué)，人們可以指明一個(gè)預(yù)期的終止E值，然后軟件會(huì)在考慮搜索背景的性質(zhì)的基礎(chǔ)上（比如數(shù)據(jù)庫(kù)的大小，取代矩陣的性質(zhì)）計(jì)算出正確的S值。BLAST的一項(xiàng)創(chuàng)新就是鄰近字串的思想。這個(gè)協(xié)定不需要字串確切地匹配，在引入取代矩陣的情況下，當(dāng)主題序列中的字串有一個(gè)分值T時(shí)，BLAST就宣布找到了一個(gè)命中的字串。這個(gè)策略允許較長(zhǎng)字串長(zhǎng)度（W）（為了提高速度），而忽略了敏感度。于是，T值稱(chēng)為制衡速度和敏感度的臨界參數(shù)，而W是很少會(huì)變化的。如果T值增大，可能的命中字串的數(shù)目就會(huì)下降，程序執(zhí)行就會(huì)加快，減小T值會(huì)發(fā)現(xiàn)較遠(yuǎn)的關(guān)系。

發(fā)生一個(gè)字串命中后，程序會(huì)進(jìn)行沒(méi)有空位的局部尋優(yōu)，比對(duì)的分值是S。將比對(duì)同時(shí)向左方和右方延伸并將分值加和就會(huì)得到結(jié)果。當(dāng)遭遇一系列的分值時(shí)，加和的分值就會(huì)下降，這時(shí)，分值就不再可能反彈回S值。這個(gè)發(fā)現(xiàn)為附加的啟發(fā)式知識(shí)提供了依據(jù)，因此，當(dāng)分值的降低（與遭遇的值相比）超過(guò)分值下降閾值X時(shí)，命中的延伸就會(huì)終止。于是，系統(tǒng)回減少毫無(wú)指望的命中延伸，繼續(xù)進(jìn)行其它操作。

使用BLAST

可以通過(guò)e-Mail、WWW或控制臺(tái)命令操作BLAST程序，無(wú)論如何，一次數(shù)據(jù)庫(kù)搜索包括四種基本元素：BLAST程序的名稱(chēng)，數(shù)據(jù)庫(kù)名稱(chēng)，查詢(xún)序列和大量的合適的參數(shù)，很顯然，當(dāng)以上元素發(fā)生變化時(shí)，搜索的細(xì)節(jié)就會(huì)隨之改變。為了避免混淆，我們把BLAST功能性描述為普通名詞，避免提及專(zhuān)有工具。讀者可能會(huì)要參考使用到的專(zhuān)有工具的有關(guān)內(nèi)容。要得到關(guān)于用e-Mail執(zhí)行BLAST搜索的介紹，給blast@ncbi.nlm.nih.gov發(fā)一封含有“HELP”的郵件；在WWW工具中，幫助是在線的；如果使用Unix系統(tǒng)，使用man blast可以獲得詳細(xì)的幫助信息。

表7.1、BLAST程序：

程序	數(shù)據(jù)庫(kù)	查詢(xún)	內(nèi)容
Blastp	蛋白質(zhì)	蛋白質(zhì)	使用取代矩陣尋找較遠(yuǎn)的關(guān)系：可以進(jìn)行SEG過(guò)濾。
Blastn	核苷酸	核苷酸	尋找較高分值的匹配，對(duì)較遠(yuǎn)關(guān)系不太適用。
Blastx	核苷酸（翻譯）	蛋白質(zhì)	對(duì)于新的DNA序列和ESTs的分析極為有用。
Tblastn	蛋白質(zhì)	核苷酸（翻譯）	對(duì)于尋找數(shù)據(jù)庫(kù)中沒(méi)有標(biāo)注的編碼區(qū)極為有用。
tblastx	核苷酸（翻譯）	核苷酸（翻譯）	對(duì)于分析EST極為有用。

幾種不同的BLAST可以通過(guò)查詢(xún)序列和數(shù)據(jù)庫(kù)序列的類(lèi)型來(lái)加以區(qū)分：blastp比較的是查詢(xún)蛋白同蛋白質(zhì)數(shù)據(jù)庫(kù)；相應(yīng)于核酸序列的程序是blastn；如果序列類(lèi)型不同，DNA序列可以被翻譯成蛋白序列（所有六種閱讀框架）后同蛋白序列進(jìn)行比較，blastx比較一個(gè)DNA的查詢(xún)序列同一個(gè)蛋白質(zhì)序列庫(kù)，其結(jié)果對(duì)分析新序列和ESTs很有用；對(duì)于一個(gè)基于核酸序列庫(kù)的蛋白質(zhì)查詢(xún)，tblastn程序?qū)τ趯ふ覕?shù)據(jù)庫(kù)中序列的新的編碼區(qū)很有用；*后一個(gè)只在特殊情況下使用（在這里介紹只是出于完整的考慮），tblastx將DNA查詢(xún)序列和核酸序列庫(kù)中的序列全部翻譯成蛋白質(zhì)序列，然后進(jìn)行蛋白質(zhì)序列比較，這個(gè)程序主要應(yīng)用于ESTs比較，尤其是當(dāng)人們懷疑到其中有可能的編碼區(qū)，即使并沒(méi)有確切地發(fā)現(xiàn)這一區(qū)域。

所有這些程序使用服務(wù)器上的序列數(shù)據(jù)庫(kù)，從而不需要本地的數(shù)據(jù)庫(kù)，表7.2和7.3陳列了一些BLAST使用的蛋白質(zhì)和核酸的序列數(shù)據(jù)庫(kù)。對(duì)于常規(guī)的搜索，nr數(shù)據(jù)庫(kù)擁有大量的氨基酸和核酸序列，同時(shí)合并相同的序列以減少冗余度。為了檢測(cè)在過(guò)去30天里提出或更新的序列，提供了一個(gè)稱(chēng)為“month”的數(shù)據(jù)庫(kù)。不管是nr還是month，都是日日更新。表7.2和7.3中列出的其它一些數(shù)據(jù)庫(kù)在一些特別的環(huán)境里十分有用，比如在比較模型物種（酵母和大腸桿菌）的全序列時(shí)，搜索特別類(lèi)型的序列（dbest或dbsts），或檢測(cè)是否存在污染或問(wèn)題序列（vector，alu或mito）。

表7.2、使用BLAST的蛋白序列數(shù)據(jù)庫(kù)：

數(shù)據(jù)庫(kù)	描述
Nr	融合了Swiss-Prot,PIR,PRF以及從GenBank序列編碼區(qū)中得到的蛋白質(zhì)和PDB中擁有原子坐標(biāo)的蛋白質(zhì)，絕非多余。
Month	Nr的字集，每月（30天）更新，搜集了過(guò)去30天中的*新序列。
Swissprot	Swiss-Prot數(shù)據(jù)庫(kù)。
Pdb	擁有三維空間結(jié)構(gòu)的原子坐標(biāo)的氨基酸序列庫(kù)。
Yeast	由酵母基因組中基因編碼的全套蛋白質(zhì)。
ecoli	有大腸桿菌基因組中基因編碼的全套蛋白質(zhì)。

表7.3、使用BLAST的核苷酸序列數(shù)據(jù)庫(kù)：

數(shù)據(jù)庫(kù)	描述
Nr	極有價(jià)值的GenBank，排除了EST，STS和GSS部分。
Month	Nr的字集，每月（30天）更新，搜集了過(guò)去30天中的*新序列。
Est	Genbank中的EST部分（expressed sequence tags, 表達(dá)序列標(biāo)簽）。
Sts	Genbank中的STS部分（sequence tagged sites，序列標(biāo)簽位點(diǎn)）。
Htgs	Genbank中的HTG部分（high throughput genomic sequences，高容量基因組序列）。
Gss	GenbankGSS（genome survey sequences，基因組測(cè)定序列）。
Yeast	酵母的全基因組序列。
Ecoli	大腸桿菌的全基因組序列。
Mito	脊椎動(dòng)物線粒體的全基因組序列。
Alu	搜集了靈長(zhǎng)類(lèi)動(dòng)物的Alu重復(fù)序列。
vector	搜集了流行的帶菌體的克隆。

一個(gè)BLAST搜索的例子會(huì)介紹搜索輸出的不同元素。如圖7.11所示的例子，一種Alzheimer疾病感受性蛋白質(zhì)的氨基酸序列（由GenBank中L43964翻譯）作為查詢(xún)序列同dbest數(shù)據(jù)庫(kù)用tblastn進(jìn)行搜索。進(jìn)行這么一次搜索的目的是要鑒定模型生物中可能的同源物的cDNA克隆，從而為在人類(lèi)中無(wú)法進(jìn)行的實(shí)驗(yàn)打開(kāi)方便之門(mén)（相應(yīng)于EST序列的克隆是已經(jīng)實(shí)現(xiàn)的）。數(shù)據(jù)庫(kù)中的每一個(gè)EST序列在同alzheimer蛋白質(zhì)序列比較以前，都已經(jīng)按照所有的閱讀框架得到翻譯。圖7.11a顯示了此次搜索得到部分命中的列表，前兩列給出了每一個(gè)顯著性匹配的序列的標(biāo)識(shí)和描述。盡管瀏覽時(shí)定義被縮短了，我們?nèi)匀豢梢钥吹嚼鲜蠛凸壍男蛄卸急话M(jìn)來(lái)了。下一列給出了得到*佳HSP（即使其它閱讀框架翻譯結(jié)果也會(huì)達(dá)到命中）的閱讀框架。后面三列給出了*佳HSP的分值、p值總和及p值計(jì)算時(shí)使用到的HSP數(shù)目。

包含一種果蠅EST（由箭頭標(biāo)出）的比對(duì)在圖7.11b中得以顯示。其中包含了兩個(gè)HSP，并且顯示了每一個(gè)的分值，EST的概念性翻譯同查詢(xún)序列并排顯示。相同的氨基酸殘基在兩個(gè)序列之間回顯，+表示兩個(gè)不同殘基匹配的分值是正數(shù)（比如保守取代）。從不同閱讀框架得到的兩個(gè)HSP是顯著的并且彼此相鄰，這一點(diǎn)從序列坐標(biāo)就可以看出來(lái)。這種形式表示EST序列的一種閱讀框架是錯(cuò)誤的，并且對(duì)于用相對(duì)容錯(cuò)性的工具進(jìn)行序列單向通行數(shù)據(jù)分析時(shí)極為有效。

sum

Reading High Probability Y

sequence producing High-scoring Segment Pairs: Frame Score P（N） N

gb|AA056325|AA056325 zf53a03.sl Soarea retina N2b4HR H... +3 724 3.4e-102 2

gb|T03796|T03796 IBIB913 Infant brain,Bento Soares...+3 567 2.6e-78 2

gb|AA260597|AA260597 mx76g09.r1 Soares mouse NML Mus m...+2 239 4.9e-53 4

gb|H86456|H86456 yt01b06.s1 Homo sapiens cDNA clon...+2 323 4.3e-52 4

gb|N24576|N24576 yx72a04.s1 Homo sapiens cDNA clon...+1 365 5.5e-47 2

gb|AA265273|AA265273 mx91c12.r1 Soares mouse NML Mus m...+2 239 6.4e-41 2

gb|AA237206|AA237206 mx18e01.r1 Soares mouse NML Mus m...+3 159 1.5e-40 3

gb|R146001|R146001 yf34b10.r1 Homo sapiens cDNA clon...+1 278 1.5e-40 2

gb|AA200706|AA200706 mu03f12.r1 Soares mouse 3NbMs Mus...+1 343 1.9e-40 1

gb|AA045064|AA045064 zk77f12.s1 Soares pregnant ulerus...-3 269 2.3e-37 2

gb|AA087434|AA087434 mm28a04.r1 Stratagene mouse skin....+3 322 3.6e-37 1

gb|R05907|R05907 ye93h02.r1 Homo sapiens cDNA clon...+3 252 7.7e-37 2

gb|AA268820|AA268820 vb01c10.r1 Soares mouse NML Mus m...+2 234 7.7e-35 2

gb|AA162310|AA162310 mn44a07.r1 Beddington mouse embry...+1 134 8.3e-34 3

gb|N27820|N27820 yx54h10.r1 Homo sapiens cDNA clon...+3 154 7.8e-29 2

gb|AA234907|AA234907 zs38f03.r1 Soares NhHMPu S1 Homo... +2 155 1.8e-28 2

gb|AA231081|AA231081 mw11d11.r1 Soares mouse 3NME12 5... +3 134 8.8e-23 2

gb|H91652|H91652 ys80c04.s1 Homo sapiens cDNA clon... -3 215 3.7e-22 1

gb|H50532|H50532 yo30h08.s1 Homo sapiens cDNA clon... -2 211 1.2e-21 1

gb|AA150236|AA150236 zl03c01.r1 Soares pregnant uterus...+1 159 5.0e-21 2

gb|AA144382|AA144382 mr15d12.r1 Soares mouse 3NbMS Mus...+3 159 7.6e-21 2

à gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embr...+3 130 1.6e-20 2

gb|AA210480|AA210480 mo86b03.r1 Beddington mouse embry...+2 128 2.0e-20 3

gb|H19021|H19021 ym44b02.r1 Homo sapeins cDNA clon...+2 134 5.9e-20 2

gb|AA283084|AA283084 zt14g09.s1 Soares NbHTGBC Homo sa...-3 175 2.3e-19 2

gb|H25759|H25795 y149d01.s1 Homo sapiens cDNA clon...-2 185 5.0e-18 1

gb|H33787|H33787 EST110123 Rattus sp.cDNA 5’ end..... +1 137 6.7e-17 2

gb|AA201988|AA201988 LD05058.5prime LD Drosophila Embr...+3 175 5.5e-15 1

gb|AA263526|AA263526 LD06652.5prime LD Drosophila Embr...+1 167 7.0e-14 1

gb|R46340|R46340 yj52c04.sl Homo sapiens cDNA clon...-1 151 5.6e-13 1

gb|AA246675|AA246675 LD05588.5prime LD Drosophila Embr...+2 117 2.8e-10 2

gb|AA282899|AA282899 zt14g09.r1 Soares NbHTGBC Homo sa...+3 118 6.1e-07 1

gb|AA247705|AA247705 csh0941.seq.F Human fetal heart,....+3 56 0.0039 2

gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embryo Drosophila

melanogaster cDNA clone LD09473 5’

Length – 659

Score – 130 （60.4 bits）, Expect – 1.6e-20, Sum P（2） – 1.6e-20

Identities – 25/60 （41%）, Positives – 40/60 （66%）, Frame - +3

Query: 105 TIKSVRFYTEKNGQLIYTTFTEDTPSVGQRLLNSVLNTLIMISVIVVMTIFLVVLYKYRC 164

+I S+ FY + L+YT F E +P + +++ ++LI++SV+VVMT L+VLYK RC

sbjct: 480 SINSISFYNSTDVYLLYTPFHEQSPEPSVKFWSALGSSLILMSVVVVMTFLLIVLYKKRC 659

Score – 117 （54.3 bits）, Expect – 1.6e-20, Sum P（2） – 1.6e-20

Identities –23/30 （76%）, Positives – 27/30 （90%）, Frame - +1

Query: 75 LEEELTLKYGAKHVIMLFVPVTLCMIVVVA 104

+EEE LKYGA+HVI LFVPV+LCM+VVVA

sbjct: 391 MEEEQGLKYGAQHVIKLFVPVSLCMLVVVA 480

圖7.11、一次TBLASTN搜索的輸出：在這次TBLASTN搜索中，以dbest數(shù)據(jù)庫(kù)為基礎(chǔ)，以阿爾茨海默氏�。ḿ催M(jìn)行性老年性癡呆）基因（Genbank 檢索號(hào)碼L43964）的蛋白質(zhì)產(chǎn)物為查詢(xún)序列，目的是為了從其它那些可能同人類(lèi)基因有同源性的物種中鑒定出一些cDNA克隆。（a）.命中列表的一部分顯示了其中的25個(gè)命中。每個(gè)檢索出來(lái)的序列都由它們的GenBank檢索號(hào)碼以及一部分定義行組成。其中包括了它們的閱讀框架和*佳HSP分值，同時(shí)顯示的還有一個(gè)偶然命中的可能性的加和。*后一列中的數(shù)據(jù)給出了在計(jì)算加和的可能性時(shí)所涉及到的HSP的數(shù)量。在這個(gè)命中列表中可以見(jiàn)到至少10條從老鼠中得到的序列和一條從果蠅中得到的序列；（b）.同果蠅的EST序列（GenBank AA390557）理論上的翻譯序列匹配的結(jié)果。找到了兩個(gè)HSPs，每一個(gè)使用不同的閱讀框架。相同的殘基在兩行序列中間的相應(yīng)位置回顯，而“+”符號(hào)標(biāo)記著那些不相同但是其取代分值是正分的殘基。

BLAST的*新改進(jìn)

*近發(fā)布的BLAST程序的修訂版提高了搜索速度、敏感度和實(shí)用性。這個(gè)完全重新寫(xiě)過(guò)的軟件包指定為2.0版本（避免同WU-BLUST混淆，這個(gè)軟件是由華盛頓大學(xué)設(shè)計(jì)的，有時(shí)稱(chēng)為BLAST2）。應(yīng)該注意到，在發(fā)布的2.0版本中，命令行的參數(shù)有很大改變，其中一些常用的參數(shù)列在表7.4中。

一個(gè)改進(jìn)來(lái)自于引發(fā)一個(gè)字串命中的延伸的標(biāo)準(zhǔn)�，F(xiàn)在，在一個(gè)需要考慮的殘基的窗口里必須找到兩個(gè)字串命中。使用這種策略提高了搜索速度，因?yàn)榇罅侩S機(jī)的字串命中將會(huì)被忽略，并且很有可能得到一個(gè)顯著性良好的比對(duì)。第二個(gè)改進(jìn)是能夠明確地而不是含蓄地處理空位。除了幫助使用者更加容易地理解產(chǎn)生的比對(duì)，新版本還提高了較遠(yuǎn)關(guān)系的敏感性，其中可能會(huì)包含許多插入和缺失。比較從尋找無(wú)空位的HSP這一標(biāo)準(zhǔn)策略開(kāi)始，然后，這一比對(duì)中獲得分區(qū)域的中心一列被鑒定出來(lái)，接著，從這一點(diǎn)向前和向后延伸，通過(guò)賦值的路徑進(jìn)行無(wú)空位局部比對(duì)的搜索。如同*初的HSP搜索，一個(gè)分值下降的閾值X將會(huì)促使放棄那些遭遇大量負(fù)的取代分值的路徑。對(duì)剩余的HSP進(jìn)行反復(fù)的這種操作，將會(huì)揭示另外的含空位的比對(duì)，并保證它們同已經(jīng)報(bào)告的部分不會(huì)相交。這個(gè)系統(tǒng)不同于FASTA所采取的策略，FASTA只會(huì)產(chǎn)生一個(gè)*佳的比對(duì)。

表7.4、一些對(duì)于BLAST很有用的參數(shù)值：

參數(shù)名稱(chēng)	BLAST 1.4	BLAST 2.0
數(shù)據(jù)庫(kù) （database）	參數(shù)	-d database
查詢(xún)序列文件（query sequence file）	第二參數(shù)	-I filename
期望閾值E （expectation cutoff）	E = number	-e number
HSP分值閾值S （HSP score cutoff）	S = number	-s number
字串分值閾值T （word score cutoff）	T = number	-f number
多命中窗口A （multihit window）	n/a	-A number
打分矩陣（score matrix）	-matrix matrix	-M matrix
低復(fù)雜度過(guò)濾（low-complexity filtering）	-filter seg	-F
空位開(kāi)放罰分（gap opening penalty）	n/a	-G number
空位拓展罰分（gap extension penalty）	n/a	-E number
PSI-BLAST反復(fù) （PSI-BLAST iterations）	n/a	-j number

對(duì)于那些弱勢(shì)的但是顯著性較強(qiáng)的比對(duì)，進(jìn)行較高敏感性的數(shù)據(jù)庫(kù)搜索的一個(gè)方法就是使用諸如profile（表頭輪廓）的數(shù)據(jù)結(jié)構(gòu)（Gonzalez et al., 1994）。這個(gè)策略可能曾經(jīng)被認(rèn)為是個(gè)進(jìn)行數(shù)據(jù)庫(kù)搜索的比較的課題，但是BLAST的一個(gè)新特性簡(jiǎn)化了基于profile的搜索工作。一個(gè)profile可能會(huì)被理解為一個(gè)列表，其中列出了在一個(gè)保守的蛋白質(zhì)結(jié)構(gòu)域中每一個(gè)位點(diǎn)發(fā)現(xiàn)每一種氨基酸殘基的頻率。建立一個(gè)profile可能是很乏味的，其信息是從那些擁有我們感興趣的蛋白質(zhì)結(jié)構(gòu)域的多序列比對(duì)中得到的，這些比對(duì)必須預(yù)先準(zhǔn)備好，而且，在這里有許多技術(shù)上的問(wèn)題還沒(méi)有解決。

位點(diǎn)特性反復(fù)BLAST（PSI-BLAST）是指BLAST2.0的一個(gè)特性，其中一個(gè)profile被不斷組織并且不斷精練。這個(gè)過(guò)程開(kāi)始于使用一個(gè)簡(jiǎn)單查詢(xún)序列的一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)搜索。在這個(gè)初始的搜索結(jié)果中，一個(gè)profile從高度顯著的比對(duì)中獲得，然后這個(gè)profile在第二輪的數(shù)據(jù)庫(kù)搜索中使用。如果需要的話(huà)，這個(gè)過(guò)程會(huì)反復(fù)進(jìn)行，并且在操作中為了精練profile，會(huì)在每一輪中加入新的序列。

為了演示PSI-BLAST方法的高敏感性，旦氨酸三聯(lián)體蛋白（HIT）序列被用來(lái)作為數(shù)據(jù)庫(kù)搜索中的查詢(xún)序列。HIT和1-磷酸乳糖尿苷酸轉(zhuǎn)移酶（GalT）基于位點(diǎn)重疊的三位結(jié)構(gòu)相似性*近得到描述（Holm ａnd Sander, 1997）。經(jīng)過(guò)一次標(biāo)準(zhǔn)的（一輪）BLASTP搜索，沒(méi)有發(fā)現(xiàn)一個(gè)對(duì)GalT序列有顯著的命中。但是經(jīng)過(guò)多次搜索，在每一次反復(fù)中都發(fā)現(xiàn)新的關(guān)系，正如圖7.12所示。在第二次搜索中了發(fā)現(xiàn)老鼠的GalT蛋白質(zhì)，并且在這一信息被加入profile之后，另外一些其它物種的同源物也被檢測(cè)出來(lái)。

Sequences producing significant alignments: Hign E

Score Value

Pass1:

sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE TRIAD PROTEIN 290 7e-79

sp|P49776|APH1_SCHPO BIS（5’ – NUCLEOSYL） – TETRAPHOSPHATASE （ASYMME... 117 8e-27

sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 KD HIT – LIKE PROTEIN 88.0 6e-18

sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 KD HIT – LIKE PROTEIN 52.7 3e-07

sp|Q04344|HIT_YEAST HIT1 PROTEIN （ORF U） 45.3 4e-05

Pass2:

sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 KD HIT – LIKE PROTEIN 70.5 1e-12

sp|P32083|YHIT_MYCHR HYPOTHETICAL 13.1 KD HIT – LIKE PROTEIN IN P... 59.0 3e-09

sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 KD HIT – LIKE PROTEIN IN H... 57.6 9e-09

sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 KD HIT – LIKE PROTEIN IN P... 55.7 3e-08

sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT – LIKE PROTEIN F21C3.3 54.3 9e-08

sp|P42856|ZB14_MAIZE 14 KD ZINC – BINDING PROTEIN （PROTEIN KINASE... 52.8 2e-07

sp|P42855|ZB14_BRAJU 14 KD ZINC – BINDING PROTEIN （PROTEIN KINASE... 50.2 1e-06

sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 KD PROTEIN HIT – LIKE PROT... 49.5 2e-06

sp|P49773|IPK1_HUMAN PROTEIN KINASE C INHIBITOR 1 （PKCI – 1） 49.1 3e-06

sp|P16436|IPK1_BOVIN PROTEIN KINASE C INHIBITOR 1 （PKCI – 1）（17 ... 48.7 4e-06

sp|P44956|YCFF_HAEIN HYPOTHETICAL HIT – LIKE PROTEIN HI0961 47.3 1e-05

sp|P43424|GAL7_RAT GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 41.0 8e-04

Pass3:

sp|Q03249|GAL7_MOUSE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 87.2 1e-17

sp|P07902|GAL7_HUMAN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 79.8 2e-15

sp|P31764|GAL7_HAEIN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 64.7 6e-11

sp|P09148|GAL7_ECOLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 62.5 3e-10

sp|P22714|GAL7_SALTY GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 58.1 6e-09

sp|P09580|GAL7_KLULA GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 48.5 4e-06

sp|P08431|GAL7_YEAST GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 40.8 0.001

Pass4:

sp|P40908|GAL7_CRYNE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 71.0 8e-13

sp|P13212|GAL7_STRLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 57.0 1e-08

圖7.12、使用PSI-BLAST后，敏感性提高很大：在這次BLASTP搜索中，查詢(xún)序列是人類(lèi)組氨酸三聯(lián)體（HIT）蛋白（Swiss-Prot P49789），搜索時(shí)開(kāi)啟了PSI-BLAST功能。在每一次重復(fù)搜索中，新檢索出來(lái)的具有統(tǒng)計(jì)學(xué)顯著性的匹配都會(huì)顯示它們的定義行，打分值以及E 數(shù)值。

低復(fù)雜度區(qū)域

不管是蛋白還是核酸都包含一些偏頗的區(qū)域，在進(jìn)行序列數(shù)據(jù)庫(kù)搜索時(shí)這些區(qū)域可能會(huì)導(dǎo)致一些令人迷惑的結(jié)果。這些低復(fù)雜度區(qū)域（LCRs）在從明顯的同性聚合順串和短周期重復(fù)到更精細(xì)的情況（如其中某些或一些殘基過(guò)多表現(xiàn)）的范圍內(nèi)變化。一個(gè)稱(chēng)為SEG的程序發(fā)展起來(lái)，目的是要把一個(gè)蛋白質(zhì)序列分解為低復(fù)雜度和高復(fù)雜度組成的各個(gè)片段（Wootton ａnd Federhen, 1993, 1996）。這個(gè)程序的結(jié)果表明數(shù)據(jù)庫(kù)中的蛋白質(zhì)有一半以上擁有至少一個(gè)LCR（Wootton ａnd Federhen, 1993; Wootton, 1994）。LCRs的進(jìn)化、功能和結(jié)構(gòu)性質(zhì)并沒(méi)有被很好地了解。在DNA中，有許多種簡(jiǎn)單的重復(fù)，其中一些已經(jīng)知道是高度多樣性的，并且在作基因圖譜時(shí)經(jīng)常使用的。它們?cè)雌鸬臋C(jī)制可能是聚合酶滑動(dòng)、偏頗核苷酸取代或者不等交換。LCRs更偏好于在結(jié)構(gòu)上以非球形區(qū)域的形式存在，那些在物理化學(xué)上已經(jīng)被定義為非球形的區(qū)域通�？梢栽谑褂�SEG程序時(shí)獲得較好的結(jié)果（Wootton, 1994）。

對(duì)于包含LCR的序列進(jìn)行比對(duì)是成問(wèn)題的，因?yàn)檫@些序列不符合殘基-殘基序列守恒的模型。有些時(shí)候，與功能相關(guān)的屬性可能僅僅是周期性或組成結(jié)構(gòu)，而不是任何特異的序列。而且，對(duì)比對(duì)作統(tǒng)計(jì)學(xué)顯著性分析的方法是建立在一定的隨機(jī)概念基礎(chǔ)上的，LCR顯然不符合這一條件，因此，對(duì)于一個(gè)包含LCR的查詢(xún)序列，在進(jìn)行數(shù)據(jù)庫(kù)搜索的輸出里會(huì)發(fā)現(xiàn)很多不正確的條目，因?yàn)檫@些匹配的顯著性被過(guò)高評(píng)價(jià)了（Altschul et al., 1994）。這個(gè)問(wèn)題大體上可以通過(guò)過(guò)濾（或者叫屏蔽）解決，操作是這樣的，把有問(wèn)題的子序列轉(zhuǎn)化為不明確的字符（蛋白質(zhì)用X，核酸序列用N），這樣它們就不會(huì)對(duì)比對(duì)貢獻(xiàn)正分了。

果蠅鱗甲基因產(chǎn)物的人類(lèi)同源物就是包含LCR蛋白質(zhì)的一個(gè)好例子，在用SEG分析的時(shí)候，兩個(gè)低組成復(fù)雜度的序列區(qū)域被鑒定出來(lái)。圖7.13a顯示了缺省的樹(shù)輸出，其中低復(fù)雜度序列用小寫(xiě)字母表示在左邊，高復(fù)雜度序列在右邊用大寫(xiě)字母表示。個(gè)區(qū)域片段有61個(gè)殘基，包含大量丙氨酸（alanine）和谷氨酸鹽（glutamine）的多聚物；第二個(gè)區(qū)域片段有14個(gè)殘基，偏向于精氨酸（arginine）。如果不進(jìn)行過(guò)濾的話(huà)，許多包含這種偏向性序列的數(shù)據(jù)庫(kù)序列都會(huì)被報(bào)告出來(lái)。使用命令行選項(xiàng)，SEG程序就會(huì)產(chǎn)生一個(gè)過(guò)濾后的查詢(xún)序列版本。另外，過(guò)濾可以有BLAST程序自動(dòng)完成，如果使用合適的參數(shù)。請(qǐng)注意在使用BLAST時(shí)，缺省情況下就可以實(shí)行過(guò)濾（比如在WWW版本）。這就解釋了為什么查詢(xún)序列中的不明確的字符串（在原序列中沒(méi)有出現(xiàn)）會(huì)在比對(duì)中被偶然發(fā)現(xiàn)。

>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1

1-11 MESSAKMESGG

agqqpqpqpqqpflppaacffataaaaaaa 12-72

aaaaaaqsaqqqqqqqqqqqqqqapqlrpa

DGQPSGGGHKSAPKQVKRQRSSSPELMRCK

RRLNFSGFGYSLPQQQP

aavarrnerernrv 120-133

KLVNLGFATLREHVPNGAANKKMSKVETLR

SAVEYIRALQQLLDEHDAVSAAFQAGVLSP

TISPNYSNDLNSMAGSPVSSYSSDEGSYDP

LSPEEQELLDFTBWF

>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1

MESSAKMESGGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXDGQPSGGGHKSAPKQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPX

XXXXXXXXXXXXXKLVNLGFATLREHVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHD

AVSAAFQAGVLSPTISPNYSNDLNSMAGSPVSSYSSDEGSYDPLSPEEQELLDFTBWF

>gi|540240 （U14590） achaete – scute homolog b [ Danio rerio ]

Length – 195

Score – 193 bits （512）, Expect – 7e-49

Identities – 107/155 （69%）, Positives – 118/155 （76%）

Gaps – 8/155 （5%）

QUERY 86 KQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPXXXXXXXXXXXXXXKLVNLGFATLRE 145

K +KRQRSSSPEL+RCKRRL F+G GY++PQQQP K VN+GF TLR+

540240 32 KVLKRQRSSSPELLRCKRRLTFNGLGYTIPQQQPMAVARRNERERNRVKQVNMGFQTLRQ 91

QUERY 146 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAAFQAGVLSPTISPNYSNDLNS 205

HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSA Q GV SP++S YS

540240 92 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAVLQCGVPSPSVSNAYS－－－－- 146

QUERY 206 MAG—SPVSSYSSDEGSYDPLSPEEQELLDFTNWF 238

AG SP S+YSSDEGSY+ LS EEQELLDFT WF

540240 147 -AGPESPHSAYSSDEGSYEHLSSEEQELLDFTTWF 180

圖7.13、使用SEG程序檢索低復(fù)雜度區(qū)域：使用SEG程序?qū)θ祟?lèi)achaete-scute蛋白（Swiss-Prot P50553）進(jìn)行分析，發(fā)現(xiàn)了兩段低復(fù)雜度區(qū)域。（a）.以缺省的“tree”格式執(zhí)行程序得到的輸出結(jié)果，左邊用小寫(xiě)字母顯示了低復(fù)雜度區(qū)域，右邊用大寫(xiě)字母顯示了高復(fù)雜度區(qū)域。（b） .開(kāi)啟-x命令行開(kāi)關(guān)，SEG程序?qū)?huì)產(chǎn)生把低復(fù)雜度區(qū)域屏蔽掉的序列結(jié)果。（c）.為了方便使用，操作者可以使用BLAST程序來(lái)進(jìn)行低復(fù)雜度區(qū)域的屏蔽。當(dāng)一個(gè)低復(fù)雜度區(qū)域被屏蔽掉的序列作為查詢(xún)序列被提交給數(shù)據(jù)庫(kù)進(jìn)行檢索時(shí)，在BLASTP輸出結(jié)果的比對(duì)中可能也會(huì)包括一些被屏蔽的分段序列。

　
重復(fù)元件

如果查詢(xún)中包括一個(gè)重復(fù)元件的序列-比如說(shuō)一個(gè)Alu重復(fù)-可能會(huì)出現(xiàn)許多錯(cuò)誤的和令人費(fèi)解的結(jié)果。雖然在蛋白質(zhì)-蛋白質(zhì)搜索中，這一般不會(huì)成為什么大問(wèn)題，但是在包含DNA序列任何比較中，都必須對(duì)此引起必要的重視�；蚪M序列可能會(huì)包含大量分散的重復(fù)序列，特別是一些多基因族（例如Alus, LINEs和人的序列中的MERs），甚至mRNA序列中也可能含有重復(fù)序列，幾乎都是信息的非翻譯區(qū)。因此，重復(fù)元件在數(shù)據(jù)庫(kù)序列中非常普遍，如果查詢(xún)序列中也有這些重復(fù)，就會(huì)在比對(duì)中出現(xiàn)大量不正確的正分。雖然重復(fù)元件顯示了大量不同成分，仍然有足夠的相似性使比對(duì)具有一定的高顯著性。雖然比對(duì)會(huì)跨越這些重復(fù)而不是側(cè)面的單一序列，但是直接從數(shù)據(jù)庫(kù)搜索的輸出結(jié)果觀察，這并不是顯而易見(jiàn)的。

GenBank和Swiss-Prot數(shù)據(jù)庫(kù)中都包含一些“暖序列（warming sequence）”，這些數(shù)據(jù)向使用者指出查詢(xún)中包含重復(fù)序列（Claverie ａnd Makalowski, 1993）。在GenBank中，這些條目表示了人類(lèi)Alu重復(fù)的不同亞科的一致序列；在Swiss-Prot中的類(lèi)似條目是Alu序列的六種翻譯框架（一個(gè)接著一個(gè)，中間由若干X分隔）。在兩種情況下，單詞“WARNING”在定義行中非常顯著。暖序列不必出現(xiàn)在命中列表的上方，而且，可以有許多包含Alu重復(fù)的數(shù)據(jù)庫(kù)序列同查詢(xún)序列非常相似，甚至比查詢(xún)序列同暖序列還相似。這在圖7.14a中有所體現(xiàn)，它顯示了對(duì)人類(lèi)轉(zhuǎn)錄因子CBFB（在3’UTR包含一個(gè)Alu）基于nr數(shù)據(jù)庫(kù)進(jìn)行一次blastn搜索的一部分命中。暖序列（用箭頭標(biāo)出）位于命中列表的第31位。雖然列表頂部的一些匹配顯示了真正的關(guān)系（個(gè)是一個(gè)自命中），絕大多數(shù)只是因?yàn)榫哂?/font>Alu重復(fù)才會(huì)出現(xiàn)錯(cuò)誤的正分。

在查詢(xún)中更直接地檢測(cè)Alu重復(fù)是否存在的方法就是在查詢(xún)前先對(duì)alu數(shù)據(jù)庫(kù)做一次搜索。如圖7.14b所示，做完這個(gè)以后，包含alu的暖序列作為分匹配被報(bào)告出來(lái)。如果查詢(xún)序列被發(fā)現(xiàn)包含重復(fù)元件，接下來(lái)的行動(dòng)就是要對(duì)這個(gè)序列進(jìn)行編輯改動(dòng)，把它剔除或者屏蔽掉。在這里一個(gè)有用的工具就是CENSOR，它能夠自動(dòng)檢測(cè)并且消除重復(fù)元件。

Smallest

Sum

High Probability Y

Sequences producing High – scoring Segment Pairs: Score P（N） N

gb|L20298|HUMCBFB Homo sapiens transcription factor... 8691 0.0 2

dbj|D14571|MUSPEBP2B2 Mouse mRNA for PEBP2B2 protein, co.. 2574 0.0 25

gb|L032791|MUSP215CBF Mus musculus core – binding factor m 2574 0.0 25

dbj|D14572|MUSPEBP281 Mouse mRNA for PEBP2B1 protein, co.. 2130 0.0 26

dbj|d14570|muspebp283 Mouse mRNA for PEBP2B4 protein, co.. 1701 0.0 26

gb|L03305|MUSCBFAA Mus musculus core – binding factor m 942 0.0 27

gb|L03306|MUSCBFAB Mus musculus core – binding factor m 2130 1.6e-282 10

gb|U22177|DMU22177 Drosophila melanogaster Big brothe... 382 1.5e-37 2

emb|Y10196|HSPEX H.sapins PEX gene 400 4.4e-22 1

gb|L77570|HMUDGCRCEN Homo sapiens DiGeorge syndrome cri... 409 6.7e-22 2

gb|AD00067|1010603 Homo sapiens DNA from chromosome 1... 392 2.0e-21 1

emb|Z83822|HS306D1 Human DNA sequence from PAC 306D1 ... 392 2.0e-21 1

emb|Z82097|HSF77D12 Human DNA sequence from fosmid F77... 391 2.5e-21 1

dbj|D42052|HUMKIAA000 Human cosmid Q7A10 （D21S246） inser... 391 2.5e-21 1

gb|U83511|HSUB3511 Human Xp22 cosmids U177G4,U152H5, ... 386 6.5e-21 1

gb|U52112|HSU52112 Human Xq28 genomic DNA in the regi... 386 6.5e-21 1

gb|S83170|S83170 tissue – type plasminogen activator.. 382 1.1e-20 1

emb|X9642|HSCAMF3X1 H.sapiens Y chromosome cosmid CAMF... 383 1.1e-20 1

gb|U95739|HSU95739 Human chromosome 16p11.2 – p12 BAC c. 383 1.1e-20 1

gb|95743|HSU95743 Human chromosome 16p13.1 BAC clone... 383 1.1e-20 1

gb|U91322|HSU91322 Human chromosome 16p3 BAC clone C.... 383 1.1e-20 1

gb|U82609|HSU82609 Human centromere – specific histone.. 382 1.3e-20 1

gb|AC001061|HSAC001061 Homo sapiens （subclone 2_g6 fromP.... 382 1.3e-20 1

emb|Z46940|HSPRMTNP2 H.sapiens PRM1 gene, PRM2 gene and... 382 1.4e-20 1

gb|K03021|HUMTPA Human tissue plasminogen activator... 382 1.4e-20 1

gb|U15422|HSU15422 Human protamine 1 （PRM1）, protamin... 382 1.4e-20 1

gb|U91323|HSU91323 Human chromosome 16p13 BAC clone C... 382 1.4e-20 1

emb|Z54147|HSLI29H7A Human DNA sequence from cosmid L12... 381 1.7e-20 1

emb|Z82194|HSJ272J12 Human DNA sequence fom clone J272J12 374 1.7e-20 2

dbj|D0035|HIV2CAM2 Human immunodeficiency virus type-... 380 2.0e-20 1

à gb|U14567|HSU14567 ***ALU WARNING: Human Alu_J subfam... 373 2.4e-20 1

gb|L81578|HSL81578 Homo sapiens （subclone 2_b2 from P... 386 3.0e-20 2

gb|L81854|HSL81854 Homo sapiens （subclone 2_b8 from P... 377 3.4e-20 1

Smallest

Sum

High Probability Y

Sequences producing High – scoring Segment Pairs: Score P（N） N

à lcl|HSU14567 ***ALU WARNING: Human Alu – J subfamil... 373 4.1e-24 1

lcl|unknown gb|M94643_HSAL001949 349 1.4e-22 1

lcl|HSU14574 ***ALU WARNING: Human Alu – Sx subfami... 347 7.0e-22 1

lcl|HSU14573 ***ALU WARNING: Human Alu – Sq subfami... 347 7.0e-22 1

lcl|unknown gb|Z15026_HSAL001005 （Alu – J） 324 1.4e-21 1

lcl|unknown gb|M15657_HSAL001254 （Alu – J） 337 6.3e-21 1

lcl|unknown gb|M61839_HSAL002304 （Alu – J） 314 6.6e-21 1

lcl|unknown gb|X17354_HSAL000525 （Alu – J） 329 6.6e-21 1

lcl|HSU14572 ***ALU WARNING: Human Alu – Sp subfami... 329 2.4e-20 1

lcl|unknown gb|J03619_HSAL001939 （Alu – Sx） 329 2.8e-20 1

lcl|unknown gb|L11910_HSAL002838 （Alu – J） 307 2.8e-20 1

lcl|unknown gb|M11228_HSAL002744 （Alu – Sp） 329 2.9e-20 1

lcl|unknown gb|L18035_HSAL004322 （Alu – J） 318 9.3e-20 1

lcl|unknown gb|L05367_HSAL002551 （Alu – J） 318 1.0e-19 1

lcl|unknown gb|M58600_HSAL002004 （Alu – J） 322 1.2e-19 1

lcl|unknown gb|Z23796_HSAL005276 （Alu – J） 306 1.7e-19 1

lcl|unknown gb|M90058_HSAL002955 （Alu – J） 294 2.5e-19 1

lcl|unknown gb|D14642_HSAL003786 （Alu – J） 315 4.0e-19 1

lcl|unknown gb|M29038_HSAL002942 （Alu – J） 314 5.5e-19 1

lcl|unknown gb|M92357_HSAL001387 （Alu – J） 310 9.8e-19 1

圖7.14、反復(fù)元件可能會(huì)導(dǎo)致令人迷惑的結(jié)果：本次blastn查詢(xún)使用的查詢(xún)序列是人類(lèi)轉(zhuǎn)錄因子CBFB（GenBank L20298）的cDNA序列。（a）.如果使用nr數(shù)據(jù)庫(kù)，*先的一些匹配同查詢(xún)序列具有真正的關(guān)聯(lián)，但是也會(huì)報(bào)告許多不正確的命中結(jié)果，這些命中分布于各個(gè)人類(lèi)染色體的基因組區(qū)域。在這個(gè)命中列表中，打箭頭處（位于第31行）的一致的Alu-J序列被列為警告序列。（b）.如果使用alu數(shù)據(jù)庫(kù)，Alu-J警告序列就成了*佳匹配序列。

為了鑒定這些潛在的搜索成果，學(xué)會(huì)怎樣評(píng)估搜索結(jié)果非常重要。上述的一些策略只應(yīng)用于Alu反復(fù)，它是人類(lèi)以及其它一些物種中出現(xiàn)頻率的，但是其它一些反復(fù)仍然存在，雖然含量較低，而且，其它物種會(huì)顯示出完全不同類(lèi)型的反復(fù)元件。現(xiàn)在有一個(gè)數(shù)據(jù)庫(kù)搜索輸出的附加性質(zhì)，它可以指示出反復(fù)元件。例如，注意比對(duì)中與DNA序列編碼區(qū)域相關(guān)的位點(diǎn)是非常有益的。如果非編碼區(qū)域匹配而編碼區(qū)域不匹配，那么反復(fù)序列就很令人懷疑；如果查詢(xún)序列同大量序列匹配，但是這些序列相互之間沒(méi)有什么關(guān)系，但是比對(duì)的分值都很相近，這樣的結(jié)果就極為可疑。例如圖7.14a中，許多匹配的相似性分值都幾乎一樣，而且包括了從若干不同的人類(lèi)染色體上來(lái)的質(zhì)粒。雖然對(duì)這個(gè)發(fā)現(xiàn)有很多解釋?zhuān)且粋€(gè)明智的看法就是至少承認(rèn)這個(gè)現(xiàn)象可能是出于外界因素（如反復(fù)元件的存在）的影響。

小結(jié)

在世界各地科學(xué)家們每天都要執(zhí)行序列比對(duì)和數(shù)據(jù)庫(kù)搜索成千上萬(wàn)此，并且所有的分子生物學(xué)都應(yīng)該熟悉這些要緊的工具。這些方法注定要不斷發(fā)展，并且接受不斷增長(zhǎng)的數(shù)據(jù)庫(kù)容量的挑戰(zhàn)。特別是當(dāng)可利用的信息增長(zhǎng)時(shí)，使用者更加難以解釋其結(jié)果。數(shù)據(jù)庫(kù)搜索工作臺(tái)致力于事后處理搜索結(jié)果并且圖形顯示，從而解決這一問(wèn)題。這些策略的例子包括PowerBLAST（Zhang ａnd Madden, 1997），BLIXEM（Sonnhammer ａnd Durban, 1994）和BEAUTY（Worley et al., 1995）。

這一章描述了數(shù)據(jù)比較的一些基本概念，但是使用大量不同的程序以獲得更詳盡的信息非常有用。研究人員應(yīng)該了解程序工作的基本操作，并且選擇相應(yīng)的參數(shù)。此外，他們應(yīng)該了解潛在的外部影響并且知道如何避免。*重要的是，應(yīng)該結(jié)合實(shí)驗(yàn)方法的發(fā)現(xiàn)和評(píng)估事物的強(qiáng)大威力。

第七章中涉及到的可以在互聯(lián)網(wǎng)上使用（獲得）的軟件：

CULSTAL.W

ftp://ftp.ebi.ac.uk/pub/software/

DOTTER

ftp://ftp.sanger.ac.uk/pub/dotter/

LALIGN.FASTA

ftp://ftp.virginia.edu/pub/fasta/

BLAST

ftp://ncbi.nlm.nih.gov/blast/

SEG

ftp://ncbi.nlm.nih.gov/pub/seg/

Altschul.S.I : （1991）.Amino acid substitution matrices from an information theoretic perspective. J.Mol.Bio. 219. 555-565.
Altschul.S.E. ａnd Erickson.B.W. （1985）. Significance of nucleotide sequence alignments: A method for random sequence permutation that preserves dinucleotide ａnd codon usage. Mol.Biol.Evol. 2. 526-538.
Altschul.S.E. ａnd Erickson.B.W. （1986）. Locally optimal subalignments using nonlinear similarity functions. Bull.Math.Biol. 48. 633-660.
Altschul.S.E ａnd Gish.W. （1996）. Local alignment statistics. Methods Enzymol. 266. 460-480.
Altschul.s.E., Gish.W., Miller.W., Myers.E.W., ａnd Lipman.D.J. （1990）. Basic local alignment search tool. J.Mol.Biol. 215. 403-410.
Altschul.S.E., Boguski.M.S., Gish.W., ａnd Wootton.J.C. （1994）. Issues in searching molecular sequence databases. Nature Genet. 6. 119-129.
Altschul.S.e., Madden.T.L., Schaffer. A.A., Zhang.J., Zhang.Z., Miller.W., ａnd Lipman.D.J. （1997）. Gapped BLAST ａnd PSI-BLAST: A new generation of protein database search programs. Nucl.Acids.Res. 25. 3389-3402.
Baron.M., Norman.D.G., ａnd Campbell.I.D. （1991）. Protein modules. Trends Biochem.Sci. 16. 13-17.
Chandrasekharappa.S.C., Guru.S.C., Manickam.P., Olufemi.S.E., Collins.E.S., Emmert-Buck.M.R., Debelenko.I..V., Zhuang.Z.., Lubensky.I.A., Liotta.L.A., Crabtree.J.S., Wang.Y., Roe.B.A., Weisemann.J., Boguski.M.S., Agarwal.S.K., Kester.M.B., Kim.Y.S., Heppner.C., Dong.Q., Spiegel.A.M., Burns.A.L., ａnd Marx.S.J. （1997）. Positional cloning of the gene for multiple endocrine neoplasia- Type 1.Science 276. 404-407.
Clavrie.J.M., ａnd Makalowski.W. （1993）. Alu alert.Nature. 371. 752.
Dayhoff.M.O., Schwartz.R.M., ａnd Orcutt.B.C. （1978）. A model of evolutionary change in proteins . In Atlas of Protein Sequence ａnd Structure. M. O. dabhoff. ed. （Washington.DC: National Biomedical Research lFoundation）. pp. 345-352.
Doolittle.R.J., ａnd Bork.P. （1993）. Evolutionarity mobile modules in proteins. Sci Am. 269. 50-56.
Doolittle.R.F., Hunkapiller.M.W., Hood.L.E., Devare.S.G., Robbins.K.C., Aaronson.S.A., ａnd Antoniades.H.N. （1983）. Simian sarcoma virus onc gene, v-sis, is derived from the gene （or genes） encoding a platelet-derived growth factor. Science 221. 275-277.
Fitch.W.M. （1969）. ocating gaps in amino acids sequences to otimize the homology between two proteins. Biochm.Genet.3. 99-108.
Fitch.W.M. （1983）. Random sequences.J.Mol.Biol. 163. 171-176.
Gibbs.A.J., ａnd Melntyre.G.A. （1970）. The diagram: A method for comparing sequences. Its use with amino acid ａnd nucleotide sequences. Eur.J.Biochem. 16. 1-11.
Gonzalez.P., Hemandez-Calzadilla.C., Rao.P.V., Rodriguez.I.R., Zigler.J.S., Jr., ａnd Borras. T. （1994）. Comparative analysis of the zeta-crystallin/quione reductase gene in guinea pig ａnd mouse. Mol.Biol.Evol. 11. 305-315.
Henikoff.S., ａnd Henikoff.J.G. （1991）. Automated asscembly of protein blocks for database searching. Nucl.Acids.Res. 19. 6565-6572.
Henikoff.S., ａnd Henikoff.J.G. （1992）. Amino acid substitution matrix from protein blocks. Proc.Natl.Acad.Sci. U.S.A. 89. 10915-10919.
Higgins.D.G., Thompson.J.D., ａnd Gibson.T.J. （1996）. Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 266. 383-402.
Holm.L.., ａnd Sander.C. （1997）. Enzyme HIT. Trends Biochem.Sci. 22. 16-117.
Huang.X., Hardison.R.C., ａnd Miller.W. （1990）. A space-efficient algorithm for local similarities. Comput.Appli.Biosci. 6. 373-381.
Jurka.J., Klonowski.P., Dagman.V., ａnd Pelton.P. （1996）. CENSOR: A program for identification ａnd wlmination of repetitive elements from DNA sequences. Comput.Chem. 20. 119-122.
Karlin.S., ａnd Altschul.S.F., （1990）. Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc.Natl.Acad.Sci. U.S.A. 87. 2264-2268.
Karlin.S., ａnd Altschul.S.E. （1993）. Applications ａnd statistics for multiple high-scoring segments in molecular sequences. Proc.Natl.Acad.Sci. U.S.A. 90. 5873-5877.
Lipman.D.J., ａnd Pearson.W.R. （1985）. Rapid ａnd sensitive protein similarity searches. Science . 227. 1435-1441.
Needleman.S.B., ａnd Wunsch.C （1970）. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J.Mol.Biol. 48. 443-453.
Patthy.L., （1991）. Modular exchange principles in proteins. Curr.Opin.Struct.Biol. 1., 351-361.
Pearson.W.R. （1996）. Effective protein sequence comparison. Methods Enzymol. 266. 227-258.
Pearson.W.R., ａnd Lipman.D.J. （1988）. Improved tools for biological sequence comparison. Proc.Natl.Acad.Sci. U.S.A. 85. 2444-2448.
Smith.T.F., ａnd Waterman.M.S. （1981）. Identification of common molecular subsequences. J.Mol.Biol. 147. 195-197.
Smith.T.F. Waterman.M.S., ａnd Burks.C. （1985）. The statistical distribution of nucleic acid similarities. Nucl.Acids.Res. 13. 645-656.
Sonnhammer.E.L..L., ａnd Durban.R. （1994）. A workbench for large scale sequence homology analysis. Comput.Appl.Biosci. 10. 301-307.
Sonnhammer.E.L..L.., ａnd Durban.R. （1996）. A dot-matrix program with dynamic threshold control suited for genomic DNA ａnd protein sequence analysis. Gene 167. GCI-10.
Waterfield.M.D.., Scrace.G.T.., Whittle.N.., Stroobant.P.., Johnsson.A.., Wasteson.A.., Westermark.B.., Heldin.C.H.., Huang.J.S.., ａnd Deuel.T.F. （1983）. Platelet-derived growth factor is structurally related to the putative transfoming protein p28sis of simian sarcoma virus. Nature. 304. 35-39.
Waterman.M.S.., ａnd Eggert.M. （1987）. A new algorithm for best subsequence alignments with applications to tRNA-rRNA comparisons. J.Mol.Biol. 197. 723-728.
Waterman.M.S.., ａnd Vingron.M. （1994）. Rapid ａnd accurate estimates of statistical significance for sequence database searches. Proc.Natl.Acad.Sci. U.S.A. 91. 4625-4628.
Wilbur.W.J.., ａnd Lipman.D.J. （1983）. Rapid similarity researches of nucleic acid ａnd protein data banks. Proc.Natl.Acad.Sci. U.S.A. 80. 726-730.
Wootton.J.C. （1994）. Non-globular domains in protein sequences: Automated segmentation using complexity measures. Comput.Chem. 18. 269-285.
Wootton.jJ.C.., ａnd Federhen.S. （1993）. Statistics of local complexity in amino acid sequences ａnd sequence databaseas. Comput.Chem. 17. 149-163.
Wootton.J.C.., ａnd Federhen.S. （1996）. Analysis of compositionally biased regions in sequence databases. Methods Enzymol. 266. 554-571.
Worley.K.C.., Wiese.B.A.., ａnd Smith.R.F. （1995）. BEARTY: an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results. Genome Res. 5. 173-184.
Zhang.J.., ａnd Madden.T.L.. （1997）. PowerBLAST: A new network BLAST application for interactive or automated sequence analysis ａnd annotation. Genome.Res. 7. 649-656.

參考文獻(xiàn)：

主營(yíng)產(chǎn)品：

ELISA試劑盒

酶聯(lián)免疫試劑盒

人ELISA試劑盒

進(jìn)口血清

抗體

標(biāo)準(zhǔn)品

Sigma試劑

Amresco試劑

食品檢測(cè)試劑盒

Spectrum試劑

免疫化學(xué)產(chǎn)品

其他方法測(cè)試盒

金標(biāo)試劑盒

放免試劑盒

代理品牌

公司新聞NEWS

序列比對(duì)和數(shù)據(jù)庫(kù)搜索

推薦產(chǎn)品PRODUCTS

CULSTAL.W	ftp://ftp.ebi.ac.uk/pub/software/
DOTTER	ftp://ftp.sanger.ac.uk/pub/dotter/
LALIGN.FASTA	ftp://ftp.virginia.edu/pub/fasta/
BLAST	ftp://ncbi.nlm.nih.gov/blast/
SEG	ftp://ncbi.nlm.nih.gov/pub/seg/