基於時間序列理論方法的生物序列特徵分析

學識都 人氣:2.06W

    論文簡介:生物信息學的主要研究對象是DNA、RNA和蛋白質分子,因爲這些生物大分子包含了遺傳及物種進化的所有信息,隨着DNA和蛋白質被測序,如何從這些DNA和蛋白質序列中獲得更多的生物信息是具有挑戰性的問題.隨着鹼基和氨基酸在基因數據庫中的規模呈指數增長,利用新的理論方法去研究DNA和蛋白質序列就變得越來越重要.許多生物學家、物理學家、數學家和計算機專家都被吸引到這個研究領域中來。 @@ 在介紹了生物信息學的研究背景之後,本文首先介紹了研究生物序列特性的時間序列理論方法,對本文要用到的短記憶ARMA模型和長記憶ARFIMA模型作了詳細的闡述,爲研究DNA序列、蛋白質序列特性做了理論上的準備工作。 @@ 混沌遊走表示(Chaos Game Representation,簡記爲CGR)是一種迭代映射技術,它可以把序列中的每一個單元,如DNA序列中的核苷酸,蛋白質序列中的氨基酸,映射到一個連續的座標空間中去.我們基於CGR座標提出了一種將DNA序列轉換成一個時間序列(CGR-遊走序列)的方法,並引入長記憶ARFIMA(p,d,q)模型來分析,我們分析了十條DNA序列的CGR-遊走序列,發現都能用長記憶ARFIMA(p,d,q)模型高度顯著地擬合.作爲一個具有完善算法的經典時間序列模型,ARFIMA模型能幫助我們挖掘DNA序列中未知的.特性, @@ 因爲合適的ARFIMA模型在模型選擇時成功率較低,且在參數估計中最大似然計算量較大,用短記憶模型去近似長記憶模型是研究者們感興趣的問題,我們考慮利用短記憶ARMA(1,1)過程去近似長記憶ARFIMA(p,d,q)過程,證明了這種適應性方法的均方誤差準則,並引入DNA序列的十條CGR-遊走序列用以分析,驗證了這種近似方法的有效性,爲長記憶DNA序列找到了一個算法更爲簡單的近似模型。 @@ 在此基礎上,我們還考慮利用ARMA(2,2)模型去逼近ARFIMA(O,d,O)模型,基於ARMA(2,2)模型和ARMA(1,1)模型有效性損失率的比較可知,ARMA(2,2)近似模型優於ARMA(1,1)近似模型.爲驗證此結論,還引入了服從ARFIMA(O,d O)模型的CGR-遊走序列用以分析,比較了ARMA(1,1)和ARMA(2,2)這兩個模型近似ARFIMA(O,d,O)模型的有效性,根據殘差標準差的結果可得ARMA(2,2)近似模型優於ARMA(1,1)近似模型, @@ 我們修改了Kalman濾波遞推公式,解決了長記憶ARFIMA模型的缺失數據問題,並利用DNA序列的CGR-遊走序列驗證了此方法的有效性, @@ 基於已建立的DNA序列的CGR-遊走模型,我們建立了一個類似的基於詳細HP模型的連接蛋白質序列的CGR-遊走模型,並引入長記憶ARFIMA(p,d,q)模型來分析,發現來自12條細菌全基因組的連接蛋白質序列的CGR-遊走序列能用長記憶ARFIMA(p,d,q)模型顯著地擬合。 @@關鍵詞:混沌遊走表示(CGR)-遊走模型;DNA序列;蛋白質序列;短記憶ARMA模型;長記憶ARFIMA模型;均方誤差準則;最大似然估計:狀態空間模型

基於時間序列理論方法的生物序列特徵分析