當前位置：學識都>好好學習>論文提綱>

基於時間序列理論方法的生物序列特徵分析

學識都人氣：2.06W

論文簡介：生物信息學的主要研究對象是DNA、RNA和蛋白質分子，因爲這些生物大分子包含了遺傳及物種進化的所有信息，隨着DNA和蛋白質被測序，如何從這些DNA和蛋白質序列中獲得更多的生物信息是具有挑戰性的問題.隨着鹼基和氨基酸在基因數據庫中的規模呈指數增長，利用新的理論方法去研究DNA和蛋白質序列就變得越來越重要.許多生物學家、物理學家、數學家和計算機專家都被吸引到這個研究領域中來。 @@ 在介紹了生物信息學的研究背景之後，本文首先介紹了研究生物序列特性的時間序列理論方法，對本文要用到的短記憶ARMA模型和長記憶ARFIMA模型作了詳細的闡述，爲研究DNA序列、蛋白質序列特性做了理論上的準備工作。 @@ 混沌遊走表示(Chaos Game Representation，簡記爲CGR)是一種迭代映射技術，它可以把序列中的每一個單元，如DNA序列中的核苷酸，蛋白質序列中的氨基酸，映射到一個連續的座標空間中去.我們基於CGR座標提出了一種將DNA序列轉換成一個時間序列(CGR-遊走序列)的方法，並引入長記憶ARFIMA(p，d，q)模型來分析，我們分析了十條DNA序列的CGR-遊走序列，發現都能用長記憶ARFIMA(p，d，q)模型高度顯著地擬合.作爲一個具有完善算法的經典時間序列模型，ARFIMA模型能幫助我們挖掘DNA序列中未知的.特性， @@ 因爲合適的ARFIMA模型在模型選擇時成功率較低，且在參數估計中最大似然計算量較大，用短記憶模型去近似長記憶模型是研究者們感興趣的問題，我們考慮利用短記憶ARMA(1，1)過程去近似長記憶ARFIMA(p，d，q)過程，證明了這種適應性方法的均方誤差準則，並引入DNA序列的十條CGR-遊走序列用以分析，驗證了這種近似方法的有效性，爲長記憶DNA序列找到了一個算法更爲簡單的近似模型。 @@ 在此基礎上，我們還考慮利用ARMA(2，2)模型去逼近ARFIMA(O，d，O)模型，基於ARMA(2，2)模型和ARMA(1，1)模型有效性損失率的比較可知，ARMA(2，2)近似模型優於ARMA(1，1)近似模型.爲驗證此結論，還引入了服從ARFIMA(O，d O)模型的CGR-遊走序列用以分析，比較了ARMA(1，1)和ARMA(2，2)這兩個模型近似ARFIMA(O，d，O)模型的有效性，根據殘差標準差的結果可得ARMA(2，2)近似模型優於ARMA(1，1)近似模型， @@ 我們修改了Kalman濾波遞推公式，解決了長記憶ARFIMA模型的缺失數據問題，並利用DNA序列的CGR-遊走序列驗證了此方法的有效性， @@ 基於已建立的DNA序列的CGR-遊走模型，我們建立了一個類似的基於詳細HP模型的連接蛋白質序列的CGR-遊走模型，並引入長記憶ARFIMA(p，d，q)模型來分析，發現來自12條細菌全基因組的連接蛋白質序列的CGR-遊走序列能用長記憶ARFIMA(p，d，q)模型顯著地擬合。 @@關鍵詞：混沌遊走表示(CGR)-遊走模型；DNA序列；蛋白質序列；短記憶ARMA模型；長記憶ARFIMA模型；均方誤差準則；最大似然估計：狀態空間模型

TAGS：理論特徵分析序列生物時間

熱文推薦