氨基酸的分布式表示方法及其在蛋白質序列分析中應用
發(fā)布時間:2025-06-28 02:34
蛋白質是一切生命的物質基礎,沒有蛋白質就沒有生命,更談不上人類的繁衍生息,氨基酸是蛋白質的基本組成元素,蛋白質是由不同種類的氨基酸按照一定順序排列而成,稱為蛋白質序列。通過對蛋白質序列進行分析可以進一步了解蛋白質的空間結構。這對于分析蛋白質功能和藥物設計等應用至關重要,因為蛋白質生物學功能很大程度上依賴于其空間結構,并且蛋白質的生化性質及其功能等都與蛋白質序列密切相關,所以蛋白質序列分析是蛋白質結構甚至是功能分析的前提和基礎。蛋白質序列分析的首要步驟是對蛋白質序列進行編碼,目前較為常用的編碼方式有one-hot編碼方式、PSSM譜編碼、氨基酸向量編碼。one-hot編碼方式將氨基酸殘基轉變?yōu)檎幌蛄?不考慮詞與詞之間的順序并且假設向量之間相互獨立,雖然計算簡單,但是不能很好地表達出上下文之間的依賴性和單詞之間順序不同所帶來的區(qū)別,利用多序列比對打分方式構建的PSSM譜編碼克服了這一缺點,但是其算法的迭代性質使其對序列數(shù)據(jù)庫中的偏差非常敏感。特別是,容易將重復序列錯誤地結合到中間譜中。將氨基酸序列通過Word2vec生成氨基酸向量的編碼方式雖然沒有重復序列錯誤,但是并不能表達出同源序列之間...
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4054286
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
圖1-1幽門螺桿菌的部分氨基酸序列
第1章引言蛋白質具有一級、二級、三級和四級結構[3]。蛋白質的一級結構是由20種氨基酸殘基在蛋白質肽鏈中通過排列組合形成的,也就是氨基酸序列。每種蛋白質的氨基酸殘基的排列組合順序都是唯一而確切的,可以說結構和功能不同的蛋白質的氨基酸序列是完全不同且不可改變的[4]。如圖....
圖1-2幽門螺桿菌的三級結構圖
E0.01029C0.00018,肽鏈還按照一定的空間結構進繼續(xù)以幽門螺桿菌為例,圖1-2即就是圖1-1所示的氨基酸序列所具有三級結構的多肽鏈按照一定空由此可見,蛋白質的一級結構,即結構和四級結構,進而決定了其功似,那么他們大概率具有相同的質中帶負電荷的氨基酸的比....
圖2-1Word2vec兩種方法模型結構圖
圖2-1Word2vec兩種方法模型結構圖2.1.1基于HierarchicalSoftmax的模型HierarchicalSoftmax最先由Morin和Bengio引入[32]。主要優(yōu)點是,不需要計算神經(jīng)網(wǎng)絡中的W輸出節(jié)點的概率分布,而是僅需要計算....
圖2-2CBOW模型的網(wǎng)絡結構示意圖
通過它們的出現(xiàn)頻率將詞組合在一起可以作為基于神型的加速訓練技術。圖2-2所示為CBOW模型的網(wǎng)絡結構:輸入層,投影層和輸出層text(w),w)為例(這里假設(Context(w),w)由w前后各c個詞構成要說明。輸入層包含Context(w)中2c個詞的....
本文編號:4054286
本文鏈接:http://www.wukwdryxk.cn/projectlw/swxlw/4054286.html
上一篇:嗜酸性喜溫硫桿菌硫代謝過程中底物吸附與胞內硫轉運機制研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著