計算機畢業論文--數據挖掘技術研究

學識都 人氣:1.21W
計算機畢業論文--數據挖掘技術研究
[摘要] 本文主要介紹了數據挖掘的基本概念,以及數據挖掘的方法。
  [關鍵詞] 數據挖掘 數據挖掘方法
  
  隨着信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,並從中抽取有價值的潛在知識,數據挖掘(Data Mining)技術由此應運而生。
  一、數據挖掘的定義
  數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式爲:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,並從中發現隱藏的關係和模式,進而預測未來可能發生的行爲。數據挖掘的過程也叫知識發現的過程。
  二、數據挖掘的方法
  1.統計方法。傳統的統計學爲數據挖掘提供了許多判別和迴歸分析方法,常用的有貝葉斯推理、迴歸分析、方差分析等技術。貝葉斯推理是在知道新的信息後修正數據集概率分佈的基本工具,處理數據挖掘中的分類問題,迴歸分析用來找到一個輸入變量和輸出變量關係的最佳模型,在迴歸分析中有用來描述一個變量的變化趨勢和別的變量值的關係的線性迴歸,還有用來爲某些事件發生的概率建模爲預測變量集的對數迴歸、統計方法中的方差分析一般用於分析估計迴歸直線的性能和自變量對最終迴歸的影響,是許多挖掘應用中有力的工具之一。
  2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合於在大型數據集中發現數據之間的有意義關係,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關係,但是,並不是所有通過關聯得到的屬性之間的關係都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
  3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合於探討樣本間的內部關係,從而對樣本結構做出合理的評價,此外,聚類分析還用於對孤立點的檢測。並非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
  4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即爲實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個後繼分支對應於該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的`屬性,然後按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用於數據挖掘的分類方面。
  5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量複雜的數據進行分析,並可以完成對人腦或其他計算機來說極爲複雜的模式抽取及趨勢分析,神經網絡既可以表現爲有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分佈存儲、並行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
 6.遺傳算法。遺傳算法是一種受生物進化啓發的學習方法,通過變異和重組當前己知的最好假設來生成後續的假設。每一步,通過使用目前適應性最高的假設的後代替代羣體的某個部分,來更新當前羣體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一箇舊種羣(父代)選出生命力強的個體,產生新種羣(後代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
  7.粗糙集。粗糙集能夠在缺少關於數據先驗知識的情況下,只以考察數據的分類能力爲基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用於從數據庫中發現分類規則的基本思想是將數據庫中的屬性分爲條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然後對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關係生成判定規則。所有相似對象的集合稱爲初等集合,形成知識的基本成分。任何初等集合的並集稱爲精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定爲集合元素,也不能確定爲集合補集元素的元素。粗糙集理論可以應用於數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯繫。
  8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基於結構風險最小化原則上的,儘量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成爲訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用於數據挖掘的分類、迴歸、對未知事物的探索等方面。
  事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
  三、結束語
  目前,數據挖掘技術雖然得到了一定程度的應用,並取得了顯著成效,但仍存在着許多尚未解決的問題。隨着人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,並取得更加顯著的效果。
  
  參考文獻:
  蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003