用戶訪問模式挖掘及在電子商務中的應用

學識都 人氣:2.25W
用戶訪問模式挖掘及在電子商務中的應用
摘要:當今電子商務網站日益增多,網站所提供的功能和服務也越來越豐富,然而也存在不足。比如,提供的服務或信息分佈不公道,未能充分考慮到用戶的需求;信息的訪問路徑未能考慮到信息的重要性和普遍關注性等等。本文研究將集中在基於圖結構的用戶訪問模式挖掘及其在電子商務中的應用上,通過對基於Web拓撲結構(圖結構)挖掘用戶訪問模式的數據挖掘,可對已存在的Web站點的結構及站點內的頁面進行調整和改善,方便地向瀏覽模式相似的用戶組推薦其感愛好的主題相似的頁面,使各類信息和服務以更有效的方式提供給用戶。
  關鍵詞:數據挖掘 Web日誌挖掘 用戶訪問模式 Web拓撲結構
  
  一、引言
  
  近幾年因特網已經成爲一個巨大的、分佈廣泛的和全球性的信息服務中心,逐漸滲透到人們的日常工作、生活及其它領域,它爲用戶提供了各種信息。然而,用戶面對一堆雜亂無章的信息往往花費了大量的精力卻無法找到理想的結果。如何有效得分析用戶的需求,幫助用戶從因特網的信息海洋中發現他們感愛好的信息和資源,已經成爲一項迫切而重要的課題。解決這些題目的一個途徑,就是將傳統的數據挖掘技術與Web結合起來,進行Web數據挖掘。其中的Web日誌挖掘可以把握用戶在瀏覽站點時的行爲,並且將挖掘出的用戶訪問模式應用於網站上,在改善Web站點的結構以及頁面間的超鏈接結構,進步站點的服務質量等方面有重要的意義。
  
  二、Web數據挖掘概述
  
  (一)Web數據挖掘的定義及分類
  Web數據挖掘我們這裏採用一個更一般的定義:Web數據挖掘是指從與WWW相關的資源和行爲中抽取感愛好的、有用的模式和隱含信息。
  Web信息的多樣性決定了Web挖掘任務的多樣性,Web數據挖掘總的來說分爲內容挖掘、結構挖掘和日誌挖掘三類,如圖l所示:
  
  (二)Web日誌挖掘
  Web日誌挖掘也稱Web使用挖掘,是指從Web使用數據中抽取用戶訪問模式的過程。
  一般Web日誌挖掘的過程分爲以下三步:
  1.數據預備:對Web日誌內容進行預處理,刪除無用數據,識別用戶會話,完善訪問路徑。
  2.模式識別:採用相應的數據挖掘算法,對預處理之後的數據進行挖掘,天生模式。
  3.模式分析:排除模式識別中沒有價值的規則或模式,將有價值的模式提取出來。
  
  三、基於圖結構的Web日誌挖掘
  
  (一)數據預備
  1.數據源
  目前的Web日誌挖掘的數據源主要是Web服務器日誌文件,它記錄了用戶訪問站點的數據,每當站點上的頁面被訪問一次,Web服務器就在日誌中增加一條相應的記錄。服務器上的日誌不僅具體記錄了站點訪問者的瀏覽行爲,而且彙集了訪問同一站點的多個訪問者的行爲。
  2.數據預處理
  在Web日誌挖掘中,主要分析的數據源是服務器日誌,但是由於服務器日誌記錄的數據並不完整,直接在其上進行挖掘非常困難。因此要對日誌數據進行預處理主要包括以下步驟:
  數據轉換:將原始日誌文件導進數據庫中。
  數據清理:刪除與日誌分析目的無關的記錄。
  用戶識別:將用戶和請求的頁面相關聯。
  會話識別:將用戶在一段時間內的請求頁面分解成能反映實際瀏覽習慣的用戶會話。
  路徑補充:將本地或者代理服務器中緩存而沒有被日誌記錄的.請求頁面增加到會話中。
  
  (二)基於圖結構的用戶訪問模式挖掘
  本文中的算法在現有的挖掘關聯規則算法的基礎上上進行延伸,並且在支持度計算,候選路徑的產生和剪除階段時考慮網站的圖結構。這樣,在候選集的天生和剪除過程中減少了候選集的數目,可進步發現模式的精確性和效率,並且避免了“交易變質”的題目。首先,分析站點結構,並給出“圖”的相關定義和定理。其次,對現有的Web日誌挖掘方法進行簡單的先容和分析。接着,給出基於圖結構的用戶訪問模式挖掘算法。