對個性化新聞建模研究論文

學識都 人氣:3.02W

1用户興趣模型的表示

對個性化新聞建模研究論文

本文采用基於本體的加權關鍵詞興趣表示方法。用户興趣模型是新聞領域本體的部分映射,由其中部分興趣類別和特徵詞組成。用户興趣的層次結構如圖2所示。該方法通過不同組合的概念節點及其權值構成用户個體興趣本體來表示用户的興趣概念。通過調整各個節點的權值或增加相應的主題節點適應用户興趣的變化。

2用户興趣模型的更新

用户興趣分為長期興趣和短期興趣,興趣是不斷髮生變化的。長期興趣反映出用户長期的偏好特徵,短期興趣隨着時間的推移發生改變。一般情況下,每個用户都會對某種類型的新聞內容有穩定的興趣。比如某用户喜歡足球新聞,且喜歡科技類新聞等類別,這屬於長期興趣,不易改變。除長期興趣外,用户可能在某個特定時期臨時關注某些信息,這屬於短期興趣。比如某用户某段時間想購買電腦,所以對關於電腦的信息特別關注,但購買之後關於這方面的'信息就不再關注了。還有些短期興趣是週期性的,比如每到五一假期,很多人對旅遊產生興趣。識別用户的短期興趣,只能通過統計用户使用系統的記錄,但是用户的短期興趣持續時間短,很難與用户偶然性的瀏覽相區分。本文所建立的用户模型將用户的長期興趣和短期興趣相結合,能同時反映出用户的長期興趣和短期興趣的變化,所以使推薦更加準確有效。本文用户興趣模型採用基於本體的加權關鍵詞興趣表示方法,它隨着用户興趣的變化也進行相應的更新。從存儲的容量和運行的效率考慮,需淘汰用户次要的和過時的興趣特徵。本文用户興趣模型主要通過調整用户興趣的特徵詞及其權重,來體現用户興趣的變更。用户興趣模型的更新方法:當系統發現用户一個興趣特徵時,查詢該用户現有的興趣特徵。如果此興趣特徵已經包含在興趣模型中,則對該特徵詞的權重和時間進行修改。如果發現此興趣特徵不在用户興趣模型中,且用户興趣模型有剩餘的存儲空間,則直接在用户興趣模型中生成一個新的興趣特徵。如果用户興趣模型的存儲空間已滿,則需淘汰權重低的興趣特徵後,添加新的興趣特徵【10】。特徵詞權重的更新方法如式(4)所示,不是將TF/IDF值直接累加,而是將原模型中的所有特徵詞的權重乘以一個衰減係數。新的特徵詞的權重也不是直接歸併進去,歸併的時候需要乘以用户對該篇新聞的興趣度,興趣度在用户興趣收集時已計算

3相似度計算

前文提到新聞頁面的表示方法採用向量空間模型的方式。首先需要對新聞頁面內容進行分詞,特徵詞提取以及對文本特徵進行表示,然後計算特徵值的權重。特徵詞按照其TF/IDF值降序排列,因為權值高的特徵詞能夠更好的反映該新聞文本的的內容,而權值低的詞與新聞本身的內容關係較弱。所以只需要使用最能夠代表新聞特徵的前N個特徵詞及其權值參與計算即可。在進行新聞頁面的匹配時,從用户興趣模型除根節點外的第一層開始計算,取相似度最高的興趣子類作為該頁面的類別。同時該結點與新聞頁面的餘弦相似度計算的值作為該頁面與用户的興趣相似度,作為該頁面是否符合用户的興趣的衡量標準。本文來自於《情報科學》雜誌。情報科學雜誌簡介詳見

4結語

本文研究了基於領域本體構建用户興趣模型。在模型中設置三層用户興趣類別,子層與父層是從屬關係,子層興趣度的衰減能夠影響父層的興趣度。根據用户行為,分析用户對新聞頁面的偏好程度,反映到用户興趣模型中,能夠及時反映出用户興趣的變化。該模型提高了人性化程度,能夠更好的為個性化新聞服務提供基礎。