數據挖掘技術在機房信息管理的運用論文

學識都 人氣:1.72W

1、大數據概述

數據挖掘技術在機房信息管理的運用論文

大數據用來描述和定義信息爆炸時代所產生的海量數據,它是計算機和互聯網互相結合的產物,計算機實現了信息的數字化,互聯網實現了信息的網絡共享化。隨之興起的則是從海量數據中挖掘預測出對人類行爲有效的方法和結果,即數據挖掘技術[1]。數據挖掘(Datamining)指從大量的數據中通過算法搜索隱藏於其中的信息的過程,是一門跨多個領域的交叉學科,通常與人工智能、模式識別及計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。其特點爲:海量數據尋知識、集成變換度量值、分析模式評效果、圖形界面來展示[2]。

2、大數據時代下的高校機房現狀

順應時代潮流的發展,各高校都開設有計算機專業,非計算機專業也在大一或大二時期開設公共計算機課程,計算機成爲教育領域內不可或缺的教學設備,隨着高校的進一步擴招,教育事業的不斷更新發展,學校的機房建設也隨之增多,其任務由原來的面向計算機專業發展到面向全校的所有專業開設公共計算機教學、承擔各種計算機考試等多項任務。因此機房管理系統在日常教學和考試任務中積累了海量數據,一般這些數據都保存在主服務器上僅供查詢使用[3]。利用數據挖掘技術,對學校機房信息管理系統所積累的大量學生上機數據進行深入分析與挖掘,將挖掘得到的預測結果輔助學生成績管理決策,能合理利用機房資源,提高學生成績管理質量。本文利用關聯規則,從現有的機房信息管理系統中收集到的海量學生上機記錄數據中挖掘出隱藏在數據中的學生上機規律和上機效率,進而預測學生的期末考試成績,提前告知,學生可以在隨後的學習中通過人爲干預學習過程:比如挖掘預測出某生成績將會較差,則可以在其後的學習中調整學習方式和學習態度,以修正期末考試結果,提高學習效率和考試通過率,爲以後的就業做好鋪墊,因此不管是對於當前利益還是長遠利益,都有深遠的意義。

3、數據挖掘階段

1)定義問題:明確數據挖掘的預期目標。本次挖掘目標旨在從海量機房學生登錄信息中找出能預測成績的相關規則。

2)數據準備:提取數據挖掘的目標數據集,並進行預處理[4]。本次挖掘數據對象爲吉首大學設備中心六樓公共計算機機房的學生上機信息表,並檢查數據的有效性、一致性、完整性,並去除噪聲,進行預處理。

3)數據挖掘:根據上個步驟所提取數據的特點和類型選擇相應合適的算法,並在預處理過的數據集上進行數據挖掘。根據問題定義,本次選擇關聯規則算法Apriori算法,進行關聯規則發現並預測。

4)分析挖掘結果:解釋評價數據挖掘的結果,並將其轉換成能被用戶所理解的規則。

5)運用規則:通過分析挖掘結果,可以適當進行人工干預,修正學習行爲,使得最終結果達到理想學習效率。

4、數據挖掘在機房管理系統中的應用

4.1關聯規則算法

Apriori算法採用逐層搜索的迭代方法,不需要複雜的理論推導,易於實現,是利用挖掘布爾關聯規則頻繁項集的一種算法。基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這裏採用的是中規則的定義。一旦這些規則被生成,那麼只有那些大於用戶給定的最小可信度的規則才被留下來[5]。

4.2關聯結果分析

以吉首大學實驗室與設備管理中心爲例,吉首大學實驗室與設備管理中心下設置的公共計算機實驗教學中心,負責學校公共計算機實驗室建設與管理,組織實施公共計算機實驗教學與開放,完成基於計算機平臺進行的計算機等級考試、普通話測試、各類社會化考試等測試工作。其中承擔公共計算機教學的機房共有7間,每個機房平均配置95臺學生用計算機和一臺教師教學用計算機,每臺電腦上都安裝有奧易機房管理軟件,學生每次上機都必須通過奧易軟件登錄界面輸入自己的學號和密碼才能進入系統使用計算機,從而收集到學生的上機登錄時間、離開時間,教師端可以利用奧易軟件對任意學生電腦端進行調換、抓屏、控制屏幕、考試、答疑等操作,所有數據存儲在機房管理端的後臺數據庫中,通過調用後臺數據庫中的學生上機情況數據,進行挖掘分析。由於數據量龐大,所以採用從起始順序抽樣的方法,抽取出2015年11月5日的部分學生上機的相關數據,去除不完整、不一致、有缺失的數據,進行預處理,爲達到預測挖掘目標提供正確的'數據源。表1中的數據前六列是從奧易軟件後臺數據庫中提取到的原始數據,我們設置第二、三、五列數據與學習情況有關聯。將這些數據存在於整合表中,剔除學號異常的記錄,即只要是學號異常,強制設定其上機情況爲較差(異常學號學生,應爲重修生,是學習重點關注對象),爲了方便系統分析,將關聯整合後的數據轉化爲布爾類型。登錄時間:S1:10:00;S2:遲到五分鐘;S3:遲到十分鐘;S4:遲到十分鐘以上。學號:N1:正常學號;N2:異常學號。下課時間:E1:正常下課時間;E2:提前五分鐘下課;E3:提前五至十分鐘下課;E4:提前十分鐘以上下課。利用關聯算法產生頻繁項集情況分析Q:Q1:優秀;Q2:良好;Q3:一般;Q4:較差。利用Apriori算法挖掘關聯規則,可以得到學生上機情況規律:S1,E1→Q1;(S2,E2)/(S1,E2)→Q2/Q3;S4,E4→Q4評價結果:按照正常上課時間上機並且堅持不早退的同學學習情況爲優秀;上課準時但是提前五分鐘之內下課的同學學習情況爲良好;上課遲到五分鐘以內且下課也提前五分鐘的同學學習情況爲一般;上課遲到十分鐘以上並且下課早退十分鐘以上的同學學習評估爲較差。如果利用關聯算法得出某個學生的學習情況有三次爲較差,就啓動成績預警,提示並干預該生以後的上機學習,督促其學習態度,提高學習效率,以避免期末考試掛科現象。

5、結束語

借數據挖掘促進治理主體多元化[6],借關聯分析實現決策科學化[7].,本文利用關聯規則思路和算法,將吉首大學設備中心機房中存在的大量學生上機情況數據進行分析挖掘,嘗試從學生上機相關數據中預測其學習情況,並根據預測結果有效提示學生的期末考試成績走向,引導該生在隨後的學習應該更加有效,以達到避免出現最壞結果,從而提高期末考試通過率。

參考文獻:

[1]李濤,曾春秋,周武柏,等.大數據時代的數據挖掘——從應用的角度看大數據挖掘[J].大數據,2015(4):57-80.

[2]王夢雪.數據挖掘綜述[J].軟件導刊,2013(10):135-137.

[3]袁露,王映龍,楊珺.關於高校計算機機房管理與維護的探討[J].電腦知識與技術,2013(18):4334-4335.

[4]李明江,唐穎,周力軍.數據挖掘技術及應用[J].中國新通信,2012(22):66-67+74.

[5]胡文瑜,孫志揮,吳英傑.數據挖掘取樣方法研究[J].計算機研究與發展,2011(1):45-54.

[6]黃夢橋,李傑.因素挖掘法在投資學課程中的教學實踐[J].吉首大學學報:自然科學版,2015(4):80-83.

[7]尹鵬飛,歐雲.基於決策樹算法的銀行客戶分類模型[J].吉首大學學報:自然科學版,2014(5):29-32.