對孤立點分析方法在現代審計中的運用技巧分析經濟論文

學識都 人氣:1.89W

一、引言

對孤立點分析方法在現代審計中的運用技巧分析經濟論文

隨着計算機信息技術的迅猛發展,大型企業和信息型產業大多都正在使用供應鏈管理(Supply Chain Management,SCM)系統或企業資源計劃(EnterpriseResource

Planiling,ERP)系統或客戶關係管理(Customer RelationshipManagement,CRM)系統或財務管理(Financial Management)系統等,使企業的管理制度更加完善,同時企業所有運營環節都充斥着信息資源(包含各個部門大量財務數據和經營管理數據的數據倉庫)。審計人員從被審計單位的信息系統數據倉庫中獲取大量審計數據,面對被審計單位海量數據中蘊含着極其豐富信息的挑戰,僅僅依靠只是將傳統手工的審計流程計算機化的信息技術,如結構化查詢語言(SQL)等,很難滿足信息時代審計的需求。

計算機輔助審計技術的不斷髮展,數據挖掘技術爲被審計單位在面對海量數據時提供了新的思路,在審計工作中引入對海量數據進行“輕鬆處理”的數據挖掘技術(如決策樹算法、聚類算法、關聯規則發現算法等),是對計算機審計方法的補充,“減弱”傳統審計方法的限制條件,爲現代審計開拓了便捷的路徑。可以說是現代計算機審計方法一個里程碑式的突破,也是計算機審計方法探索的悄然趨勢。審計人員在面對存在着複雜的審計環境和海量的財務數據時,若利用數據挖掘技術,可以在短時間內發現異常數據(因它在發現審計線索特徵方面可以發揮其特有的功能),有助於對被審計單位進行系統全面的審計,把風險儘可能降低,進而拓寬審計領域。

本文基於數據挖掘技術中的孤立點分析方法來發現一些異常的審計現象,孤立點分析方法先對這些大量的審計數據進行預處理(除噪),然後建立數據挖掘模型,運用此模型分析出具有一定特徵且小比例的異常數據,供審計人員決策分析時參考。

二、孤立點分析方法

孤立點分析是數據挖掘技術中用來檢測審計數據中異常數據的一項重要技術。由於審計分析中的疑點數據往往表現爲孤立點,通常情況下,在對被審計數據進行分析時,常常選擇孤立點分析技術。

(一)孤立點

孤立點是數據集中與衆不同的數據,使人懷疑這些數據並非隨機偏差,而是產生於完全不同的機制。在聚類分析中,有的數據對象不屬於任何的類或簇,這樣的數據對象在聚類中稱爲噪聲,而在孤立點分析中,則稱爲孤立點。孤立點是個相對的定義,特別地,在審計領域,審計數據初始分佈模型假設的不同,或研究者在不同的檢測背景下,都會得出不同的結論。

鑑於很多人爲或非人爲的原因都會導致孤立點的產生,如人爲執行錯誤或人爲故意操縱數據爲達到某種目的而致使孤立點的產生,再如儀器測量錯誤、系統故障、數據總體中的自然偏差或固有的數據變異都會導致孤立點的產生,我們要對孤立點產生的原因進行全面分析。但最重要的是,審計人員要對這些孤立點保持敏感性,並分析出孤立點背後產生的深層次原因,來獲取有價值的審計信息。

(二)孤立點分析方法

1.孤立點分析方法的概念

孤立點分析方法可簡述爲:給定一個有n個數據點或對象的集合及預期的孤立點數目k,發現與剩餘的數據相比是顯着異常的、孤立的、或不一致的前k個對象的過程。因此,孤立點分析實際上可以被看作兩個子問題:

(1)在給定的數據集合中定義什麼樣的數據是不一致的;

(2)找到一個有效的方法來檢測這樣的不一致數據。

2.孤立點分析方法介紹

(1)基於統計的方法

當數據集的概率分佈及參數(如正態分佈、泊松分佈等,均值、方差)已知或需經多次驗證並試圖得出數據真實的概率分佈或參數特徵時,一般使用基於統計的方法。此方法尤其用於數值型數據。孤立點的確定主要是通過檢驗偏離統計模型的不一致數據,並統計出其個數,分析其性態。

(2)基於距離的方法

Knorr和Ng提出了一種體現孤立點本質的定義,即若一個數據對象與數據域中大多數對象之間的距離(相異度)都大於某個閾值,將此數據對象確認爲一個孤立點。閾值的設定是在對被審計數據清洗,並檢驗其有效性之後,據審計數據所屬行業的特點,將行業常規值預先設定爲閾值,或經公式計算得出閾值。此方法有效的避免了基於統計方法中數據分佈特徵確定的問題。

(3)基於偏離的方法

基於偏離的孤立點挖掘是通過檢查一組對象的主要特徵來確定孤立點。與給出的描述“偏離”的對象被認爲是孤立點。此孤立點挖掘有兩種常用的技術:第一種序列異常技術,是一種基於相異度函數(往往是審計數據集的總方差)的有效方法,預先定義樣本集的一般特徵,其餘“偏離”這些特徵的樣本屬於異常樣本。第二種OLAP數據立方體技術,在審計時,對那些標爲異常的單元下鑽,可能會發現更細節或較低層次的異常。

(4)基於密度的方法

Breuning等人基於密度聚類思想的啓發,於2000年提出了一種基於局部密度來檢測孤立點的新方法,通過該數據對象周圍區域的局部密度,與它鄰近的局部密度之比來確定該對象的局部孤立點因子(Locai OutlierFactor,LOF),LOF的值越大說明該對象越可能是孤立點,需引起審計人員多加註意。該方法對發現局部孤立點有很好的效果。

(5)基於距離和密度的聚類和孤立點檢測方法

基於距離和密度的聚類和孤立點檢測算法(Distance & Density Based Clusteringand Outlier Detection algorithm,簡稱DDBCOB),是將基於距離和密度這兩種方法融合來確定聚類和孤立點。經過反覆驗證,證明融合了兩者優點的DDBCOB算法可以對任意形狀的聚類進行識別,可以有效地識別出高維數據中的孤立點。

(6)基於人工神經網絡模型的孤立點

Williams等提出的人工神經網絡孤立點檢測算法(Repntor Neural Networks,RNN),數據源往往使用通用統計數據集(一般較小)和專用數據挖掘數據集(較大,並且是現實的數據集),RNN算法對大的或小的數據集的孤立點檢測結果都達到了預期效果,但它不適於檢測含有放射狀的孤立點數據集。

孤立點分析技術在審計中的具體應用在兩方面:一是審計數據預處理過程中,審計人員對審計數據清理和檢測之後,通過規則集中預定義的孤立點識別規則,來識別此類數據是否爲孤立點。二是異常檢測(即讓經驗豐富的審計人員判別孤立點是否可疑)。

審計人員在進行審計時,對可用的原始數據進行採集、清洗以及驗證,使之達到建模的需求,然而最關鍵的一步是在明確了挖掘任務之後,據數據的類型和特徵,尋找與之相適應的孤立點算法,則審計人員選取以上介紹的孤立點分析方法的一種或幾種的組合,來滿足客戶對尋求異常數據的審計需求。

三、孤立點分析方法在審計運用中的一般流程

圖1是孤立點分析方法在審計中運用的一般流程,具體流程如下:

①審計人員提出需求,此需求往往是據審計人員的經驗和敏銳的洞察力識別出被審計單位財務數據或經營業務有些異常,需找出數據或業務中的噪點(孤立點),數據挖掘人員通過和審計人員的溝通來加深對審計需求的理解。在此進行的理解具體有業務理解和數據理解,其中業務理解包括據需求確定審計項目目標、評估審計目標的資源和審計人員的假設、確定數據挖掘目標、生成項目計劃,數據理解包括對被審計單位的信息系統和業務流程進行理解、採集原始數據並分析、初步檢測數據質量、探索數據變量。

②數據挖掘人員在理解需求的前提下檢驗此需求能否用孤立點分析方法解決。一般情況下都是可以採用孤立點分析方法來分析疑點數據的,首先對孤立點檢測算法的參數和孤立點識別規則進行預定義,然後調用數據清理算法對被審計數據進行清理,來提高定位孤立點的精準度。

③數據挖掘人員提出挖掘模型,並向審計人員詳細的介紹此模型的功能和作用,進而他們可以對模型的算法細節進行商討並加以確認,最後對數據挖掘模型進行試用;

④審計人員在理解挖掘模型的基礎上,對模型所產生的挖掘結果進行評價。

⑤審計人員對所試用的數據挖掘模型得出的結果進行評價時,若此數據挖掘模型不符合審計需求,此時,要對模型以及模型的輸入參數值等進行反覆的修正和完善,即不斷調試模型的輸入參數值,不斷完善模型來迎合審計需求。

⑥若數據挖掘結果是異常並且是重要的',則符合審計需求。

⑦若數據挖掘結果是異常但是合理的(若由於固有數據變異性引起的結果等),或異常但影響較小,達不到重要性水平,此時審計人員對原來假設審計數據有異常的情況不予處理。此重要性水平,主要依據審計人員的職業判斷和對審計項目的瞭解情況等。

另外,在建立數據挖掘模型初期,審計人員對審計數據的理解與把握程度,審計人員提出的需求與孤立點算法的融合程度,這兩個方面的因素對數據挖掘模型的建立起着決定性的作用。因此,審計人員和數據挖掘人員對審計需求的理解、孤立點分析算法及數據挖掘模型的確定、算法與審計需求的融合,這些過程將是一個不斷反饋、不斷論證的過程,以確保最終形成針對性強、實時的、最優的挖掘模型及方案。

綜上所述,建立數據挖掘模型是一個與或的過程,需要進行不斷的論證,通過分析提出的不同特徵的數據或目標,來確定最佳孤立點分析的算法,從而達到審計的目的。當然,最佳算法只是相對的,只是符合當前挖掘出的數據、目標及審計環境。對於實時的用戶需求及實際的審計目標,作爲審計人員要深刻理解各類算法的相似點和相異[文祕站-您的專屬祕書,中國最強免費!]點,集各類算法之所長,合理的組合或改進,形成符合審計需求的孤立點分析算法。可以說,在數據挖掘過程,人的因素是最重要的,在算法選擇和模型建立時都需要人的參與,同時需要具備紮實的專業技能和經驗豐富的審計人員和數據挖掘人員,需要他們時時溝通和配合。對於挖掘得出的結果,審計人員還需結合自己對審計項目的瞭解程度,並證實先前的孤立點假設,尋找出疑點,並分析出現這些異常現象的原因,給客戶一個滿意的、可以正常使用的數據挖掘模型。對於挖掘結果可能是審計問題線索證據的,需要審計人員進一步追蹤、查閱相關資料進行延伸調查,對新的疑點運用恰當的孤立點算法進行深入挖掘,探尋異常問題的本質。

四、總結

數據挖掘技術,已從研究階段逐步走向了實際應用階段。數據挖掘技術中有可能用於審計的技術可以和孤立點分析方法結合起來使用,可能會達到較好的效果,可能用於審計中的技術如統計分析技術,常運用在信息系統開發審計階段,它可發現偏差數據,即對審計數據分析得出的預測值和預定義的審計值進行比較,易於發現異常審計數據,獲得審計線索,又如聚類分析技術可確定審計重點,在審計過程中,通過聚類分析技術對被審計單位的同類型的財務數據或業務數據進行分類,使其成爲有相似特性的聚類,進而發現審計中需要重點關注的異常區域特徵。並且藉助該技術對計算機日誌的審查,可對系統安全運行起到重要保護作用;再如關聯分析技術,用於發現大量數據集合間隱藏的有意義的關聯,常運用在財務和業務數據審計中,挖掘出財務報表數據屬性間可能的相互影響,減小審計工作量,併爲後續審計活動提供參考和支持。數據挖掘的主要目的是向管理者提供分析決策上的支持,能夠幫助管理人員在較短的時間從大量的數據中篩選出具有代表性、規律性的數據樣本,從而爲精確分析、判斷、決策提供有力的數據支撐。但是,審計工作中不僅僅需要通過數據挖掘來尋找規律性、代表性的數據,同時對異常的、典型的數據有爲關注。數據挖掘中孤立點分析方法主要用於發現隱藏大量正常數據下的少量異常數據。對於大多數的被審計單位,是可以嘗試使用孤立點分析技術,檢測出一些特殊的、反常的數據,發現審計線索,驗證是否存在舞弊、違背規律和規定,可有效提高了審計效率,降低審計風險,符合成本效益原則