IT故障管理:亡羊補牢,不如未雨綢繆

學識都 人氣:4.64K

隨着BYOD、雲計算、大數據等新一代IT技術的發展,企業信息化應用變得更加得心應手,但IT運維管理的壓力似乎並沒有減輕,反而面臨更大的挑戰。對於IT運維主管來說,一場IT重大事故的發生,不僅會讓部門員工士氣低落,更容易讓上層領導懷疑IT部門的領導力和執行力。因此,針對IT故障管理,更多希望改善自身狀況的IT部門,開始選擇主動性的事前管理模式,而非被動式的亡羊補牢。

IT故障管理:亡羊補牢,不如未雨綢繆

英雄難過“故障關”

IT在很多時候都會充當幕後英雄的角色,可如今的職場生存環境,對心臟不強健的運維主管來說則是一個噩夢。

一方面,作爲公司的最高管理者,他們希望IT的能力越來越強大,變成無形的力量,因爲IT能消除公司內部的摩擦,並且削減每筆交易的成本。另一方面,你永遠不要相信他們可以做到絕對的平衡,如果重大的系統故障給整體收益帶來了影響,公司就會強調這個原因,強調公司發展受到了IT的拖累。

那麼,IT故障是否能夠徹底消除呢?答案是否定的。任何系統都有出現故障的時候,它可能發生在IT資產生命週期的任何一個時段,包括了硬件、軟件和不可抗的自然因素。爲此,企業必須要爲自身定義一個可以接受的故障管理目標,將IT基礎設施故障對業務的影響減到最小,並防止與這些錯誤相關的事故再度發生。

如果單從故障管理的目標來看,人們力求找到引發事故的根源,然後才着手改善或糾正該情況。“這種做法固然無錯,但卻沒有行走在IT運維管理最佳的流程上。

對此,北塔軟件表示:“故障管理的流程具有被動和主動兩個方面。被動方面是作爲對一個或多個事故的反應而解決問題,而主動的“故障管理”是指在事故發生前確定並解決問題和已知錯誤。所以說,即使你現在‘救火’的事情再忙、再多,也應當去思考,並且馬上行動起來,因爲這種工作狀態非但不能給IT部門帶來改變,反而陷入一個惡性循環當中。

“兩步走”實現未雨綢繆

如今,企業的IT架構被多種新興技術改造,並與業務深度融爲一體。這帶來了極度複雜的管理機制和故障發生機率,迫使IT部門不能滿足於傳統的故障識別及修復工作,而需要走在問題的前面。

未雨綢繆的益處世人皆知,但又要從何入手呢?針對這個問題,北塔軟件建議用戶採用如下兩個步驟實現“質變”:

◆ 第一步:基礎設施監控“泛化”

之前,由於網絡的龐大和後續累加,你可能無法知道IT系統中每個關鍵應用承載設備在哪裏,甚至不知道這些設備連接的應用在哪個端口上。這時的IT運維管理就等於“盲人摸象”,連最基本的“救火”都無法實現。所以,在這個階段,便需要利用具備手動或自動發現功能的運維工具,迅速搜索整個網絡內的所有節點,實現整個網絡的真實物理拓撲圖,實時反映出整個網絡的運行狀態。

需要注意的是,在雲計算或虛擬化運行環境中,傳統的運維工具已經無力支撐這個目標。此時,用戶可以採用北塔BTIM等具備自動感知虛擬和物理環境的新一代運維平臺,將虛擬交換機和虛擬機以“實體連接”的形式存在於監控場景中,自動追蹤數據和虛擬機漂移後的性能指標。

◆ 第二步:業務管理“透明化”

一套業務系統的`可用性,取決於每個基礎設施對象之間的配合和穩定,但之前的基礎監控數據對於整套業務系統又能起到什麼幫助呢?

在完成全網監控的目標後,用戶可以利用北塔BTIM自動對監控數據從業務角度歸類整合,讓所有業務關鍵參數醒目地投射到業務架構上,實時反映業務運行情況。業務視圖的構建,可以對外向業務部門,對內給自身管理都提供透明化管理,能夠非常清晰地反應出業務系統的健康指標。而透明化的監控業務系統運行起來之後,能夠事前發現可能引起系統宕機故障,或者訪問質量無法保障的問題,把可能發生故障的隱患消除在萌芽狀態。

IT運維要給創新“留時間”

主動運維、事前運維,這些具體工作實際上都在圍繞着“預防性檢查(PM)”展開,旨在提高系統的可用性、穩定性。而IT部門的價值若想進一步體現,就不能總圍繞“救火員”的角色。因此,未雨綢繆的最終目的還是解放人力。

對此,北塔軟件表示:“追求IT創新不僅需要靈感,更要時間。用戶還可以利用北塔BTIM中的‘業務仿真、自動巡檢’等功能替代人力操作,主動找出可能會影響系統可用性和性能降低的原因。在這個平臺上,看似是一張簡單的業務管理門戶圖,但卻可以緊密聯合並改善IT與業務部門之間的關係,在溝通中激發IT創新的靈感。”