新聞中心
有災無備的背后:災備管理是最大的黑洞
作者:睿至大數據
據不完全統計,在過去的一年中,全國開建、在建和已建成的災備中心、災備項目不下百余處,這些災備中心承載著產業園區、金融機構、醫療民生、區域大數據/云計算平臺等諸多業務發展中心的災難備份恢復及業務連續性保障工作,是許多政府機構、企業事業單位及組織機構IT和業務可持續發展的重要保障。

    從北京的亦莊,到廣州的南翔;從安徽的合肥,到江西的贛州;還有風景如畫的廣西桂林到中緬國境線邊的云南保山,還有大草原上的明珠呼和浩特,僅是在2017年7-8月間,國內宣布動工和建成的災備中心不下十余處,范圍遍及全國各地、天南海北,著力發展大數據與云計算產業,為技術開發區、產業園區提供堅實的IT基礎,已經成為各地政府、企業的共識,而建立災備中心,成為所有工作中不可或缺的一部分。 

1505118286.jpg

    據不完全統計,在過去的一年中,全國開建、在建和已建成的災備中心、災備項目不下百余處,這些災備中心承載著產業園區、金融機構、醫療民生、區域大數據/云計算平臺等諸多業務發展中心的災難備份恢復及業務連續性保障工作,是許多政府機構、企業事業單位及組織機構IT和業務可持續發展的重要保障。


    與此同時,國內正在形成新的災備中心外包服務業務新模式,例如某建立在廣西桂林的災備中心,其服務目標不僅僅是為了本地園區和企業事單位,更重要的是,它將成為一個對外服務的新平臺,除了服務于桂林市公共基礎數據中心,更要面向廣西和東盟提供數據災備服務業務——這意味著,災備中心的身份已經悄然發生了轉變:從對內提供服務的基礎設施,變成了對外提供服務的商業化災備服務中心。 


    但在各地如春筍般建立災備中心的背后,一個隱憂仍然久久不能散去:自2010年開始,幾乎每年都會有國內的知名企業涉及到業務連續性事故當中,這其中既有知名的制造業企業、物流公司或是電商平臺,也有中小型的銀行、信用社、保險公司、證券公司等金融機構,更有甚者,大型知名商業銀行也頻繁牽扯其中:2012-2013年,短短的半年多時間里,多家金融機構出現業務系統故障,這些事故不僅波及銀行柜臺、ATM等傳統業務,就連網絡銀行、手機銀行、網銀支付、POS機支付等業務也因故癱瘓,而且幾乎每次事故,都是“北京、上海、廣州、深圳等大型城市首當其沖,全國范圍出現癱瘓”——無一例外的,這些出現事故的金融機構都曾標榜自己“建立了可靠的、高效的容災備份體系甚至是多活數據中心”。


    將上面的這些新聞放在一起形成的尷尬局面讓人哭笑不得:一邊是不斷落成的災備中心;一邊是事故頻發、麻煩不斷的各類政府機構、企事業單位,到底災備中心是不是白建了?到底那么多災備的項目建成了之后、甚至演練了之后,在關鍵時刻為什么不起作用?到底是哪里出了錯?


有災無備的背后:容災管理是最大的黑洞
    眾所周知,在服務器領域有一個名為RAS特性的提法,即可靠性(Reliability)、可用性(Availability)和可服務性(Serviceability),高水平的RAS特性意味著該服務器可以承載企業更為關鍵的核心應用,而RAS特性并不是某一個組件或某一個層面所組成的,它包括了管理層、操作系統層、CPU、內存、I/O甚至是散熱供電等多層次、多維度的RAS特性,是一個整合的有機體。 

在災備領域,概念也是相通的。事實上,在災備這一話題下包括兩個部分:第一是災備系統的建設,指的是建設物理(硬件)的設備和基礎設施,比如說災備系統、兩地三中心等等;第二是容災管理,它包括了容災管理平臺、企業的容災管理規范(比如應急響應機制等),是“軟件平臺+管理策略”的組合——災備系統是“搭臺”,容災管理是“唱戲” 


    這就是災備往往被稱為災備體系或容災體系的原因,一個可靠、可用和可信賴的災備系統,不僅僅是建設了災備中心、災備機房或是災備設備(服務器、存儲、網絡以及軟件平臺),還應該有完整的災備應急機制和高效(更準確來說:是要奏效)的容災管理體系。 


    但在實際情況中,容災管理卻成為了災備系統建設最大的黑洞,這其中的原因是多方面的: 


    首先,企業的IT架構往往是復雜的、多元化的,擁有不同時期采購的新舊架構,業務應用環境也在第三平臺時代變得越發復雜,同時,云計算的加入也讓IT架構變得更加多元化;

其次,容災管理工具要么是不足,要么是沒有100%的發揮其功用,這導致運維人員不僅無法真正的、實時的了解各業務系統的災備關鍵指標,更無法完成周期性的災備系統維護、災備切換演練(以及制定服務報告和切換手冊); 


    第三,在災備維護、管理、測試、演練甚至是切換流程中,存在大量需要人為干預的工作,包括切換判斷、手動啟停、匯報審批等等方面,導致整個業務系統不僅切換過程不可控、流程繁瑣,甚至是進行1、2次災備預演之后,都會因為意外的人員問題而導致災備切換失??; 


    第四,過分依賴于由容災管理團隊根據技能和經驗設立的災備預案規劃,這不僅導致企業面對多種災備場景,缺乏針對性的全局災備預案規劃,更缺乏系統本身的驗證機制,真正出現災備切換場景時難以保證應用切換的準確和實時性。 


    最為關鍵的是,當災備系統的容災管理復雜、低效、依賴人工干預,災備系統最需要發揮起作用——也就是俗稱的“切”——的時候,無論是業務團隊還是IT團隊,都在這個“涉及系統多、人員多、耗時長、風險大、影響廣”的問題面前躡手躡腳:誰也不知道在切換的流程中,哪里會出問題,哪里會有紕漏,哪里又會有意想不到的問題。 


    最終的結果,就是誰都“心里沒底”,誰都“手上沒準”。于是,誰也不敢做出決定(或者說誰也不敢擔負未知的風險),“原本可能是有效的災備系統也就此變成了一個無效的擺設”。


睿至容災管理:可視、可控、更可“切”

    為了不讓辛辛苦苦且花費了大價錢災備系統形同虛設,企業需要統一的、自動化的、專業化的容災管理平臺,它的建設應當遵循災備體系建設的規律,幫助IT團隊實現災備工作的流程化、精細化和自動化,提高容災管理的水平和工作效率。 


    針對容災管理中所遇到的問題和企業災備系統的實際需求,睿至提出了容災管理平臺的“三化”: 

容災狀態可視化:支持IT團隊的容災指標監控、切換過程監控,容災資源納入統一管理體系,同時,有清晰、完整的容災大屏(指揮及)展示平臺; 
容災切換可控化:包含可管理的容災預案,可自定義容災切換流程,為不同需求、不同層面的融在需求定于容災場景,當然,也要嚴格的管理切換權限;
容災演練自動化:提供容災演練模板,可自定義容災演練策略并支持多應用場景的一鍵容災,并且提供詳盡的切換演練報告。


    為了滿足這三點需求,睿至容災管理解決方案提供了一系列的功能設計和技術創新,比如說: 

    在睿至容災管理平臺上,IT團隊不僅對應用狀態的一致性、災備系統可用性及運行狀態一目了然,更對業務系統BIA、RPO/RTP、復制鏈路(的狀態和性能)等關鍵指標有著詳盡的信息監控,而且所有有關信息都可以在災備系統大屏幕上清晰的、實時的、圖形化的展現出來;此外,還可以自動進行包括行業合規性、容災故障切換、容災計劃內切換、容災演練在內的一系列分析并生成報告; 


    為了做到“可控”,睿至容災管理解決方案同樣可圈可點:通過智能化流程配置、格式化定制腳本等可自定義的切換流程設計,睿至將線下審批和線上切換流程統一化(且每個流程均可支持自動執行或人工執行/驗證),并且實現了高容錯率的自動化、標準化運維。不僅如此,通過預支支持主流OS、虛擬化和數據庫應用的災備切換流程通用預案模板(也可以自定義),睿至容災管理解決方案支持“開箱即用”,極大的增強了切換時的易用性。 


    此外,災備預案配置管理功能可以自定義容災切換的場景和流程(提供靈活自動化引擎,可配置任何切換場景):任務對應腳本,并綁定執行角色和節點資源,讓后多個任務組成一個流程,多個流程組成一個場景,一個預案中可能包含多個場景(場景之間也可以互為關聯甚至是“父子”)。當然,睿至容災管理解決方案提供了靈活卻又嚴格的人員分配與權限控制(管理)能力,從而確保了只有專的、對應其工作范疇的容災管理維護人員才可以對災備系統做出任何的修改和調整,是災備系統和災備切換最重要的一道安全保障。


    對于災備系統來說,能不能“切”的關鍵,既不是災備系統花了多少銀兩,也不是使用了哪個國際知名品牌的產品,而是萬一遇到關鍵時刻時的“最終決斷”,是那一聲干凈利落的“切!”——只是在現實世界中,有勇氣喊出這一聲的人并不多,這其中的根本原因并不復雜:就像是國際大賽上的運動員、高考考場上的高三考生,關鍵是要看平時練的多不多。 


    但容災演練不是說練就練的,由于事關重大且牽扯的人員眾多、流程復雜,一次容災演練往往要興師動眾的準備十幾天甚至一個月的時間,即使是再重視容災演練的IT團隊也無法一年中很多次的進行演練,“一年一次都算是好的,更不用說標準的一年兩次甚至一年多次?!?nbsp;


    因此,睿至容災管理解決方案將著眼點放在了容災演練的自動化上:它不僅支持靈活的在線腳本定制,可以自定義容災演練場景,還有著清晰、完整的容災演練切換流程展示,具備“演練準備-開始演練-進行切換-反向復制-應用驗證-發布公告”的容災演練全生命周期管理能力,“想怎么練就怎么練”是對容災演練zui最大的收益,也是確保臨門一腳喊得出來的關鍵因素。 

作為關注在容災管理運營解決方案,睿至容災管理解決方案通過實現導航可視化、切換自動化、流程可編輯、文檔可更新等手段,為用戶容災管理節約人力物力,減少失誤,降低人為影響,保障業務持續運行,與傳統手段相比,睿至的解決方案能夠將原本需要3~10個人且耗費數小時的災備切換,轉變為只需要1~3人僅僅45分鐘-2小時的高效率災備自動化切換,而且同時保證切換的成功率和數據、業務的可用性。 


    當然,建成了災備系統、有了完備的容災管理平臺,也并不意味著災備系統建設的100%成功,2015年某區域性商業銀行業務系統中斷長達37個小時40分鐘的教訓仍然歷歷在目:這是一家曾經率先完成8000公里災備演練的區域性商業銀行,它曾經建立了國內領先的災備系統和應急響應機制,但隨著建成系統后的3、4年中,該行安全生產意思薄弱、應急管理體系缺失,加之應急處置過程混亂,結果釀成了近年來商業銀行最嚴重的一次運營事故。
 
    “20%靠系統、30%靠管理,剩下的50%,靠的是從不懈怠的容災管理意識,靠的是每天懸在心里的警鐘長鳴?!痹谝晃辉浗洑v過災備系統切換且“僥幸成功”的CIO眼里,“災備系統的物理系統、容災管理和危機意識”才是確保成功的全部要素,而睿至,則至少幫助企業用戶們完成了三分之一的重要(容災管理)工作。


  • 1
  • 2
  • 宅男