IT:從運維到運營

  • 2019 年 11 月 20 日
  • 筆記

IT運維?IT運營?

都是 IT Operations,有什麼區別?

IT運維管理?IT運營管理?

都是 ITOM,有什麼區別?

一字之差,只是翻譯不同,還是另有玄機?

其實,中文真的是一門更精確的語言 🙂

  • IT運維是「活著」,IT運營是「活得好」;
  • IT運維更多是被動式「維持」,IT運營更多是主動式「經營」;
  • IT運維更多是面向基礎設施面向軟硬體,IT運營更多是面向業務面向服務面向人;
  • IT運維的關鍵詞是「穩定」、「安全」、「可靠」;IT運營的關鍵詞是「體驗」、「效率」、「效益」;
  • IT運維管理工具更多是關注故障防範和修復的「監管控」,IT運營管理工具開始更多應用性能、用戶感知、快速交付、數據分析和可視化。。。

企業IT正站在這樣一個拐點上,要麼從運維走向運營,要麼從運維走向被代維

***正文之前的說明:IT運維和 IT運營都非常重要,運維是運營的基礎,任何一個組織,首先是要活著,之後才要追求活得好,是 IT Operations的不同發展階段,今天的 IT運維部門的工作內容其實包括本文所說的 IT運營。***

大多數ITOM領域的從業者,一直以來都約定俗成地把ITOM(IT Operation Management)翻譯成IT運維管理,相應的也把IT Operations叫做IT運維。近兩年來,開始有越來越多的人使用「IT運營管理」和「IT運營」這樣的說法,對應的英文是一樣的,但這裡「運維」和「運營」是同樣的意思嗎?兩者之間有什麼異同?

關於這個問題,仁者見仁智者見智。有人認為其實運維就是運營,用個新名詞只是嘩眾取寵的噱頭而已;有人認為運維是面向IT設施的,運營是面向業務服務的;有人認為運維是關注IT指標,運營是關注業務指標的;甚至有人說,運維是「眼前的苟且」,運營是「詩和遠方」:-)

總體來看,大多數人認為兩者含義並不完全一樣,很多人都認為IT運營比IT運維的層次更高,有些成熟度較高的大型IT組織已經提出並在執行「從IT運維到IT運營」的發展規劃。但即使在提出這類理念和計劃的組織內部,對於究竟什麼是IT運維管理,什麼是IT運營管理,也還沒有非常清晰的分析和定義,更多的是將傳統IT運維管理領域之外的一些新內容籠統的歸到IT運營管理的部分里去。我在和某個正在執行此規劃的IT組織中的某位高層交流時,他就提到:「From Operations to Operations?連定義都沒搞清楚,怎麼能成為指導方向和發展目標?」

他的問題讓我這個ITOM的老兵也開始思考「IT運營」這個新「翻譯」的真正含義,以及近幾年來它日益流行的真實原因,在和許多同業交流之後,筆者在此分享一下我關於這個問題的一些想法和心得,作引玉之磚,希望能帶來更多同業的討論和指教。

首先,IT運維和IT運營,英文都是IT Operations,在老外來看,並無區別,是指關於IT運行的所有事情。而中文之所以有兩種不同的翻譯,是因為IT Operations包括的內容很多,IT運維和IT運營兩種中文譯法分別側重其中某一部分的內容,假如歸納成一句話的話,可以說IT運維管理關注的是「活著」,而IT運營管理則有更高層次的需求,不僅要「活著」,還要「活得好」。

先看個實例,某大型數據中心IT服務能力的願景是「以業務為中心,交付穩定、安全、高效的IT運營服務,構建業界領先的IT運營能力,支撐企業的持續發展和戰略成功。」這個願景中,「穩定、安全」就是解決活著的問題,屬於傳統IT運維管理的範疇,「以業務為中心」、「高效」、「業界領先」則屬於如何「活得好」的範疇,更多的是IT運營管理的範疇。

能力建設是有循序漸進的過程的,任何一個組織,首先都要解決「活著」的問題,然後才有可能追求「活得好」,因此,過去三十年,在大多數IT組織面臨IT設施規模快速擴張,IT應用數量不斷增多,IT運行壓力越來越大的挑戰時,首先要確保IT系統「活著」,也就是能夠持續「運行」,穩定「運轉」,通過日常「維護」工作讓系統少出故障,出了故障能快速「維修」,「維持」系統的正常「運轉」。這個階段把IT Operations翻譯成IT運維,把ITOM翻譯成IT運維管理,無可厚非。

IT運維管理階段的關鍵詞是「穩定」、「安全」、「可靠」,關注可用性指標(MTTR、MTTF、MTBF等)、可靠性指標(RTO、RPO)和安全合規。相應地,在技術、工具和流程上,都以穩定、安全、可靠作為最優先考慮的要素:

  • 技術上,傾向選擇穩定成熟的技術架構和產品,願意為提升可靠性支付大量溢價,上得起小型機的就上小型機,買得起大機那就大機,能備份的地方就備份,盡量採用全冗餘架構;
  • 流程上,首先從事件管理和變更管理做起,主要目標是能確保故障事件得到追蹤和及時解決,以及管控變更避免人為故障多發,關注重點還是在提升可用性;
  • 工具上,採用「監-管-控」架構,其中監控更關注設備級監控,重點發現故障節點,「管」就是配合實現變更和事件流程,至於「控」,此時上配置自動化工具,更關心的是實現配置的標準化和合規檢查,重點還是在增強可靠性減少故障,而非減少運維人員工作量。

在以「活著」為主要目標,以「穩」為主要形態的IT運維和IT運維管理髮展多年後,越來越多的IT組織開始走出這個解決基本生存需求的階段,從「被動維持」走向「主動經營」,追求如何「活得好」,近十年來,APM、BSM、雲計算、運維大數據等新的理念、技術和工具的出現、發展和變遷,都和IT正逐步開始從運維走向運營有密切關係,時至今日,從全局角度來看,可以說企業IT已經站在了從運維到運營的一個重要拐點上。

IT運營是建立在良好的IT運維的基礎上的,沒有「活著」,「活得好」就無從談起。 但怎樣才叫活得好呢? 換言之,IT運營追求的目標究竟是什麼?比IT運維多了哪些東西呢?

與IT運維更多地是面向基礎設施不同,IT運營更多的是面向業務、面向服務,本質上是面向人。我們說某個人活得好不好,如何判斷呢?大多數人認同的馬斯洛需求層次理論說,在解決了基本的生存問題和安全感之後,一個人要感覺自己活得好,是需要有社會認同和自我實現的。對於CIO來說,他所管理的IT組織假如能讓三類人滿意,我們就可以說這個IT組織已經從基本的IT運維階段走到IT運營階段,已經處在活得好的狀態了。

哪三類人呢?

用戶、老闆和IT人。假如IT組織是一個獨立公司的話,這三類人基本對應著客戶、股東和員工,CIO如果是公司老闆,就會知道其實這三類人是哪個都得罪不起的:客戶不滿意會流失,企業就沒有生存之本;股東不滿意會換人,說明企業沒有競爭力;員工不滿意會換地兒,企業就缺乏持久發展的能力。儘管行業特點和企業文化不同會帶來優先順序和側重點的不同,但本質上,一個有長遠發展前景的卓越公司,往往是做到了讓客戶、股東和員工都滿意的公司。

IT運維階段,IT組織更多地還是在解決三類人的基本需求,讓用戶能用,讓老闆批錢,讓員工幹活,當然也希望大家更滿意,但受限於階段性能力和各方面因素,先能保證這些基本需求就已經很不容易了,而做到這些,在相當長時間內也已經足夠,主要因為幾個原因:

  • 各企業資訊化之初,能夠利用IT實現對業務和管理流程的優化、固化和自動化,就已經達到目標;
  • 初期系統以內部員工為主要用戶,且沒有同類系統做對比,用戶對系統效率和體驗的容忍度高;
  • IT部門在企業內部的IT能力供給上基本是壟斷的,用戶沒有其它選擇。

因此,過去雖然IT部門提供的即使只是滿足基本需求的服務,大多數情況下也並沒有多大問題。但短短十年間,互聯網和移動互聯網大潮席捲世界的每個角落,每天用著微信滴滴淘寶攜程的用戶們的胃口已經越來越高了,過去能夠忍受的一些小問題也已經變得忍無可忍了:

  • 人家網站那麼快,咱們的系統怎麼都是老和尚,點一下滑鼠要等一炷香才動一下?
  • 人家網站第一次用沒人教我就全部自己搞定,咱們系統怎麼培訓幾回我都搞不清怎麼用?
  • 人家網站一看就是賞心悅目高大上,咱們系統怎麼就總是Low逼的不行?
  • 人家網站免費郵箱都無限容量,咱們怎麼花那麼多錢還每人限收發10M內郵件?

不知從哪天起,過去和企業IT八竿子打不著的「人家」一下子蹦出來,成了IT部門的變相競爭對手了,沒搶走用戶,但把用戶滿意度搶走了。更要命的是,隨著雲計算各種aaS的風起雲湧,這些「人家」未來沒準兒真的要來搶走用戶了。假如IT部門不能與時俱進,還是停留在滿足基本需求的運維上,而不主動向追求卓越的運營邁進,提供更有競爭力的優質IT服務,那就很可能會在幾年後會碰到更大的挑戰。

而在IT運營階段,與IT運維階段的關鍵詞「穩定」、「安全」、「可靠」不同,關注的關鍵詞變成了「體驗」、「效率」、「效益」。回顧前面我們提到某大型數據中心的願景中「以業務為中心」、「高效」兩個運營關鍵詞,其實「以業務為中心」就對應著「以用戶為中心」,業務就是以用戶為中心的嗎,而用戶關心的就是體驗(穩定可靠也是體驗的一部分)。「高效」則包含著高效率和高效益兩個含義,一個關注敏捷性,交付速度、響應速度,一個關注成本收益,關注服務獲取效率。

(假如說IT運維以「穩」為主,那麼IT運營則以」敏「為主,在技術架構選擇和IT管理流程和系統的建設上面,IT運營階段都和傳統IT運維階段的關注重點有所轉變,從而帶來了新舊架構、新舊工具、新舊方法並存甚至交匯的複雜情況,Gartner在提的Bimodal,聯想所說的雙態IT,也都在反映這種狀態。)

讓我們圍繞三類人的需求簡單看看IT運營比之IT運維階段要面臨的新挑戰,以及應對挑戰在出現的一些新的理念、工具和技術:

讓用戶滿意

用戶大致有兩類,個人用戶和業務部門:

個人用戶,不論是內部用戶還是外部用戶,更關心的是體驗,體驗主要是易用性、容錯性和響應速度;要提升體驗,對於IT運營管理領域就帶來了新的要求,要在傳統的設備和組件監控的基礎上,增加端到端的用戶體驗感知能力、應用性能的深入探測和分析能力、應用及系統性能瓶頸的發現和優化能力。

越來越多IT組織開始關注用戶體驗,從而紛紛部署包括外部模擬模擬探測、流量數據分析、日誌數據分析、嵌碼採集探測等各種針對應用性能管理的手段工具 ,造就了近年來APM市場熱度飆升。

這些採用不同手段的APM工具雖然有功能重疊的部分,但各有其側重點,多種工具的部署能帶來數據和功能的豐富性和多樣性,對於準確測量和提升客戶體驗是有必要的,事實上在那些特別重視用戶體驗的IT組織里,已經或者正在進行全方位的工具部署,並在嘗試在各種專業分析工具之間架設運營大數據工具,集成多樣化數據,提供數據的統一可視化和整合分析等能力,提升故障和優化點的定位分析能力,深度改善用戶體驗。

業務部門,除了關心最終用戶的體驗,更關心交付效率,與之相應的,IT部門開始在各個環節上採用新架構、新技術和新工具,從各個環節上提升效率,加快業務服務的交付速度。

  • 提高採購流程和硬體上架的效率:IaaS雲和資源池模式改變了傳統的按需採購模式,通過資源整合,將資源規劃和資源準備的工作批量前移,極致地提高了預算、採購和硬體上架的效率;
  • 提高系統部署和應用發布更新的效率:採用各種雲管理工具、雲管理平台及DevOps工具,通過自動化部署、配置管理等功能組件的組合,或從橫向的系統層次上,或從縱向的應用發布運行鏈條上,或者協同配合,不同程度地提高了應用組件甚至是整個業務系統的交付和發布效率,實現對業務部門交付需求的及時甚至實時響應,達到「敏捷」的程度。

讓老闆滿意

讓用戶滿意是讓老闆滿意的基礎,假如業務部門天天在老闆那兒告狀,老闆怎麼都滿意不了。但是即便業務部門都說你好話了,老闆就會滿意了嗎?要是你真的這麼認為,說明你太不了解老闆這種動物了。

老闆要的不只是結果,也一定會追求高效率和高效益,同樣的成果,能否用更低的成本達成?我們現在的成本收益水平,對應業界同行,是人傻錢多還是精明高效?說要追求「業界領先」,怎麼就是領先了?不能說技術更新應用更多就是領先吧?總要有個從效益角度的衡量方法吧?假如IT部門是一個獨立運營的實體,作為給錢的股東,也是要問這些問題的。

效益本質上是投資回報率,成本越低,效益越好,做的事情越有用,效益越高。要追求高效益,首先面臨的難題是要有一套成本收益的衡量體系,沒有量化方法,既搞不清楚IT部門當前在同業中所處的水平,更無法通過指標考核的方式推動IT部門不斷提高效益水平。在沒有這套衡量體系的時候,往往只能採用一些非常粗線條甚至感性的衡量方式,比如看每年的IT採購金額、IT員工數量、工業標準產品的採購單價等,導致很多IT部門在採購時往往要求廠商保證提供同行業最低價,可當大家都這麼要求的時候,顯然很難真正起到效果。更為重要的是,由於每個企業在業務和IT服務方面存在的差異性,這些粗線條指標並不能反映IT部門的效率和效益水平。

ITIL體系中早就提出了IT服務財務管理的概念,許多IT組織在過去十年嘗試了一些BSM(業務服務管理)和ITFM(IT財務管理)的項目,一個重要動因就是試圖建立IT效益的衡量體系,可在內部IT部門中成功者寥寥,主要原因是全部精力投入到基礎運維工作中還忙不過來,另一方面也和缺乏特別成功的最佳實踐有關。

不過隨著大家的不斷嘗試,伴隨近年來IT架構的演進和公有雲的興起,一些走在前面的IT部門已經看到了建立IT效益衡量體系的可能性,並開始在某些架構層級上開始嘗試性的探索:他們採用服務分層、成本歸集、各自對標的方式,對DC層、IaaS層、PaaS層的資源單位成本、資源利用效率、能源單位成本、能源利用效率和人員運營效率進行分別統計和分析,並分別和IDC、IaaS雲、PaaS雲的外部供應商市場價位水平做對照,來衡量自己的效率和效益水平。

IT效益衡量體系的建立,也讓IT自己可以從效益角度分解目標,推動IT內各個部門能夠逐年不斷提升效率和效益水平,讓IT部門的思考方式從成本中心轉變到利潤中心。近年來綠色數據中心概念和PUE指標被關注,都反映了這一變化趨勢。

要注意的是,即使建立了效益衡量體系,要讓它真正發揮作用,離不開大量的數據統計和數據分析,以及關鍵效益指標的可視化和透明化,很多IT組織開始嘗試建立IT運維/運營大數據平台,引入可視化和BVD概念,也都和追求IT效益可衡量有密切關係。而這些也會帶來額外的投入,IT組織可以根據自身的規模和目標優先順序,在有必要的情況下,選擇合適和成熟的切入點,分步嘗試,逐漸建立效益衡量體系。

讓員工滿意

互聯網企業的火熱和各行業互聯網+的熱鬧,都帶來了IT人才的爭奪,如何吸引和保留高素質的IT員工,已經成為許多IT部門不得不面對的新問題。要讓IT員工滿意,前面的兩個滿意(用戶滿意和老闆滿意)也是個重要基礎,否則IT部門自己地位都不高,員工也沒有成就感,士氣低迷,滿意度很難高起來。

但即使做到了前面兩個滿意,假如讓IT員工每天都疲於奔命,員工滿意度同樣會差,也不是長久之計。要解決員工滿意度的問題,有幾個方面是要考慮到的:

  • 提高自動化水平:與運維階段自動化更關注的是讓標準化落地以減少故障不同,運營階段更關注通過自動化減少員工的重複性勞動,更多地將精力放在能帶來更大價值的標準制定和技術優化上面,讓IT員工從技術工人變成真正的工程師;(自動化也會帶來效益的提升,隨著分散式、虛擬化和雲計算的普及,自動化已經成為不可或缺的手段,在一些大型互聯網公司,人均管理伺服器數量早已超過了業界1:200的良好水平)
  • 增加人性化因素:傳統運維階段為了穩定安全不但在軟硬體上投入巨大,而且往往在某種程度上不惜增加員工工作的繁瑣程度,在人性化方面考慮較少。不少IT組織已經開始從幾個方面進行改善:優化流程並引入新工具以減少員工的繁瑣文案工作;提供場景化運維能力改善工具的易用性,讓IT人員在運維和排障工作中更得心應手,提高IT系統穩定性的同時形成以工作場景為中心的運維方式;與時俱進引入新技術,在保持安全和風控水平的同時改善IT人員的操作複雜度(比如打破僵硬的網路隔離機制、實現移動化運維等);
  • 嘗試和引入先進技術:為追求穩定安全,傳統IT運維在技術選擇和使用上偏向保守,這固然有其道理,但優秀的IT人往往是對新技術有追求的,在技術演進日新月異、新技術傳播和應用速度如飛的今天,假如工作中接觸不到新技術新思路,IT人的技術追求被壓抑,並往往會伴生強烈的技術危機感,會導致對IT人才吸引力和保持力不夠。IT部門應在技術規劃中重視這一因素,在保證關鍵業務穩定運行的前提下,有意識有計劃地不斷嘗試和引進新技術,確保技術的先進性,拋開其它收益不談,但就提高員工滿意度和優秀人才吸引力而言,已經是非常值得的。

以上從三個滿意的角度簡單聊了聊從IT運維到IT運營的一些內容,有趣的是,這些滿意是遞進和包含的關係,讓員工滿意包括讓老闆滿意,讓老闆滿意包括讓用戶滿意,讓業務部門滿意包括讓個人用戶滿意,但每個滿意之間又都有各自的個性化內容。

要做到三個滿意,讓IT從「活著」到「活得好」,從重點「維」穩走向經營業務價值,意味著IT管理要更加精細化、自動化、智慧化,也必須建立多樣化的數據採集、多維度的數據分析/挖掘和全方位的可視化的能力,IT運營管理的架構也將在傳統監管控的IT運維管理架構上有所發展和變化,以適應IT運營在體驗、效率和效益方面的更多要求。

需要注意的是,IT涉及到規劃、設計、開發和運營多個環節,我們更多的是從運營的角度來談的,事實上要從IT運維走向IT運營,不僅需要運營部門(不再只是運維部門啦)的努力,也需要規劃、管理和開發部門的協同配合和齊頭並進。

從IT運維到IT運營,其實標誌著IT組織成熟度的提升,假如借用Gartner的I&O成熟度模型來看的話,IT運維更多是在前幾個階段,而更多開始關注IT運營,則標誌著IT組織走到了後兩個階段:Service Aligned和Business Partnership,開始把IT本身當做業務來運營,以客戶為中心,關注客戶體驗,運營效率和成本收益。

以上是關於IT運維到IT運營的一些不成熟的思考,拋磚引玉,希望能得到大家的批評和指教。

從IT運維到IT運營,許多IT組織已經在路上,同樣也有許多IT產品和IT服務的提供商已經洞悉到這一發展趨勢,配合IT運營的要求,開發和提供了許多新的運營工具和運營服務,我們希望能夠與各位有志於ITOM領域的同仁們一起,齊心協力,精益求精,共同提供優秀的ITOM產品和服務,為IT從運維到運營做一點事情,讓IT不僅活著,而且要活得好,活得精彩。