運(yùn)維未來(lái)的發(fā)展方向是智能運(yùn)維
近年來(lái)運(yùn)維技術(shù)飛速發(fā)展,運(yùn)維團(tuán)隊(duì)大多建設(shè)好了各種系統(tǒng),,虛擬化,、容器化、持續(xù)集成等等,。但是如何有效的利用這些系統(tǒng)最終實(shí)現(xiàn)站點(diǎn)的高可用,、高性能、高可擴(kuò)展?隨著智能化技術(shù)的發(fā)展,,為了解決上述運(yùn)維領(lǐng)域的問(wèn)題,,智能運(yùn)維的呼聲越來(lái)越高。
在日志易產(chǎn)品總監(jiān)饒琛琳看來(lái),,目前國(guó)內(nèi)智能運(yùn)維發(fā)展還處于一個(gè)探索階段,,要想盡快在智能運(yùn)維領(lǐng)域有所突破,首先要主抓好監(jiān)控系統(tǒng)和告警系統(tǒng),,并利用機(jī)器學(xué)習(xí)算法進(jìn)行快速監(jiān)控和排障,。饒琛琳,日志易產(chǎn)品總監(jiān),,曾任新浪微博系統(tǒng)架構(gòu)師,、大數(shù)據(jù)運(yùn)維技術(shù)專(zhuān)家,從事運(yùn)維 11 年,,精通大規(guī)?;ヂ?lián)網(wǎng)性能優(yōu)化,機(jī)器數(shù)據(jù)處理分析,,監(jiān)控和管理平臺(tái)的部署開(kāi)發(fā),。
這里,就將饒琛琳對(duì)智能運(yùn)維的發(fā)展一些早期觀點(diǎn)和看法整理出來(lái),,和大家一起探討下運(yùn)維未來(lái)的發(fā)展方向,。
1對(duì)當(dāng)下國(guó)內(nèi)運(yùn)維領(lǐng)域現(xiàn)狀的看法
簡(jiǎn)單來(lái)講,目前國(guó)內(nèi)運(yùn)維界在自動(dòng)化方面已經(jīng)達(dá)到了一定的水平,,就現(xiàn)階段而言,,自動(dòng)化和監(jiān)控兩部分還是有一定距離。例如,,你拿到了監(jiān)控類(lèi)的報(bào)警,,可能不清楚立馬去做哪一項(xiàng)自動(dòng)化的部署。如果能把自動(dòng)化和監(jiān)控這兩部分有機(jī)的結(jié)合起來(lái),,運(yùn)維的工作會(huì)運(yùn)轉(zhuǎn)的更加順利,。
2移動(dòng)端和微服務(wù)給運(yùn)維工作帶來(lái)的挑戰(zhàn)
在 PC 端的時(shí)代,運(yùn)維的很多工作受限于瀏覽器,,運(yùn)維人員拿不到用戶(hù)端真實(shí)的數(shù)據(jù),。這種狀況下,大家就會(huì)普遍采購(gòu)一些第三方服務(wù),,嘗試獲取終端數(shù)據(jù),。而在移動(dòng)端時(shí)期,我們都有自己的 IP,,可以把一些采點(diǎn)的邏輯放在自己的 IP 里,,然后獲取到更準(zhǔn)確,、更真實(shí)的客戶(hù)數(shù)據(jù)。相對(duì)于挑戰(zhàn)來(lái)說(shuō),,這其實(shí)是移動(dòng)端帶來(lái)的好處,。
微服務(wù)的出現(xiàn)給運(yùn)維工作帶來(lái)一些難題。沒(méi)有出現(xiàn)微服務(wù)之前,,運(yùn)維人員在一臺(tái)或者兩三臺(tái)機(jī)器中就可以完成問(wèn)題排查,。出現(xiàn)微服務(wù)之后,這些問(wèn)題可能拆到了好幾十個(gè)分布式的地方,,各自的輸出,甚至啟停會(huì)很方便,,你有可能遇到在找問(wèn)題的時(shí)候混淆的情況,。而解決這些麻煩就是需要智能運(yùn)維。
3在大數(shù)據(jù)時(shí)代,,智能運(yùn)維與數(shù)據(jù)之間,、自動(dòng)化運(yùn)維之間有何關(guān)系
智能運(yùn)維的理想狀態(tài)就是把運(yùn)維工作的三大部分:監(jiān)控、管理和故障定位,,利用一些機(jī)器學(xué)習(xí)算法的方法把它們有機(jī)結(jié)合起來(lái),。
在大數(shù)據(jù)時(shí)代,智能運(yùn)維是基于大數(shù)據(jù)之上,。目前看來(lái),,運(yùn)維想要把監(jiān)控、管理和故障定位這三部分有機(jī)結(jié)合起來(lái),,就不可避免的需要用到智能算法,,而體現(xiàn)智能算法價(jià)值的一點(diǎn)就是:智能算法需要大量的數(shù)據(jù)去做支撐。
自動(dòng)化運(yùn)維這幾年處在一個(gè)良性發(fā)展的狀態(tài),,包括像 Puppet 這種配置管理的自動(dòng)化,,像 Docker 這種部署的自動(dòng)化。進(jìn)一步的發(fā)展就是需要把這三部分融合起來(lái),。目前能夠把這三部分融合起來(lái)的辦法就是利用人工智能的手段,,最后達(dá)到一種智能運(yùn)維的狀態(tài)。
4智能運(yùn)維當(dāng)下的狀況及智能運(yùn)維發(fā)展的預(yù)測(cè)
智能運(yùn)維當(dāng)下還是一個(gè)初步探索的階段,??梢耘e幾個(gè)時(shí)間數(shù)字,我所看到一個(gè)和智能運(yùn)維相關(guān)的開(kāi)源項(xiàng)目是在 2013 年,,而我看到的第一個(gè)主動(dòng)出來(lái)宣講和智能運(yùn)維相關(guān)的應(yīng)該是在 2015 年百度在一個(gè)大會(huì)上的宣講,。然后大量的出現(xiàn)在宣講上有關(guān)智能運(yùn)維的應(yīng)該是在 16 年下半年。而這些宣講和我的一些宣講都還是說(shuō)我們現(xiàn)在有這樣的思路,,做了一些嘗試,。而這些嘗試的效果還是需要大家去碰撞,,看是否還有什么更好的辦法,因?yàn)槲覀儸F(xiàn)在是用普通的機(jī)器學(xué)習(xí)算法,,還沒(méi)有用到像 AlphaGo 的深度神經(jīng)網(wǎng)絡(luò)這部分內(nèi)容,。轉(zhuǎn)變?yōu)橹悄苓\(yùn)維是一個(gè)需要大量投入和學(xué)習(xí)的過(guò)程。
想盡快在智能運(yùn)維領(lǐng)域有所突破,,更實(shí)際一點(diǎn)的辦法就是主抓好監(jiān)控系統(tǒng)和告警系統(tǒng),。傳統(tǒng)的 IT 運(yùn)維需要管理大量的告警,極大地分散了企業(yè)的注意力,,消耗運(yùn)維人員大量的時(shí)間和創(chuàng)新力,。想辦法能把一天收好幾千封告警這種狀況,高效地解決,,把運(yùn)維人員從紛繁復(fù)雜的告警和噪音中解脫出來(lái),。這是一個(gè)在眾多辦法中產(chǎn)生價(jià)值的第一步。
現(xiàn)在比較明確的是大家會(huì)朝著智能運(yùn)維方向發(fā)展,,并且智能運(yùn)維的發(fā)展一定是一個(gè)長(zhǎng)期演進(jìn)的過(guò)程,。
對(duì)于智能運(yùn)維的發(fā)展預(yù)測(cè),我的簡(jiǎn)單看法如下:
第一步就是前面所說(shuō)的,,智能運(yùn)維在告警系統(tǒng)上的價(jià)值,,;
第二步就是智能地去判斷告警,,而不是現(xiàn)在靠人力的經(jīng)驗(yàn)去設(shè)定一個(gè)閾值,。設(shè)定告警閾值是一項(xiàng)耗時(shí)耗力的工作,需要運(yùn)維人員在充分了解業(yè)務(wù)的前提下才能進(jìn)行,,還得考慮業(yè)務(wù)是不是平穩(wěn)發(fā)展?fàn)顟B(tài),,否則一兩周改動(dòng)一次,運(yùn)維工程師絕對(duì)是要發(fā)瘋的,。
第三步是利用一些 NLP(自然語(yǔ)言處理),,把故障報(bào)告、文本化的語(yǔ)言提煉出來(lái)去自動(dòng)反饋到這個(gè)系統(tǒng)里,。這一點(diǎn)可能是更遙遠(yuǎn)的一個(gè)設(shè)想,,但是目前來(lái)看會(huì)是將來(lái)發(fā)展的一條道路。