2024/07/22 18:30分,我們第一時間收到了“云檢測”的提示,有服務器離線了。
幾乎同一時間,又陸續(xù)的收到了多條消息,10幾臺服務器,都離線了。
那種就是:“當頭一棒”的感覺。”
已于23日00:30分全部恢復,影響范圍:
22日 訪問數(shù)據(jù),轉(zhuǎn)化數(shù)據(jù),全部丟失。
22日 18:30 之后的轉(zhuǎn)化數(shù)據(jù),無法回傳。
22日 18:30 之前的轉(zhuǎn)化數(shù)據(jù),可以在-【全部轉(zhuǎn)化】里面進行回傳。
事情經(jīng)過:
經(jīng)過10分鐘排查,定位到是服務器機房無法連接;登陸服務器控制臺,也看不到服務器。
于是我們立即提了工單讓服務器機房那邊排查。
事件結(jié)論:
服務器機房網(wǎng)絡問題,導致了網(wǎng)絡中斷,無法登陸,無法訪問。
服務器宿主機器故障,導致服務中斷,導致服務器重啟,導致頁面數(shù)據(jù)丟失。
直至最后恢復。
系統(tǒng)只備份了前一天21號的數(shù)據(jù)。
此次事件的一些反思:
服務器機房故障,確實是極小概率事件,面對此類事件鼎尖網(wǎng)絡也缺乏相關(guān)應急措施;畢竟服務器在千里之外,我們無法通過網(wǎng)絡連接他,唯一能做的,就是給服務器提供商反饋故障,希望他們盡快恢復。
躲過了阿XxX云的那次故障,團隊還很開心,幸好去年年底把服務器遷移到“電信”來了。
結(jié)果....還是遇到了這種機房的網(wǎng)絡級別的故障!
我們在屏幕前,也只能焦急的等待,使不上半點勁,只希望立刻,馬上,就能恢復好。
計劃和任務:
1、建立完善的通知機制,能讓大家第一時間知道故障,并且精確的告知影響范圍,讓你們對廣告做調(diào)整。
2、希望能建立一套容災服務器作為備用方案,有問題可以在5分鐘內(nèi)切換成功。
對此事件,我們也深表歉意,以后加強系統(tǒng)容災,盡可能的避免發(fā)生。