一、    場景說明:申請彈性云主機,提示“No valid host was found”

任務目標:

1如下已給可用分區主機組及規格的相關配置,通過分析配置梳理出彈性云主機無法申請成功的原因,并對錯誤配置進行改正。

1.       規格未關聯可用分區,導致云主機創建失敗。

2.       規格未配置通用特性,無法匹配到主機組,導致云主機創建失敗

3.規格未關聯主機組,導致云主機創建失敗


2、簡述云資源池故障分別為哪幾級?請任選其中一級描述其故障的定級標準是什么?

云資源池故障共分5級,分別為特別重大故障、重大故障、較大故障、一般故障及其他故障

 

3請任選其中一級描述其故障的定級標準是什么?

1.別重大故障

對內服務云池:因云資源池故障造成業務全阻、按照業務標準定級為特

別重大故障的,如導致移動電話通信中斷影響超過 50 萬戶,且持續超

1 小時;或導致短消息平臺、多媒體消息平臺、及其它增值業務平臺

中斷服務超過 5 小時。

2. 重大故障

對內服務云池:因云資源池故障造成業務全阻、按照業務標準定級為重

大故障的,如導致移動電話通信中斷影響超過 10 萬戶,且持續超過 1

小時;或導致短消息平臺、多媒體消息平臺、及其它增值業務平臺中斷

服務超過 1 小時。

3. 較大故障

對內服務云池:因云資源池故障造成業務全阻、按照業務標準定級為較

大故障的,如導致移動電話通信中斷影響超過 3 萬戶,且持續超過 20

分鐘;或導致短消息平臺、多媒體消息平臺、及其它增值業務平臺中斷

服務超過 20 分鐘;

對外服務云池:因云資源池整體業務中斷或性能嚴重劣化,或是鉆石客

戶業務全阻的,且持續時間超過 4 個小時。

4. 一般故障14

對內服務云池:因云資源池故障造成業務全阻、按照業務標準定級為一

般故障的,如導致移動電話通信中斷影響超過 1 萬戶;或導致短消息平

臺、多媒體消息平臺、及其它增值業務平臺中斷服務;

對外服務云池:因云資源池整體性能劣化或超過 20 VM 業務中斷,

或是金牌客戶業務全阻的,且持續時間超過 8 個小時的。

5. 其它故障

除以上四類故障以外的其它故障。

 

 

4、簡述特別重大故障、重大故障和較大故障的上報要求,任選一種情況進行作答即可。

1)        影響客戶規模、網絡設備或重要客戶符合特別重大故障條件的故障

答:對于影響客戶規模、網絡設備或重要客戶符合特別重大故障條件的故障。相關網絡運營單位應按規定立即逐級口頭上報,10分鐘內報至省級分公司15 分鐘內報至集團公司總部3 小時內(互聯網特別重大故障 2 小時內)做出簡要書面報告;故障處理結束后 24小時內提交包括故障現象、原因、處理過程、經驗教訓、整改措施等內容的書面故障專題報告 在向集團公司總部報告的同時,各省級分公司應按照要求向當地電信監管部門報告故障情況。集團公司總部網絡線在收到省級分公司申告后,應及時向工業和信息化部報告故障情況。

2)        影響客戶規模、網絡設備或重要客戶符合重大故障條件的故障

對于影響客戶規模、網絡設備或重要客戶符合重大故障條件的故障,相關網絡運營單位應按規定立即逐級口頭上報,10分鐘內報至省級分公司,15分鐘內報至集團公司;24小時內(互聯網重大故障 2 小時內)做出簡要書面報告,故障處理結束后 4 日內提交包括故障現象、原因、處理過程、經驗教訓、整改措施等內容的書面故障專題報告 在向集團公司總部報告的同時,各省級分公司應按照要求向當地電信監管部門報告故障情況。集團公司總部網絡線在收到省級分公司申告后,應及時向工業和信息化部報告故障情況。

3)        較大故障

答:發生較大故障時,地市分公司在 3 小時內向省級分公司報告24小時內做出簡要書面報告,故障處理結束后的 5 日內向省公司提交包括故障現象、原因、處理過程、經驗教訓、整改措施等內容的書面故障專題報告。省級分公司應按規定在 4 小時內向當地電信監管部門做出口頭報告,24小時內做出簡要書面報告,故障處理結束后的 5 日內提交包括故障現象、原因、處理過程、經驗教訓、整改措施等內容的書面故障專題報告;省級分公司向當地電信監管部門報告網絡故障時,要同時以郵件方式抄報集團公司總部。對互聯網較大故障,各省級分公司應在 4 小時內將簡要書面報告報送集團公司總部。省公司每月匯總較大故障發生情況。

(答出紅色字體關鍵詞為正確)

1.     簡要概述如何查看宿主機故障告警。

答:1、通過web瀏覽器訪問BMC地址登錄帶外管理界面,查看告警

    2、通過登錄云管平臺告警監控界面查看宿主機鏈路告警

 

2.     冗余場景,單網口故障是否影響現網業務

答:云平臺管理、業務、存儲網絡均為雙網口冗余綁定。單網口故障不會影響現網;單網口冗余會失效,需盡快處理故障,預防冗余口另一網口故障影響業務。

 

3.     更換雙端口PCIe以太網卡是否可在線操作

答:否。更換PCIe擴展卡前,需確保業務已停止運行,并通過管理軟件或電源開關將下電操作;

 

4.     簡要概述如何在不影響業務前提下處理宿主機網卡故障。

: 更換pcie網卡需要宿主機下電更換,下電前先將宿主機上業務云主機熱遷移至集群內其他可用主機,故障宿主機進入維護模式后下電更換pcie網卡。

 

5.                  .簡述云資源池故障分別為哪幾級?請任選其中一級描述其故障的定級標準是什么?

云資源池故障共分5級,分別為特別重大故障、重大故障、較大故障、一般故障及其他故障



任務目標:處理存儲磁盤故障,清除存儲告警。

1.     該磁盤故障是否影響到業務

答:存儲系統采用創新的RAID 2.0+底層虛擬化技術,實現硬盤自動負載均衡。當存儲系統某一硬盤發生故障時,硬盤域內的所有正常硬盤參與數據重構,而且僅重構業務數據,不影響業務

2.        ;          存儲更換磁盤是否支持在線操作

答:存儲硬盤模塊可熱插拔,從而允許進行在線操作。

 

3.     簡要概述如何處理磁盤故障。10

答:如告警所示,硬盤框DAE051,16槽位磁盤故障并已被隔離,使用與故障盤同規格配置的正常磁盤直接替換即可(通過故障硬盤備件編碼獲取的對應備件);確保更換后的硬盤插入到和更換前硬盤相同的槽位。插入錯誤的槽位可能會導致系統異常。

 

4.                  簡述云資源池故障分別為哪幾級?請任選其中一級描述其故障的定級標準是什么?

云資源池故障共分5級,分別為特別重大故障、重大故障、較大故障、一般故障及其他故障



任務目標:清楚告警,處理云主機內存占用率過高問題。

1.       云平臺針對云主機資源利用率閾值默認為多少

答:閾值默認為緊急告警80%,重要告警70%

2.     簡要概述手動配置告警閾值相關操作

答:在主菜單中選擇“監控中心 > 監控配置”,進入“性能閾值維護”頁面手動配置

 

3.     簡要分析該告警產生的原因可能有哪些。

答:1、操作系統進程存在異常,資源無法正常釋放

2、用戶進程使用資源過高

 

4.     簡要概述如何處理該云主機內存告警。

答:1、通過在線變更彈性云主機規格擴容彈性云主機內存大小處理內存占用過高問題。

    2 系統優化,參數調優。

 

5.              ;    簡述云資源池故障分別為哪幾級?請任選其中一級描述其故障的定級標準是什么?

云資源池故障共分5級,分別為特別重大故障、重大故障、較大故障、一般故障及其他故障