半年籌備,三個月遷移,揭秘華新水泥的公有云遷移之路
2020 年 1 月 16 日,華新水泥將所有業務生產系統成功遷移至華為云上。1 月 23 日,由于新冠肺炎的蔓延,武漢宣布封城,而這家數據中心位于武漢的傳統制造企業,因為及時遷移至公有云,公司業務和系統運維在疫情期間均未受到影響。
“真的很慶幸,我們在這個時間節點完成了公司業務生產系統的公有云遷移,”在采訪中,華新水泥數創中心系統運維部劉哲松部長表示:“整個封城期間交通管制,運維人員無法前往公司機房,但公司業務與系統運維沒有受到絲毫影響,所有 IT 問題在線解決。”
據了解,整個華新水泥上云項目前后共有 30 多個工程師參與其中,包括華新水泥方的實施人員、業務測試人員、開發人員和華為方的實施人員。
為什么要上公有云?
華新水泥始創于 1907 年,是一家百年企業,在國內外共有 150 個左右分公司,員工人數約有 18000,2018 年的營收為 320 億。
作為一家典型的傳統制造企業,其核心系統都有哪些呢?劉哲松表示:“在華新水泥比較重要的核心系統包含兩類,一類是生產系統,即與生產運行相關的系統,例如 DCS 控制系統,另一類是業務系統,例如我們常說的 ERP 系統、營銷物流采購系統等,華新水泥的 ERP 系統是采用的 SAP,營銷物流采購系統主要是一些自開發系統。”
為什么會有上云的想法呢?劉哲松表示:“這個想法我們有了很久了,同時也做了很多調研和論證,如果非要說原因,大致可以從費用和自用架構優化兩個方面來講。”
費用
大部分企業上云的主要目的是降低成本,華新水泥也不例外。在前期評估中他們發現,如果上了公有云,年度運維成本至少可以節約 30% 到 40%。其中,節約的費用主要來自專線費用、維保費用和電費。
專線費用:華新水泥之前使用的是星型的網絡結構,全國分公司都需要拉一條專線到武漢總公司;
維保費用:上云之前,華新水泥每年需要支付高額的硬件維保費用,包括但不限于服務器、存儲、網絡設備、機房設施、發電機等等;
電費:華新水泥兩個機房每年的電費大致在一百多萬,上云的話,電費可以節約 50% 左右。
自有架構的限制
選擇上公有云的另一個重要原因是原本的自有架構在很多方面都有掣肘,不夠靈活高效。劉哲松表示:“我們原來的自有架構會受限于運營商網絡、園區電力、網絡以及機器的資源利用率,同時還有資源采購周期。”
運營商網絡:為什么會說受制于運營商呢?舉個最簡單的例子,如果因為某些原因,道路光纖被挖斷,那么我們能做的只有報修,沒有其它辦法,何時恢復,那就要看運營商的搶救速度。
園區電力:一旦停電,機房的電力就會自動切換至發電機供電,這就要保證在出現問題時,發電機是可以正常使用的,不僅需要定期維護保養測試,還需要購置柴油自行加灌;
網路問題:華新水泥實現了三網聯通,同時接入了電信、移動和聯通,但是要做到每個業務系統的實時三網聯通代價較大,所以部分業務是單線網絡。另外,制造型企業一般使用的是二級網絡資源,在速率、帶寬與穩定性方面都有所限制;
資源利用率:公有云的最大特征是可以彈性伸縮,上云之后資源利用率會得到很大的提升;華新水泥的 IT 資產折舊是 8 年,其中核心設備會根據健康狀態提前更換,其它設備基本是會使用到 8 年折舊周期,甚至可能會使用更長時間,而公有云提供商的設備資源通常上三到五年,相比之下,故障率會少很多。
資源采購周期:通常,華新水泥的采購從提交申請,到審批、招投標定標、到貨,差不多要 30 天,而云上部署 0.5-1 小時即可。
技術選型
2014 年,華新水泥主要是以虛擬化為主,使用的是微軟 Hyper-V,2017 年,華新水泥與 IBM 合作上線了一套基于 OpenStack 的私有云系統,2018 年,隨著公有云技術的不斷成熟、用戶數量的增加、云上成本的下降,華新水泥開始開始調研公有云項目,2019 年,華新水泥正式啟動項目組來調研。
2019 年 3-9 月,項目組在調研了半年之后,決定要將公司系統搬上公有云。那么,問題來了,要上哪朵云呢?
據了解,華新水泥項目組先是從 IDC 報告中選擇了目前中國市場份額排名前十的公有云供應商,最后重點調研了四家公有云廠商:亞馬遜、阿里、騰訊和華為。然后根據現有的技術架構和需求,梳理出當前容量需求,架構設計,整體評估該項目的費用、后期長續費用及售后服務等,有的放矢地去評估每家廠商。
由于華新水泥的 ERP 系統使用的是 SAP,因此 SAP 的云上認證資質很重要。經過綜合考慮,華新水泥決定在三家公有云上先后做了 POC、遷移 Demo、性能測試以及一些運維工作,結果發現這三者各有優勢。劉哲松認為:“沒有一朵云是完美的,各有特點,需要根據自身需求進行選擇”。
華為云:它的最大優勢是本身就是設備制造商,在成本方面具備一定優勢,但不足是整個技術棧和工具不是很豐富,互聯網思維也沒有其它家成熟;
亞馬遜(AWS):它的最大優勢是技術和架構很成熟,并且 AWS 擁有一個殺手锏是可以提供 Oracle DBaaS 服務。但是 AWS 也有很多局限性,第一,AWS 在國內的數據中心主要分布在兩個地方:北京和寧夏,并由國內兩家運營商分開運維,這就意味著在最開始就要決定是選擇在北京還是寧夏;第二,AWS 的收費模式與其它云商略有不同;第三,要考慮 AWS 公司的特殊性和中美大環境。
阿里云:目前阿里云是中國公有云市場份額的第一,大致可以達到 60%-70%,但中小客戶比例較大,因此對于 B 端客戶的運維服務會更多地依賴外部協同。
最后,華新水泥對三家云商進行了招投標,招標前給出了一份十分詳細的評分細則,包括各種資源的費用、SLA 服務等級協議、實施周期、投入人員的級別和數量等等。經過綜合考慮和費用評估,最終選定了華為云。
遷移過程
2019 年 9 月到 2020 年 1 月,華新水泥整個遷移共歷時三個多月,遷移過程可以按業務關聯性、系統復雜度等維度,劃分為 4 個階段。
第一階段是遷移準備: 這一階段需要將所有業務系統關鍵信息整理出來,包括所有業務的關聯性關系、應用組件版本、調用關系配置文件信息、IP 連接改造成域名連接等等。
第二階段是網絡環境準備: 這一階段主要是進行云上網絡環境規劃和配置、專線拉通和聯調、VPN 配置和專線形成冗余。
其中,網絡環境配置是根據網絡架構拓撲來實施配置網絡,創建相應的 VPC 和子網, 通過專線網關連接到 IDC 網絡環境,通過路由配置打通云上和云下的網絡。
而 Poc 測試則是選擇比較典型和核心的業務系統進行 poc 測試上云,測試出這些業務系統上云的風險點和難點,進行相應的方案規劃和規避,降低風險和難點。
第三階段是遷移獨立業務系統:通過第一階段整理的信息將業務系統分成獨立的業務系統和關聯的業務系統,并把獨立的業務系統和主機遷移上云。
這個階段雖然是遷移獨立業務系統,但存在疏忽潛在業務流程關聯的風險,需要仔細核對分析。遷移過程中也會有很多難點,例如很多業務系統使用的是 Windows 2003 32 位系統,存在很高的鏡像改造風險,需要在公有云上進行穩定性測試;Redhat6.2 系統同樣需要鏡像改造,測試周期長,甚至可能會拖整個遷移周期的后腿;殺毒系統可能會攔截遷移工具端口,導致遷移失敗;同時,還需要建立域控系統,將云上新建的輔助域控升級成為主域。
第四階段是遷移關聯的業務系統:將所有與業務關聯的系統一并遷移上云。這一階段幾乎把所有的核心業務系統都遷移上云了,遷移難度和工作量可想而知。
由于這個階段涉及到的業務系統都是相互關聯的,所以在業務關聯性聯調和 IP 改造方面存在很大風險。與前一階段一樣,Windows 2003 32 位系統和 Redhat6.2 系統都需要進行鏡像改造和測試,另外還需留意第二階段的應用與第三階段應用是否有相互調用的情況,如果有就要多次割接。
以 AIX 小機的 Oracle 遷移為例,華新水泥采用的方案是 XTTS(Cross Platform Transportable Tablespaces) 表空間復制。Oracle 11.2.0.4 中引入了增強版的 XTTS 技術,在數據量較大的情況下,傳統的 TTS 很難滿足要求,而 XTTS 則可以在生產庫保持正常運行的情況下,傳送所有表空間數據文件,通過不斷生成增量備份進行數據恢復,最大程度減少遷移所需要的停機時間。
完成這四個階段的遷移之后,華新水泥的下一步是實施容災備份,包括同城容災和異地容災。其中同城容災是采用華為云跨 AZ 容災,RPO=0,RTO<15 分鐘,而異地容災采用的是跨 Region 容災,主系統和容災系統部署在不同城市,可抵抗地域級災害。
實施效果
據了解,目前華新水泥遷移到華為云上的系統共有 40 余套,所有虛擬機的數量為 200+,整體數據量約為 65TB。
華新水泥整個實施方案中比較獨特的一點是,它將生產系統完全遷移到了公有云上,而大多數的開發測試系統卻留在了本地。為什么會選擇這樣的部署方式呢?
據了解,這種選型方案主要是出于兩方面的考慮,一方面是為了保護資產投資,華新水泥原來自建機房的設備不可能完全變賣,為了充分利用資源,在其上運行了開發測試系統,等這部分設備快到使用壽命時,在逐步將開發測試遷移到公有云。另一方面,考慮到開發測試系統對 SLA 的要求沒有那么高,目前自建機房的設備足以支撐。
經驗總結
傳統企業上云絕不是一件可以跟風、隨潮流的事情,“遷移上云項目的整體規劃和步驟是非常重要的”,劉哲松表示:“因為系統遷移會涉及到停機,而停機就意味著實際的損失。”
另外,劉哲松認為傳統企業上云一定要做好整個項目組的配置,內部與外部都要有技術匹配的成員。如果完全外包,那么這個項目一定是做不好的,因為外部顧問對系統架構、系統之間的聯系,甚至是系統原本就存在的“坑”是完全不清楚的;其次,如果外部顧問能力不夠,那么這個項目也很難完成,從客戶的角度來看,完成一個公有云項目,即使是提前做了調研和 Demo,但仍是有很多公有云中的特有設置,需要專業人士,甚至是原廠工程師來共同實施。
編輯:李佳婷
監督:0571-85871513
投稿:news@ccement.com