數(shù)據(jù)時代的“軍備競賽”,究竟在拼什么? 天天精選
數(shù)據(jù)普惠,是數(shù)據(jù)基礎設施的使命。
2023年,在馬云提出“人類正從IT時代走向DT時代”的9年之后,以ChatGPT為代表的人工智能應用涌現(xiàn),讓數(shù)據(jù)這個沒有新鮮事的低調(diào)賽道再度卷起浪花。
【資料圖】
業(yè)內(nèi)公認,數(shù)據(jù)是AI大模型的基礎。與之相呼應的,為杜絕“垃圾進、垃圾出”,承擔數(shù)據(jù)存儲、處理、服務、安全等重要職責的數(shù)據(jù)基礎設施正式走到臺前——融合數(shù)據(jù)資產(chǎn)與AI模型的差異化競爭尚未開戰(zhàn),誰都不想在數(shù)據(jù)基建環(huán)節(jié)就敗下陣來。
然而,數(shù)據(jù)基礎設施究竟怎么建,誰又能提供更適合“中國企業(yè)體質”的數(shù)據(jù)基建?這是諸多企業(yè)數(shù)字化轉型多年,依舊在探索而難解的問題。
觀望與探索,在“小馬過河”之前
回到2014,在定調(diào)“DT時代”的同一場活動上,馬云直言“阿里巴巴是大數(shù)據(jù)的紅利獲利者”。
所謂大數(shù)據(jù)的“紅利”,本質是通過數(shù)據(jù)看清無數(shù)事務與復雜關聯(lián)背后的“真相”,依托數(shù)據(jù)支持科學的管理決策,引領高質量發(fā)展。進一步,轉化為智能算法,指導機器自動做出千萬種精細化的行動,例如,提供千人千面的個性體驗。
幾乎同期,推薦算法一躍成為阿里存算資源的頭號消耗大戶;阿里有50%的服務器不再處理任何事務,而僅僅用于處理數(shù)據(jù),也恰恰從系統(tǒng)層面印證了這一點。
從“看數(shù)據(jù)”、“用數(shù)據(jù)”到“數(shù)據(jù)智能”,哪怕放眼全球,阿里都做出了絕佳表率,生動詮釋著數(shù)據(jù)給互聯(lián)網(wǎng)商業(yè)帶來的飛躍和無限可能性。
然而,面對大廠們美好的標桿實踐,更多非“數(shù)據(jù)原生”的企業(yè)依舊選擇冷靜觀望。
“我們小小的港灣,停不下那樣龐大的航空母艦。”業(yè)內(nèi)幾起數(shù)據(jù)底層建設“翻車”案例發(fā)生后,一家快消品牌商的CIO在接受媒體采訪時表示,照搬大廠做法容易“水土不服”,其根本原因或出在數(shù)據(jù)基礎設施建設成本高,而未能想清究竟要拿數(shù)據(jù)做什么,經(jīng)不起無限試錯,也等不起“十月懷胎、一朝分娩”。
盤點從數(shù)據(jù)生產(chǎn)到消費的全鏈路,可以簡單粗暴地切分為兩個部分:
上層,即數(shù)據(jù)應用,包括BI、數(shù)據(jù)可視化以及數(shù)據(jù)挖掘等等,能面向數(shù)據(jù)分析師甚至毫無技術儲備的業(yè)務人員和經(jīng)營管理者,讓他們高效地調(diào)取和使用所需數(shù)據(jù)。
在各顯神通的數(shù)據(jù)應用之下,是數(shù)據(jù)基礎設施,通常由存儲層(涉及云存儲、分布式文件系統(tǒng)等)、數(shù)據(jù)處理層(包括流批圖計算引擎等)、數(shù)據(jù)查詢與分析層、人工智能層(提供算法訓練、機器學習的技術基礎)構成。上述架構無法孤立存在,而由一套數(shù)據(jù)云平臺進行統(tǒng)一調(diào)度管理,確保數(shù)據(jù)從生產(chǎn)到消費全流程可用、可控、安全。
理想狀態(tài)下,一套完善的數(shù)據(jù)基礎設施中,應由數(shù)據(jù)云平臺承擔起“數(shù)據(jù)的操作系統(tǒng)”的重任——向下封裝底層多技術、多依賴的復雜性,向上以API的方式供給數(shù)據(jù)能力,幫助業(yè)務快速搭建所需的數(shù)據(jù)應用,類似于基于iOS開發(fā)APP。
“現(xiàn)實根本沒有像Windows、Mac OS那樣好用的‘數(shù)據(jù)的操作系統(tǒng)’,企業(yè)必須直面混亂、復雜、深奧的底層?!币晃恍畔⒒稍兂錾?、有十余年IT經(jīng)驗的資深從業(yè)者表示,這往往也是企業(yè)從IT走向DT、進行數(shù)據(jù)基礎設施建設的難度所在。
在2015-2018年左右的探索期,相較于投入基礎建設、苦苦摸索艱深的底層數(shù)據(jù)技術,模仿互聯(lián)網(wǎng)大廠在消費者域的做法顯然更聰明:依托APP、小程序、官網(wǎng)等在線手段,構建單個場景的數(shù)據(jù)閉環(huán),實現(xiàn)小場景的“業(yè)務數(shù)據(jù)化”,從“拍腦袋”到有數(shù)據(jù)支持,增長肉眼可見。
談及數(shù)字化小場景閉環(huán)帶來的增長,一家自2017年起就采用UBA(用戶行為分析)提升私域渠道流量轉化的地產(chǎn)集團運營總監(jiān)談道:“這些數(shù)據(jù)創(chuàng)新實踐就像望遠鏡,打開了DT時代的窗口。你不需要造宇宙飛船登月,也能看到、感知到數(shù)據(jù)的價值?!?/p>
同期,數(shù)據(jù)賽道創(chuàng)業(yè)潮涌現(xiàn),從BI、用戶行為分析、推薦引擎,到CDP、數(shù)據(jù)中臺,百花齊放,為企業(yè)提供數(shù)據(jù)技術產(chǎn)品和解決方案的支持。這其中,越貼近業(yè)務、越能找到明星場景的廠商越受歡迎。
至于數(shù)據(jù)基礎設施建設,待遇則與十幾年前的ERP頗有幾分相似,“上ERP找死,不上ERP等死”。
既然有不少BI和數(shù)據(jù)應用已經(jīng)包攬了數(shù)據(jù)存算的部分基礎能力,既然定期從業(yè)務系統(tǒng)里手動抽數(shù)、手工做Excel報表還能堅持一段時間,這個動輒數(shù)十數(shù)百萬預算的“龐然大物”也還有等的空間,何不再等一等呢?
水面之下,數(shù)據(jù)基建進行時
等待對手造出更多標桿實踐再模仿,約等于把領先的機會拱手讓人。事實上,在尚且可控的成本范圍內(nèi),已有少數(shù)企業(yè)躬身入局數(shù)據(jù)基建。
2016年起,一家以飲料為主營業(yè)務的中國本土零售集團開始著手搭建數(shù)據(jù)基礎設施。從傳統(tǒng)數(shù)倉、自建大數(shù)據(jù)平臺到數(shù)據(jù)云平臺,摸爬滾打歷經(jīng)3個階段,他們走出了一條與阿里們不完全相同、之于傳統(tǒng)行業(yè)卻極具代表性的道路。
最初,集團選擇與國際頭部基礎軟件公司SAP合作,引入SAP HANA(一款以“高性能數(shù)據(jù)查詢分析”為賣點的內(nèi)存計算平臺),來滿足對業(yè)務數(shù)據(jù)的查詢與分析需求。
然而,伴隨數(shù)據(jù)量的增長,用于匹配SAP HANA的專有硬件開銷也在飆升。當數(shù)據(jù)量超過1T,甚至會出現(xiàn)“燒錢都解決不了”的問題——受技術架構所限,查詢分析已無法靠增加節(jié)點來提速,報表產(chǎn)出極為困難。看數(shù)據(jù)雖好,卻變成一件無比奢侈的事。集團開始尋求新的解法。
2019年前后,Hadoop風靡國內(nèi)大數(shù)據(jù)技術圈。采用分布式基礎架構的Hadoop擁有優(yōu)秀的并行處理和擴展能力。不同于HANA,Hadoop如果要“加量”,只需增加普通的服務器成本,而無需為高昂的專有硬件“加價”,直接打破了以SAP HANA、Teradata為代表的傳統(tǒng)數(shù)倉在海量數(shù)據(jù)場景所面臨的困境。
和彼時自有IT團隊的大型企業(yè)做法類似,這家零售集團選擇轉向利用開源Hadoop技術,自建大數(shù)據(jù)平臺。
從直接外采到自建平臺,在數(shù)據(jù)基礎設施建設上堅持投入了3年,集團數(shù)科公司的數(shù)據(jù)總監(jiān)直言,“當時并沒有想太多。一個是不希望被彎道超車,另一個,我們真的需要看數(shù)據(jù)。所以從沒想過什么‘爛尾’放棄?!?/p>
在自建平臺約1年后,“復雜性”接連襲來,挑戰(zhàn)層出不窮。
“我們嘗試了很多方式來應對各種需求,解決了一個問題,又冒出一個問題。最終也導致數(shù)據(jù)平臺里有很多煙囪式的建設,運維無以為繼?!痹摽偙O(jiān)說,譬如離線計算、實時計算、即席查詢各立一條“航道”,存算資源明顯有浪費,但不知如何優(yōu)化;開源組件迭代快,學習成本高;缺少穩(wěn)定的調(diào)度能力,導致數(shù)據(jù)作業(yè)不穩(wěn)定,報表產(chǎn)出延時。
評估團隊長期投入及成果預期后,2021年初,這家集團再度選擇外采,與數(shù)據(jù)云廠商奇點云合作,依托數(shù)據(jù)云平臺產(chǎn)品DataSimba,逐步完成了自身數(shù)據(jù)基礎設施的升級,借助商業(yè)化產(chǎn)品解決種種“疑難雜癥”?;跀?shù)據(jù)云平臺,集團數(shù)科公司還自主將數(shù)據(jù)能力從銷售域復制到了生產(chǎn)域、業(yè)財域。
“在DataSimba的背后,有一支成熟的外部團隊在幫我們迭代,把最新的大數(shù)據(jù)技術和成熟的業(yè)內(nèi)實踐裝進我們的基礎設施?!奔瘓F數(shù)據(jù)總監(jiān)補充道,“可見的提效是原本30分鐘都產(chǎn)不出的TB級數(shù)據(jù)復雜分析,現(xiàn)在只需要秒級,真正響應科學經(jīng)營管理的需要。而更多不可見的(價值)是,減少重復造輪子,平臺設計能應對靈活多變的業(yè)務和數(shù)據(jù)分析需求。”
據(jù)奇點云CTO地雷介紹,許多企業(yè)都在經(jīng)歷這家零售集團過去發(fā)生的故事,需要從傳統(tǒng)數(shù)倉轉向數(shù)據(jù)云,或曾自建過數(shù)據(jù)平臺,尋求數(shù)據(jù)技術棧的升級。而企業(yè)客戶之所以從自建轉向采購商業(yè)化的數(shù)據(jù)基礎軟件,除了對產(chǎn)品功能、性能及自主可控程度的評估,往往還有可持續(xù)性、可服務性及安全性的考量。
數(shù)據(jù)云科技廠商奇點云成立于2016年,堅持“平臺+應用”模式,為企業(yè)提供自主可控的數(shù)據(jù)基礎設施(數(shù)據(jù)云)與多樣化的數(shù)據(jù)應用(分析云)。其中,數(shù)據(jù)基礎設施更為通用,主要發(fā)力在平臺性能、功能、安全等維度,封裝底層技術復雜性;上層則針對品牌零售、智能制造等行業(yè)研發(fā)了豐富的數(shù)據(jù)應用和模型。
奇點云創(chuàng)始人、CEO行在是在大數(shù)據(jù)領域摸爬滾打二十多年的老兵,曾完整親歷阿里大數(shù)據(jù)之路。他坦言,在奇點云創(chuàng)業(yè)初期,確實只有極少數(shù)客戶愿意投入數(shù)據(jù)基礎設施建設,往往必須采取“基建+場景”的方式,以明星場景為切口,“無感植入”數(shù)據(jù)基建,到二期、三期再做能力擴展。而自2020、2021年以來,行在明顯感受到“做數(shù)據(jù)基建找死”的風聲發(fā)生了變化,企業(yè)數(shù)據(jù)基礎設施建設的需求在持續(xù)上漲。
需求的一面,是基礎設施能提供的全局數(shù)據(jù)能力實在誘人,數(shù)字化轉型程度越深的企業(yè),越希望盡快掌握;另一面,是生產(chǎn)業(yè)務的需要和種種數(shù)據(jù)問題倒逼:
? 數(shù)據(jù)分散在數(shù)百個IT系統(tǒng)和業(yè)務流程中,缺乏統(tǒng)一的管理和治理,各說各話;
? 煙囪式的數(shù)據(jù)應用建設加劇了數(shù)據(jù)孤島,需要打通構建企業(yè)視角的數(shù)據(jù)資產(chǎn),同時保障各個單元的數(shù)據(jù)安全;
? 基于單個小閉環(huán)構建的數(shù)據(jù)管理和應用能力,無法適應快速變化、日益復雜的業(yè)務場景,反而陷入重復建設中,需要可復用的數(shù)據(jù)能力;
? 數(shù)據(jù)量激增,復雜異構的數(shù)據(jù)、實時的分析需求、高昂的存算消耗不斷提出技術難題,亟需構建性能強大的數(shù)據(jù)底座,但成本越低越好。
做不好數(shù)據(jù)基建,可能真得“等死”。
深入海底,“普惠”是數(shù)據(jù)基礎設施的使命
2020年,數(shù)據(jù)被國家列為五大生產(chǎn)要素之一。站在生產(chǎn)要素的視角看,企業(yè)搭建數(shù)據(jù)基礎設施,消解底層的復雜性、統(tǒng)一向外提供數(shù)據(jù)能力和服務,對于數(shù)據(jù)要素的長遠管理、利用、配置和流通而言,無疑是更為經(jīng)濟和聰明的方式。
與交通、能源等國家級基礎設施類似,企業(yè)級的數(shù)據(jù)基礎設施建設同樣能產(chǎn)生明顯的“乘數(shù)效應”:倍增的不僅是企業(yè)所擁有的數(shù)據(jù),更是能被企業(yè)所使用的數(shù)據(jù),能產(chǎn)生價值的數(shù)據(jù)。
而與國家級基礎設施不同的是,企業(yè)級數(shù)據(jù)基礎設施無法“集中(公共)力量辦大事”,往往更依賴企業(yè)自身的投入與服務商的能力。
一方面,邁向DT時代的企業(yè)必須更舍得在數(shù)據(jù)基建的投入,像投入設計研發(fā)、產(chǎn)線改造、供應鏈升級那樣,數(shù)據(jù)應得到核心資產(chǎn)同等程度的重視;
另一方面,降低“門檻”亦值得關注——通過專業(yè)技術持續(xù)提升數(shù)據(jù)基礎軟件的易用性和開放性,同時優(yōu)化存算成本,讓數(shù)據(jù)基建不再是少數(shù)派的“航空母艦”。
“推動數(shù)據(jù)普惠,是數(shù)據(jù)基礎設施的使命?!?/p>
地雷介紹,除了智能安全算法、可觀測元倉模型、指標工廠等亮眼的能力,數(shù)據(jù)云更多的技術攻關發(fā)生在“水面之下”,甚至已潛入“海底的無人之境”,比如優(yōu)化引擎內(nèi)核,或深入到java虛擬機層面,就是為了竭盡所能,降低客戶使用數(shù)據(jù)的門檻。
奇點云的數(shù)據(jù)云產(chǎn)品體系
以多引擎混合調(diào)度的場景為例,為應對不同的數(shù)據(jù)查詢和分析場景,企業(yè)往往需要用到流、批、圖、時序等不同引擎。這些引擎如果各自分立,在維護困難的同時,也導致了資源浪費。
基于全容器化、多模態(tài)統(tǒng)一計算框架等技術,奇點云提出“大規(guī)模多引擎混合調(diào)度技術”,在數(shù)據(jù)云平臺DataSimba中支持混合引擎調(diào)度,能根據(jù)業(yè)務負載自動調(diào)整容器資源的使用情況。
“就像‘潮汐車道’一樣,可以分時段按需跑不同引擎,幾乎不需要人工干預,提高任務執(zhí)行效率,降低系統(tǒng)負載?!钡乩捉榻B,相較傳統(tǒng)的煙囪式建設,潮汐調(diào)度的方式通常能幫助企業(yè)節(jié)約30%以上的資源。
得益于大規(guī)模多引擎混合調(diào)度技術,海量數(shù)據(jù)、多端來源的OneID融合分析也成為可能。
一家旗下有近5000個營銷服務網(wǎng)點的金融集團數(shù)據(jù)平臺負責人透露:“我們數(shù)據(jù)體量大、ID類型多、ID關系復雜,加上對存量和增量數(shù)據(jù)的考量,采用傳統(tǒng)方案不光成本極高,也是不現(xiàn)實且不可靠的。”
在多引擎混合調(diào)度技術框架下,奇點云采用“流批圖一體”架構,確保在計算性能、復雜場景計算及可解釋性上均具備優(yōu)勢,從而支撐中國企業(yè)特有的、海量數(shù)據(jù)多端來源的OneID融合分析場景。
“我們打通了100多個端的億級用戶數(shù)據(jù),并落地OneID,相比傳統(tǒng)方案,壓縮比達30%以上,計算時間節(jié)省了至少50%,測試用例通過率達到100%?!逼脚_負責人介紹。
又如“多租戶”,這個場景天然為了資源利用最大化而生。企業(yè)的數(shù)據(jù)團隊作為“平臺”,理應通過多租戶的方式服務更多部門、BU,合理優(yōu)化資源利用,也免去他們自行運管基礎設施的煩惱。然而囿于數(shù)據(jù)安全隱患的考量,很多企業(yè)寧愿多付出資源,也不敢冒險。
為此,奇點云推出“數(shù)據(jù)平臺的多租戶安全和資源隔離技術”,通過雙層身份認證、雙層權限校驗、雙層存儲加密,來保證租戶資源的強邏輯隔離與數(shù)據(jù)安全。在多個數(shù)據(jù)團隊互不搶占資源的同時,相較傳統(tǒng)方案,更節(jié)約了50%的大數(shù)據(jù)集群計算節(jié)點。同時,通過動態(tài)的權限管控,支持租戶間數(shù)據(jù)安全共享,而無需數(shù)據(jù)遷移成本。
數(shù)據(jù)云作為基礎設施,已深入到越來越多企業(yè)生產(chǎn)甚至整個產(chǎn)業(yè)的運轉環(huán)節(jié)。為保證它的可靠、可用、可服務,廠商往往會采用“堆機器”的方式,這背后有一個簡單的邏輯:備份越多,冗余越多,系統(tǒng)故障后的補救空間就越大——可以拿副本頂上。
對此,地雷的觀點卻有幾分“反常識”:“作為獨立第三方,我們有義務幫助客戶盡可能優(yōu)化資源成本。”
奇點云基于微服務體系、全容器化等技術,在保障“RAS”(即可靠性、可用性、可服務性)的前提下,不斷壓縮數(shù)據(jù)云部署的最小節(jié)點數(shù)。部署包括數(shù)據(jù)云平臺DataSimba、數(shù)據(jù)存算引擎DataKun、數(shù)據(jù)安全引擎DataBlack在內(nèi)的全套數(shù)據(jù)云產(chǎn)品,最小節(jié)點數(shù)從11臺降至6臺,并仍在持續(xù)優(yōu)化。這意味著有更多企業(yè)能花更低的軟硬件成本,完成數(shù)據(jù)基礎設施建設。
2023年5月,奇點云正式發(fā)布了“云數(shù)倉”版本的DataSimba Cloud,進一步提供更高性價比的“輕量級”云上數(shù)據(jù)基礎設施體驗。
“這些水面之下踏踏實實的技術攻關,用行動證明了我們和客戶站在一起?!毙性谡f。
據(jù)悉,2023年剛剛過半,奇點云的數(shù)據(jù)云產(chǎn)品銷售成績就已遠優(yōu)于往年,其中,除了持續(xù)復購的老客戶,也多了不少來自制造、金融行業(yè)的新面孔。這種“雙向奔赴”或許正是行在、地雷和他的團隊潛心投入基礎設施技術研發(fā)的底氣。
面向數(shù)據(jù)時代的“軍備競賽”,究竟在比什么?
過去“能不能直接把你服務的頭部企業(yè)數(shù)據(jù)給我”的誤解,已經(jīng)成為坊間笑談?!皵?shù)字化轉型沒有標桿案例”的論斷,也一次又一次被低調(diào)的先行者們用實踐證偽。從滿足于單點數(shù)據(jù)應用的閉環(huán),到縱身躍入底層數(shù)據(jù)基礎設施建設,企業(yè)的耐心來自于亟待解決的數(shù)據(jù)痛點和對規(guī)?;l(fā)揮海量數(shù)據(jù)價值的希冀,也與國內(nèi)數(shù)據(jù)基礎軟件廠商們?yōu)椤皵?shù)據(jù)普惠”的不懈努力密不可分。
有數(shù)據(jù)顯示,在美國一次機構調(diào)查中,受訪企業(yè)里設CDO職位的比例,從2012年的12%已經(jīng)提升至2021年的65%。而在中國,這個比例目前還不到5%。
當AI的風裹挾著數(shù)據(jù)技術的浪潮一同襲來,毫無疑問,擁有數(shù)據(jù)基礎設施和獨有數(shù)據(jù)資產(chǎn)的企業(yè),能搶先結合AI模型能力,建立起自己的競爭優(yōu)勢。
好在奇點只是臨近,對于那些習慣等待的企業(yè)來說,還有足夠的時間補齊短板。
關鍵詞:
責任編輯:hnmd004
- 數(shù)據(jù)時代的“軍備競賽”,究竟在拼什么? 2023-06-19
- 【環(huán)球熱聞】廣東高考生報考中央司法警官學2023-06-19
- 借唄逾期三個月后會被要求全額還款嗎?逾期2023-06-19
- pinterest怎么讀?pinterest下載要錢嗎?pi2023-06-19
- 天天速讀:AI將搶走配音演員飯碗?有聲讀物2023-06-19
- 環(huán)球速遞!pinterest怎么保存圖片?pintere2023-06-19
- 【全球報資訊】國產(chǎn)軟件概念逆勢走強,軟件2023-06-19
- 山西監(jiān)管局:李峰山西省聯(lián)社陽泉審計中心主2023-06-19
- 事關端午節(jié),商洛發(fā)布最新提示! 天天速看2023-06-19
- 不老傳奇!詹姆斯已在NBA賽場上和9對父子打2023-06-19
- 阿斯頓·馬丁不得不在其開發(fā)中使用F1模擬器2023-06-19
- 2023中國網(wǎng)球巡回賽河南網(wǎng)球公開賽收拍|環(huán)2023-06-19
- 智能醫(yī)療概念股震蕩走強,久遠銀海漲停2023-06-19
- 世界新資訊:A股午評:三大指數(shù)早盤集體收2023-06-19
- 市場監(jiān)管總局:加強互聯(lián)網(wǎng)廣告監(jiān)管,加大互2023-06-19
- 燃料電池技術快速發(fā)展,為大規(guī)模應用奠定基2023-06-19
- 環(huán)球觀天下!2季度17家燃料電池企業(yè)配套氫2023-06-19
- 全球首個實物交割氧化鋁期貨今日掛牌交易 2023-06-19
- 燃料電池技術快速發(fā)展,為大規(guī)模應用奠定基2023-06-19
- 2季度17家燃料電池企業(yè)配套氫車交付投運詳2023-06-19
- 李生發(fā)受賄案一審宣判2023-06-19
- 今熱點:國家發(fā)改委:端午假期臨近對生豬市2023-06-19
- 歐盟新電池法塵埃落定,中國數(shù)千億產(chǎn)業(yè)出口2023-06-19
- 環(huán)球滾動:隆基氫能攜手Vision Grid Energ2023-06-19
- 16開紙是不是a4紙?(16開的紙是a4紙嗎)2023-06-19
- 《表白吧!在畢業(yè)前》入圍電影頻道傳媒關注2023-06-19
- 幾樓以上不用擔心路沖 小區(qū)內(nèi)部路算路沖嗎2023-06-19
- 魔獸世界要塞攻略有哪些? ?魔獸世界怎么2023-06-19
- WWE女子冠軍是什么?wwe是什么比賽?-時訊2023-06-19
- 每日頭條!貿(mào)易順差是什么意思?順差和逆差2023-06-19