專訪國產數據庫高管:後IOE時代如何接招
來源:IT168 更新時間:2015-07-06

 任何事物,不怕小,就怕沒有勢。雷軍說:“站對了風口,母豬都能飛上天。”阿裡網商銀行去IOE成功了,傳統銀行業是否也能去?在去IOE的風口上,大數據能否成為趨勢?國產數據庫又能否借勢飛起來呢?可能在很多人眼裡,大數據還是一個謎,多大的數據才算得上是大數據?它到底是備受追捧的新貴還是本身就存在於自然界裡的幽靈?大數據的到來,是否意味著曾經領銜主角的關系型數據庫要退居幕後?我們又如何從海洋般的大數據裡挖出金子?帶著這一串串疑惑,本期IT名人堂我有幸采訪到了武漢達夢數據庫有限公司董事長馮裕才先生。

正所謂老當益壯,寧移白首之心;窮且益堅,不墜青雲之志。這也許是我第一次見到馮總的感慨吧!這位年紀七旬的董事長為我們續寫了國產數據庫的傳奇故事。三十多年來,是他帶領著達夢人篳路藍縷,勇往直前,將國產數據庫推向了世界的舞台。而在今年,達夢的志向也更為遠大,它的轉型觸角直指大數據平台,世界的舞台也將揭開新的一幕。

在海量的數據中,非結構化數據占85%,半結構化數據占比10%,結構化數據占5%,如果把結構化數據比喻成素描,它負責勾勒輪廓和重要特征,那麼半結構化、非結構化數據就好比水彩,起到豐富細節和內容的作用。在大數據時代的挑戰下,作為國產數據庫的領頭羊,達夢的大數據平台利器開始浮出水面了。

皮皮(Q1):馮總,今天非常榮幸有機會能采訪到您。為什麼呢?有兩個主要原因,第一,世界上沒有幾家公司有實力做大型商業數據庫,而你們卻做出來了,這一點讓我們國人覺得無比自豪;第二,您雖然今年70歲了,卻仍然奮鬥在第一線,非常難能可貴,讓我們年輕人覺得無比尊敬;這一點跟甲骨文的老板Larry Ellison很像,他也年過七詢。馮總,和我們IT168網友打聲招呼吧。

馮裕才(A1):非常感謝IT 168,很高興有機會參加這次的采訪。我現任華中科技大學計算機學院數據庫與多媒體技術研究所所長、教授、博士生導師,武漢達夢數據庫有限公司董事長。有人說我是教授,也有人說我是商人,我覺得定位都不准確,我認為我是一位堅持30多年,專注於研發達夢數據庫產品、做自主可控國產基礎軟件的“追夢者”,是一位痛並快樂著的“創業者”,也是數據庫中國夢的“堅守者”。

皮皮(Q2):其實我也注意到,您早年的學的也不是計算機專業,但是您在80年代的時候就開始做數據庫這個行業了,當時是否出於自己的興趣所在?

馮裕才(A2):確實如此,早些年我不是學計算機的,本科階段我是學發動機的。當時從國防科大調到華中來,覺得計算機的軟件行業很有前景,特別是在接觸操作系統以後,越發覺得計算機的應用需求量會越來越大。記得當時,自己確實也有些興趣,當然也有一些偶然的因素,這要從我的一段經歷說起。我在華中科技大學擔任講師階段,曾經到武鋼參加技術學習。當時武鋼熱軋車間花費巨資,從日本引進了一套無人職守的軋鋼系統。日本人特別在意技術的保密性,為了防止技術泄密,在整個系統的安裝與調試過程中,對現場出現的所有技術問題,哪怕是沒有任何技術含量的焊接,日本人也從不當著中國人的面解決。在完成設備的調試安裝後後,日本人當場就銷毀了技術資料,這些技術文字資料是堆起來有足足三卡車那麼多。當時這件事情深深地刺痛了在場的每一個中國人的自尊心,也使我意識到:不掌握核心技術,將永遠受制於人。上世紀70年代末80年代初,我接觸到了數據庫管理系統,當時美國的數據庫管理系統已經商用了,而中國的軟件行業卻幾乎一窮二白,所以我那時就暗自下決心,要研究數據庫技術,做一個屬於咱們國家自己的數據庫,不再受制於人。

1986年元旦前夕,我的數據庫項目獲得了3萬元的研究經費,這在學校成了‘放衛星式’的新聞。從80年代初,經過有七八年的苦心鑽研,我們在1988年,終於用Pascal語言開發出了自己的數據庫,比當時國際上流行的DBASE產品還要好用,引起了業界的轟動。

皮皮(Q3):提到達夢這個名字,感覺非常有寓意,因為達夢顧名思義就是達到夢想的意思,這是不是意味著達夢數據庫可能會接近甲骨文的高度了,或者說有一天甚至會超過Oracle呢?如果真的有這麼一天到來了,會不會棋逢對手,您會對甲骨文的老板說些什麼呢?

馮裕才(A3):說起達夢,其實是采用了咱們名字的英文縮寫詞,。90年代IBM有數據庫DB2,我們希望也有自己的數據庫Database,所以第一個詞是D;另外,達夢數據庫是於2000年11月成立的,它的前身是華中科技大學數據庫與多媒體研究所,我們突出多媒體Mutimedia,所以整合起來是DM,漢語英譯過來取名為達夢,也正好寓意我們有一個中國夢的意思,我們要自主研發國產數據庫。

到了2012年,我參觀Oracle的總部,他們在商業技術應用領域確實值得我們學習。時至今日,他們通過長期的努力,把不成熟的產品做得越來越好。但是,無論從體系結構上,還是在國際標准等綜合因素上,他們數據庫所具有的功能我們達夢也都有。我們需要關注的是,中國人對數據庫產品有自己的使用需求,這和美國情況不太一樣,而達夢是把更多的焦點放在國內用戶單位的根本需求上,不會一味地模仿他人。從國產化替代角度來看,我們在兼容性方面下了很大功夫,目前在國產數據庫市場上,我們產品的兼容性是相當高了,完全可以實現逐步替換Oracle。若回到剛才的問題上,達夢將來能不能超越甲骨文?首先,在中國市場上,我們的產品在國產數據庫領域已經占有相當市場份額;其次,我們已經走出國門,產品在東南亞、非洲這些國家也有一席之地。我們相信,遲早會有一天,達夢產品會賣到美國去,這一定是可能實現的。因為目前在中國,達夢數據庫與Oracle在很多領域同台競爭,比如國家電網、南方電網等,我們在不斷優化產品的功能、性能、服務、性價比等關鍵因素,就是要在我們中國的市場上超越它,然後再與Oracle去競爭國際市場,當然我希望有一天,能夠在國際市場上雙方打個平手,要實現這個夢想,我們還有很漫長的路要走。

皮皮(Q4):我們也期待這一天的到來,剛才我們提到了,中國做數據庫的廠商並不多,做的好更是微乎其微了,一方面可能是因為數據庫技術的本身就很復雜了,可能很多人會覺得做SQL的增刪改查不難,但要實現事務的ACID四個特性(原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability))就沒那麼容易了,想要做到數百萬數據高並發訪問量,那就更難了。做基於數據庫的大數據平台,數據挖掘,那又是難上加難……我想知道的是,達夢能夠做到國產數據庫裡的翹楚位置,有木有一些做數據庫的獨門秘籍,請馮總跟我們大家分享一下。

馮裕才(A4):我覺得秘籍倒沒有什麼,其實我覺得一個企業跟一個人一樣,第一個要確定目標;第二,你要有一種達到目標的堅持性,達夢的訣竅就在於堅持性,另外我們也面臨社會上的很多誘惑,比如說很多人習慣在現成的系統上進行改裝,我們堅決堅持原創,開發具有中國知識產權的數據庫,這就是我們的原則。所以你要說達夢的秘籍是什麼?其實就是選定了目標,堅持不懈為目標而奮鬥。

皮皮(Q5):那我們知道,衡量一個數據庫好不好,可能從用戶的角度來講會有很多種指標了,比如每秒鐘事務的吞吐量等等。達夢數據庫有哪些指標是甲骨文這些廠商所不具備的優勢,比如價格上是不是更便宜?

馮裕才(A5):我覺得用戶在面臨數據庫產品選型的時候,價格只是一方面,不是最關鍵的因素。如果說你這個產品的品質不好,價格再便宜也沒人買。我認為,一個產品用戶是否買單,首先是考慮這個產品是否能夠滿足用戶的需求,所以產品的功能、性能是重要的指標,在使用過程中的客戶服務也是一個指標。總體來講,達夢在這幾個方面同國外產品相比還是很有優勢的。

再值得一提的是,我們和軍方合作了26年,有什麼秘訣嗎?一個宗旨是安全,在一個系統裡面,每一個固件是安全的,系統也不一定安全,可能有安全的操作系統、安全的數據庫、安全的中間件、安全的應用軟件,系統也未必安全。固件的安全是系統安全的必要條件,但不是充分條件。

一直以來,我們想做一款安全的國產數據庫產品,我們實現了這個目標,從國際標准的安全級別的來看,分了7級,像Oracle在中國市場上他的安全級別是C2級,我們現在相當於是B2級。從中國的安全級別來看,標准是5,我們現在排到了3級和4級,而甲骨文處在2級,所以從安全性的角度來看,他們沒法跟我們比。當然,這也是政治因素的考慮,他們高安全版本的數據庫是不賣給中國的。其次,我還想多談一點的是,我們會針對某些行業、針對某些用戶的特定需求,來做定制化接口功能的擴展。但甲骨文公司的業務線拉得比較大,能賺錢的業務太多了, 他們花功夫做定制化功能是不合算的,同時服務費用也很高,相比之下,我們達夢的服務不僅可以提供本地化服務,其費用相當於他的零頭了,服務及性價比這一塊他跟我們沒法比,這也是為什麼很多國內廠商更願意和我們,而不是找Oracle。剛才講的一個是安全性、第二個定制化、第三個服務、第四個才是價格,我們價格相對來說很便宜,是Oracle的一半都不到,綜合這四個方面的優勢,我們在很多行業裡取得了不錯的業績。

皮皮(Q6):剛才也談到了安全性,我們很多人可能也說現在是一個後IOE時代了,比如說阿裡領先的去IOE時代可能在前兩年就已經做得風聲水起了,對於很多企業來說,去IOE是不是真的說去就能去呢?

馮裕才(A6):對很多企業來講,去IOE不是一夜之間就能完成的,它需要有一個過程,所以在這個過程中,IOE系統與去IOE系統會出現共存的局面。達夢針對這樣一個需求,開發了一款具有自主知識產權的同步軟件DMHS,DMHS能讓IOE的國外系統和自主可控的國產系統並行地運行,這樣一來,它們的數據是完全一樣的,通過並行運行一段時間以後,用戶可以觀察實際的效果,對比IOE系統和去IOE系統的運行參數,靈活選擇合適的時機,逐步地把IOE系統給去掉。

皮皮(Q7):所以說去IOE是一個兩手抓,循序漸進的雙保險過程。

馮裕才(A7):對,比如說像銀行系統,是不可能馬上卸掉原有的IOE系統的。其實你不需要卸掉,讓兩套系統處理同樣的事情,你可以觀察兩個系統它各個方面的性能指標,一直到最後您滿意放心了,就可以選擇直接卸掉原有的IOE系統,所以我們這款產品在中國市場非常受歡迎,像金融系統、證券系統都是采取這種去IOE的方式。

皮皮(Q8):從這個角度來看,確實能夠幫助客戶解決了後顧之憂。我們知道,面對類似於12306、淘寶雙十一、京東618這樣的高並發訪問,廠商一般會采取緩存和數據庫集群的方式來應對。比如甲骨文對應的集群方案叫RAC,它是多個數據庫服務器共享數據庫的解決方案。那麼,在面對高並發訪問量時,達夢數據庫是否采用類似的機制呢?它有哪些突破點?

馮裕才(A8):我們不會簡單地去模仿甲骨文的做法,也不會去復制相應的技術。為了解決客戶類似的問題,我們也有自己的集群。比如說達夢大規模並行集群MPP,MPP 集群可以用來解決大數據量存儲容量、IO 瓶頸、查詢分析瓶頸、可擴展性等問題,能為 OLAP 應用提供良好支持。再比如,我們自主可控的數據實時同步軟件DMHS,它堪稱為大數據的保險箱,能夠有效提升大數據的效能。還有我們解決了國產芯片目前不能支持用戶的多項分離技術,我們的讀寫分離集群DMRWC適用於網站、辦公系統等讀多寫少的系統,通過擴展備機數量,提升系統並發能力。

值得一提的是,我們也有專門的技術,針對不同的應用需求來采取不同的應對方式。你剛才問到12306以及像京東618,實際上,這些電子商務網站在面對高並發訪問負載的時候,用到了一個核心的思想,那就是分而治之,換句話說,我們用集群來分散用戶的訪問量,避免出現用戶過於集中訪問的局面。這裡的集群技術就是采用了分而治之的辦法,采用多個平台、多種方式來避免出現大量用戶扎堆在一個獨門橋上,這樣一來問題就能化解了,比如說春節期間12306用到了多個集群,把負載壓力分散到各個地區上,所以總體來講,我們采用的分類的思想大概有四五種集群方式,可以解決目前所面臨的這些問題。

皮皮(Q9):確實像您所說的,達夢推出的集群利器更具多樣化,有應對大數據並行計算分析的集群,也有並行實時同步的軟件,還有讀寫分離集群,來確保主機和備機數據實時一致,通過擴展備機數量從而提升系統的並發能力。那目前,隨著傳統行業逐步進入大數據時代,電商化、社交化、智能化,數據挖掘的需求就日益突出,相應衍生出了很多大數據平台,有些人可能會想到基於Hadoop的大數據處理平台,那麼達夢的大數據平台與Hadoop大數據平台有哪些區別?它有哪些新的價值與創新?

馮裕才(A9):我認為大數據與其說是平台,還不如說是平台化解決方案,前面我也說了,不同的大數據場景可能要用不同解決方案。達夢的大數據平台在數據存儲、數據交換、數據管理、數據分析、數據展現等方面根據不同業務需求都有針對性的的解決方案,可以為傳統業務應用、資源交換共享、大數據分析等提供統一的服務和支撐。例如我們的平台可以實現對非結構化數據與結構化數據的融合管理;我們的數據交換可以實現對結構化數據、非結構化數據的抽取和相互轉換;針對大數據實時查詢比對等業務場景我們有基於Spark的分布式內存計算框架;我們的數據分析、展現除了支持傳統的關系數據庫,也支持非結構化數據庫、內存計算框架等。因此達夢的大數據平台服務,是一個平台化的解決方案,我們針對不同的大數據場景都有針對性解決方案。

皮皮(Q10):大數據來了,有些人可能會疑惑,很多傳統的關系型數據庫的廠商是否會改行?還有的人可能認為大數據來了,在技術方面是否會面臨著一場革命?

馮裕才(A10):大數據確實給傳統數據庫廠商帶來挑戰,但傳統數據庫在大數據時代依然有其細分領域和應用場景,但我們也看到優秀的傳統關系數據庫廠商已經開始引入非結構化數據庫、分布式內存計算、數據融合中間件等豐富自己的產品線,順應大數據的技術趨勢。另外,大數據的來源並非在今天才產生,盡管現在的信息量劇增,但是大數據本身就存在於大自然。作為大自然的一個對像,比如人,我們早期的人事管理,用的是關系型數據庫來解決和管理,換到現在需求變了,可能存儲的信息也變了,比如人的照片、聲音、視頻等數據,需要非關系型數據庫來存儲。但我們必須承認,人的基本屬性比如姓名、年齡等信息還是不能丟。所以關系型數據庫和非關系型數據庫應該是共存的局面。

皮皮(Q11):我們知道數據庫的軟件和市場主流的服務器、軟硬件,以及網絡之間如何做到這種深度的融合是一個難點,當然也是一個最大的關鍵點,如果說數據庫的這個軟件與其他的第三方的廠商達不到這種良好的適配的話,就會導致這個數據庫的整體性能下降,穩定性也大大降低了,達夢的大數據平台是以達夢自主研發的數據庫產品為核心,它與第三方的軟硬件產品的適配如何呢?

馮裕才(A11):我覺得這個問題應該分兩個層面,第一個就是作為我們的核心產品達夢數據庫與操作系統、硬件設備的優化,目前達夢在和國內的服務器、操作系統廠家聯合做達夢的數據庫一體機,我們通過一體機實現數據與操作系統、硬件的最佳適配,大幅度的提升數據庫的性能。其實國外的數據庫廠家也在做同樣的事情,例如oracle的一體機。

另一個就是針對大數據平台的軟硬件兼容與適配優化,目前這個工作主要是由系統集成商來做,但從技術角度來講,一般的系統集成商的技術水平無法解決這個問題。因此,我們達夢公司在武漢總部建立大數據平台基地,涵蓋硬件、操作系統、數據庫、中間件、GIS、全文檢索等共性軟件,聯合各軟硬件廠商,建立大數據平台聯盟,將各類軟硬件集中起來,進行適配、優化和深度融合,現在已經建立有一支專業隊伍專門研究平台優化融合工作,相比其他家大數據平台公司,我們更關注用戶的大數據平台是否能夠真正穩定、安全、高效的運行。在項目實踐中,我們的服務使客戶的系統整體處理性能有了顯著提高,例如,我們采用mpp與實時同步工具使原來運行在rac集群上的數據查詢性能至少提高10倍以上(數據量為1.6T);采用達夢的解決方案使得原來運行在hive上的大表的數據碰撞比對性能提高近100倍。

皮皮(Q12):您剛才也提到了達夢大數據平台有很多很成功的案例,具體到對於我們的用戶來講的話,達夢大數據平台到底能給我們帶來哪些價值呢?它在海量的數據處理與分析方面有哪些應用場景呢?比如說在安全性、兼容性還有可擴展性方面有哪些優勢呢?

馮裕才(A12):達夢在公安、國土、消防、政法、電子政務等領域有很多大數據平台的實施經驗。我以湖北公安雲項目為例,來簡單介紹下我們是如何在大數據處理與分析方面給客戶帶來價值。

湖北省公安雲項目是一個比較典型大數據平台項目,現在已經實現了公安橫向、縱向及與外部委辦局的動態數據交換與共享,實現了對公安結構化數據、非結構化數據的融合管理,針對公安的套牌車實時查詢等應用場景我們引入了並行內存計算框架,來實現數據的快速比對與查詢;針對公安大表比對碰撞需求,我們開發了支持結構化數據庫與非結構化數據庫的開放式情報分析平台,能動態組合各類情報信息,在處理過程中,組合、篩選、合並各類異構數據資源,按照情報分析人員的業務需要,對各類數據進行探索式動態分析。從目前各省的公安雲的建設情況來講,湖北公安雲在數據源整合、數據應用等方面在全國領先,這個和平台的通用性、兼容性、時效性是分不開的。

總體來講,達夢公司既 不是應用開發商,更不是系統集成商,也不僅僅是數據庫產品提供商,而是一個集大數據平台咨詢、規劃與技術服務的PAAS平台提供者。我們的大數據平台是基於數據平台層的,可為底層的基礎設施層提供支撐,同時對來為上面應用層,也能提供統一的數據服務標准,使各類用戶都可以在這個平台上申請他們所需要的服務,比如專業人員、領導層和系統管理員,這三類用戶我們都可以提供數據服務,這就是區別於其他一些平台不同點。未來,我們的系統平台還會擴展至移動端,為更多用戶帶來價值。