轉(zhuǎn)自:北京商報(bào)

一個(gè)月前,OceanBase?CEO楊冰通過(guò)全員信宣布,公司將全面進(jìn)入AI時(shí)代,打造“Data(數(shù)據(jù))×AI(人工智能)”核心能力。5月17日,OceanBase詳解了AI戰(zhàn)略,并發(fā)布了與數(shù)據(jù)處理相關(guān)的能力和產(chǎn)品,比如AI驅(qū)動(dòng)的開箱即用的RAG(檢索增強(qiáng)生成)服務(wù)、進(jìn)一步降低TP負(fù)載下存儲(chǔ)成本的共享存儲(chǔ)等。

按照OceanBase的計(jì)劃,公司要從一體化數(shù)據(jù)庫(kù)轉(zhuǎn)向一體化數(shù)據(jù)底座。在現(xiàn)場(chǎng)為OceanBase站臺(tái)的螞蟻集團(tuán)CTO何征宇表示,螞蟻集團(tuán)將支持OceanBase在金融、醫(yī)療、生活等螞蟻AI的核心場(chǎng)景的突破。OceanBase始于2010年,早期服務(wù)天貓“雙11”,公司獨(dú)立于2020年,五年后這家以數(shù)據(jù)處理起家的公司面對(duì)的是一個(gè)AI規(guī)?;碾A段,有AI帶來(lái)的天然數(shù)據(jù)增量、非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)等新紅利,也有價(jià)格戰(zhàn)等老問(wèn)題。

不止上新,OceanBase在AI時(shí)代的數(shù)據(jù)“尋寶”  第1張

一些新品

“傳統(tǒng)RAG應(yīng)用常用開發(fā)模式包括組件森林開發(fā)模式、RAG平臺(tái)模式等,但存在開發(fā)周期長(zhǎng)、維護(hù)成本高、灰箱調(diào)試?yán)щy、性能難以優(yōu)化等問(wèn)題”,OceanBaseAI戰(zhàn)略一號(hào)位的公司CTO楊傳輝介紹,OceanBase?PowerRAG提供開箱即用的RAG應(yīng)用開發(fā)能力,打通應(yīng)用開發(fā)數(shù)據(jù)層、平臺(tái)層、接口層與應(yīng)用層的全流程,提供Document(文檔)和 Chat(對(duì)話)兩個(gè)核心API接口,幫助用戶實(shí)現(xiàn)文檔知識(shí)庫(kù)、智能對(duì)話、圖像比對(duì)、數(shù)據(jù)分析等多種AI應(yīng)用場(chǎng)景的快速開發(fā)。

OceanBase對(duì)這款產(chǎn)品的定義是,“OceanBase致力于成為AI時(shí)代的一體化數(shù)據(jù)底座,PowerRAG是OceanBase在應(yīng)用層面探索的第一步”,楊傳輝說(shuō)。

當(dāng)天,OceanBase還推出了一款“共享存儲(chǔ)”產(chǎn)品,可實(shí)現(xiàn)對(duì)象存儲(chǔ)與事務(wù)型數(shù)據(jù)庫(kù)(TP)的深度集成,構(gòu)建存算一體與分離的多云原生架構(gòu),可以使TP負(fù)載的存儲(chǔ)成本最高降低500%。

將存儲(chǔ)產(chǎn)品置于不同的背景下,能更好地理解這款產(chǎn)品。

在云計(jì)算時(shí)代,對(duì)象存儲(chǔ)是一種新的數(shù)據(jù)存儲(chǔ)方法,它將數(shù)據(jù)存儲(chǔ)為“對(duì)象”,因高可靠、低成本、可無(wú)限擴(kuò)展等特性,被廣泛應(yīng)用于分析型數(shù)據(jù)庫(kù)(AP)、企業(yè)存儲(chǔ)備份、歸檔和數(shù)據(jù)湖等場(chǎng)景。

但在事務(wù)型數(shù)據(jù)庫(kù)(TP)的生產(chǎn)環(huán)境中,因數(shù)據(jù)計(jì)算對(duì)低延遲、高性能有極致追求,普遍采用緊耦合的存算一體架構(gòu),因此依賴本地磁盤或云盤,無(wú)法支持對(duì)象存儲(chǔ)的應(yīng)用?!肮蚕泶鎯?chǔ)”產(chǎn)品解決的就是無(wú)共享架構(gòu)在彈性和成本方面的瓶頸問(wèn)題。

該產(chǎn)品在云上可被應(yīng)用于典型TP、歷史庫(kù)及備份庫(kù),時(shí)序類業(yè)務(wù)、HBase兼容類業(yè)務(wù)、流水型業(yè)務(wù)系統(tǒng)、OLAP業(yè)務(wù)等。

先做好數(shù)據(jù)底座

不論是PowerRAG還是共享存儲(chǔ),其實(shí)都是因時(shí)而生的產(chǎn)品,小到產(chǎn)品,大到公司戰(zhàn)略同樣如此。

楊冰分享了自己看到的企業(yè)訴求,他把OceanBase的目標(biāo)企業(yè)分成兩類,“一類是想通過(guò)通用的AI給自己助力的企業(yè),比如通過(guò)通用大模型。企業(yè)把大模型拿過(guò)來(lái)要結(jié)合內(nèi)部的數(shù)據(jù)做后訓(xùn)練,不然沒(méi)法用,數(shù)據(jù)這時(shí)會(huì)成為企業(yè)內(nèi)部的知識(shí)庫(kù),成為企業(yè)所有上層AI應(yīng)用的基礎(chǔ),這可能涉及到存儲(chǔ)層,所以我們研發(fā)了向量化、融合檢索,OceanBase的產(chǎn)品就是這么來(lái)的,因?yàn)檫@些需求是剛需”。

“另一類是一些SaaS(軟件即服務(wù))企業(yè),或像阿里、螞蟻都提出要用AI全面重構(gòu),這些企業(yè)的動(dòng)作更大”,楊冰說(shuō),“它們可能要的就不只是一個(gè)知識(shí)庫(kù),是要把AI的各種能力拆分之后融入?!?/p>

在OceanBase分享的一張圖中,提到了公司的未來(lái),后期會(huì)從數(shù)據(jù)產(chǎn)生到訓(xùn)練、未來(lái)應(yīng)用的全鏈條?!癘ceanBase還處在早期布局階段,我們現(xiàn)在要把數(shù)據(jù)底座先做好”,楊傳輝分享了OceanBase大致的發(fā)展節(jié)奏。

這也是OceanBase在一個(gè)月前公開的戰(zhàn)略。根據(jù)IDC報(bào)告,受生成式AI等技術(shù)驅(qū)動(dòng),2028年全球新生成數(shù)據(jù)量規(guī)模預(yù)計(jì)將達(dá)到393.9ZB,其中企業(yè)數(shù)據(jù)規(guī)模和增速明顯。對(duì)于企業(yè)而言,數(shù)據(jù)倉(cāng)庫(kù)的容量已實(shí)現(xiàn)質(zhì)的飛躍,結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)規(guī)?!巴黄芇B級(jí)邁向EB級(jí)”成為新常態(tài),這給數(shù)據(jù)存儲(chǔ)、管理與分析帶來(lái)嚴(yán)峻挑戰(zhàn)。

何征宇也在分享中指出,海量的互聯(lián)網(wǎng)數(shù)據(jù)成就了今天的大模型,但大模型幻覺(jué)問(wèn)題的源頭也是數(shù)據(jù)問(wèn)題。數(shù)據(jù)決定著大模型的能力上限,且依舊有四個(gè)挑戰(zhàn):數(shù)據(jù)的獲取成本顯著增加;嚴(yán)謹(jǐn)?shù)男袠I(yè)數(shù)據(jù)稀缺且流動(dòng)困難;多模態(tài)數(shù)據(jù)需要更強(qiáng)的處理能力;數(shù)據(jù)的質(zhì)量評(píng)估難。

“較長(zhǎng)的路”

關(guān)于大模型幻覺(jué)問(wèn)題,楊傳輝這么解釋:“本質(zhì)上,出現(xiàn)幻覺(jué)要么是缺數(shù)據(jù),要么是缺高質(zhì)量的數(shù)據(jù),幻覺(jué)是永遠(yuǎn)不可能消失的,但可以無(wú)窮地逼近于0”,他站在企業(yè)的角度說(shuō),“一方面等著大模型拿公有數(shù)據(jù)改進(jìn)它的算法、數(shù)據(jù)質(zhì)量,這樣能慢慢把準(zhǔn)確率變高;另一方面可以把自己企業(yè)的數(shù)據(jù),或者掌握的部分行業(yè)公共數(shù)據(jù),結(jié)合到大模型里從而獲得更好的服務(wù),現(xiàn)在的難點(diǎn)在于結(jié)合,Data×AI的融合是極其難的?!?/p>

PowerRAG解決的就是第二個(gè)問(wèn)題。楊傳輝也坦言,“RAG這個(gè)方向其他也有很多挑戰(zhàn),還有一段比較長(zhǎng)的路要走,整個(gè)行業(yè)都有比較長(zhǎng)的路要走”。

事實(shí)上,“數(shù)據(jù)庫(kù)行業(yè)的價(jià)格競(jìng)爭(zhēng)很激烈”,比達(dá)分析師李錦清告訴北京商報(bào)記者,“國(guó)產(chǎn)數(shù)據(jù)庫(kù)市場(chǎng)中,很多企業(yè)都是基于開源技術(shù)的二次開發(fā),產(chǎn)品功能高度重疊,中小廠商通過(guò)低價(jià)策略爭(zhēng)奪市場(chǎng)份額,導(dǎo)致毛利率不高。國(guó)際廠商市場(chǎng)份額逐步下降。國(guó)內(nèi)云廠商通過(guò)云服務(wù)訂閱模式降低成本,也是在以價(jià)格優(yōu)勢(shì)搶占市場(chǎng)。”

楊冰沒(méi)有避諱價(jià)格,“性價(jià)比是數(shù)據(jù)庫(kù)領(lǐng)域永恒的話題,但在IT軟件這個(gè)領(lǐng)域,性價(jià)比往往意味著更高的質(zhì)量,是設(shè)定一個(gè)價(jià)格但擁有更好的能力。OceanBase是在迭代中提升能力,技術(shù)的創(chuàng)新也確實(shí)讓企業(yè)在成本上實(shí)現(xiàn)了下降”。

北京商報(bào)記者 魏蔚