国产激情综合五月久久_国产丝袜无码一区二区视频_双乳奶水饱满少妇小说_韩国三级《诱人的乳》_《熟妇荡欲》欧美电影_有码+日韩+在线观看_地铁羞耻挤入h_久久久WWW免费人成精品_国产香蕉97碰碰久久人人

首頁 > 資訊 > 數(shù)字化

開源大世界,誰來打好大模型的地基?

2023/11/29 17:51      數(shù)智前線


  通用大模型猶如大模型產(chǎn)業(yè)的地基,而地基的深度和強度將決定大廈的高度。

  文|周享玥

  編|趙艷秋

  11月29日,第四屆人工智能計算大會(AICC 2023)在北京長安街中央商務(wù)區(qū)的一家酒店內(nèi)召開。

  今年異常熱鬧,包括百度、智譜AI、百川智能、網(wǎng)易伏羲、吉利汽車等在內(nèi)的多家大模型企業(yè)和科技企業(yè)匯聚一堂,共同探討AI計算技術(shù)風(fēng)向、AIGC創(chuàng)新成果等。國際數(shù)據(jù)公司IDC和浪潮信息還在會上聯(lián)合發(fā)布了一份《2023-2024年中國人工智能計算力發(fā)展評估報告》。

  報告顯示,67%的中國企業(yè)都已開始探索生成式人工智能在企業(yè)內(nèi)的應(yīng)用機會或進(jìn)行相關(guān)資金投入。其中,中國企業(yè)尤其認(rèn)可生成式AI對于加速決策、提高效率、優(yōu)化用戶和員工體驗等維度帶來的價值,并將在未來三年持續(xù)提高投入力度,超七成企業(yè)增幅在20%-40%之間。

  隨著越來越多企業(yè)對生成式AI及大模型進(jìn)行探索和投入,通用大模型的能力也在不斷被強調(diào)。一個共識是,通用大模型猶如大模型產(chǎn)業(yè)的地基,地基的深度和強度將決定大廈的高度。

  底層的大模型廠商們正為此做出努力。就在這次會議召開前兩天,浪潮信息剛剛發(fā)布“源2.0”基礎(chǔ)大模型,并全面開源1026億、518億、21億三種參數(shù)規(guī)模的模型。

  據(jù)悉,這是業(yè)界首個完全開源可商用的千億大模型,也是目前國內(nèi)尺寸最大的全面開源大模型。而上一個在國內(nèi)“最大參數(shù)開源大模型”記錄中留下過名字的是阿里。彼時,阿里巴巴集團(tuán)CEO吳泳銘在2023年世界互聯(lián)網(wǎng)大會上宣布,阿里將開源720億參數(shù)大模型。

  在通往大模型的未來之路上,持續(xù)拓寬行業(yè)落地的同時,打好地基,依然是重中之重。

  01

  大模型在路上,發(fā)展路徑百家爭鳴

  大模型雖然今年才真正爆發(fā),但業(yè)界對于這塊兒的探索,其實已經(jīng)經(jīng)過幾輪思考沉淀和總結(jié)。一位資深業(yè)內(nèi)人士向數(shù)智前線描述了大模型發(fā)展的幾個階段:

  以2018年谷歌發(fā)布擁有3億參數(shù)的BERT預(yù)訓(xùn)練模型作為起點,AI的大模型時代就已開啟,包括OpenAI、谷歌、微軟、英偉達(dá)等國外玩家,浪潮信息、百度、阿里、騰訊等國內(nèi)巨頭,都紛紛重兵投入,進(jìn)行相關(guān)探索。

  起初幾年,大家的焦點是拼參數(shù),“每家都是奔著吉尼斯去的,你做千億,它就做萬億”。尤其是2020年5月OpenAI發(fā)布擁有1750億參數(shù)的GPT-3,首次將大模型參數(shù)規(guī)模提升到千億級后,各種千億、萬億大模型層出不窮,看得人眼花繚亂。對外宣傳口徑上,各家的提法也很統(tǒng)一,都在強調(diào)自己的“最大”。

  這期間,更大參數(shù)量所帶來的智能涌現(xiàn)和泛化能力,讓不少人感到驚喜,但同時,也暴露出一些問題,比如當(dāng)大模型要真正落到智算中心做工程化時,往往會遇到算力支撐上的巨大考驗。再加上正常的技術(shù)商業(yè)化路徑,大家普遍開始走入第二階段:探索在什么樣的場景里去應(yīng)用。

  “有的面向知識領(lǐng)域去做技能模型,有的面向行業(yè)直接去做行業(yè)的場景模型。”大模型走向行業(yè)、走向領(lǐng)域應(yīng)用的路徑是什么,大家都在思考。

  比如百度,在2022年5月一口氣發(fā)布了十款大模型,其中既包括與產(chǎn)業(yè)場景相結(jié)合的行業(yè)大模型,也包括做了知識增強的任務(wù)大模型。

  浪潮信息也在2022年年中,推出了基于“源1.0”基礎(chǔ)大模型的4個技能大模型——對話模型“源曉問”、問答模型“源曉搜”、翻譯模型“源曉譯”,以及古文模型“源曉文”。

  但這些探索和嘗試都還只能算是“小打小鬧”的中間態(tài)產(chǎn)品,尚未能在外界引起轟動,有人士后來反思,過早地進(jìn)行領(lǐng)域模型和場景模型的應(yīng)用,實際是犧牲了部分泛化能力的。直到ChatGPT的橫空出世,這場大模型熱潮才真正被引爆。業(yè)界的各種思潮開始迅速活躍起來。

  IDC的報告顯示,目前,67%的中國企業(yè)都已開始探索生成式AI在企業(yè)內(nèi)的應(yīng)用機會或進(jìn)行相關(guān)資金投入。具體到應(yīng)用場景上,知識管理、對話式應(yīng)用、銷售和營銷、代碼生成等是全球企業(yè)應(yīng)用生成式人工智能的主要場景。

  過去幾個月里,一些大模型的先行先鋒用戶們,也已基于自身實踐形成了各自獨有的路線和方向,大模型還是一個新鮮事物,大家的觀點各不相同。

  不少企業(yè)通過對行業(yè)大模型的微調(diào),在某些場景下嘗試落地大模型。不過,也有一些企業(yè)不認(rèn)同行業(yè)大模型。

  航旅領(lǐng)域里,中國航信一位工程師告訴數(shù)智前線,他們希望基于基礎(chǔ)大模型來做民航智能服務(wù)平臺,而不是經(jīng)過剪裁了知識面的行業(yè)大模型。這背后的思考是,通用大模型的能力會隨著參數(shù)擴(kuò)大而升級,但行業(yè)模型是基于某個版本的通用模型,投喂相應(yīng)的專業(yè)數(shù)據(jù)訓(xùn)練而成。通常,基礎(chǔ)大模型會做參數(shù)升級,而行業(yè)模型很難同步,這不利于模型的智能水平。

  有企業(yè)則在不斷反思,行業(yè)落地與基礎(chǔ)模型性能提升如何齊頭并進(jìn)的問題。一家大模型產(chǎn)業(yè)鏈企業(yè)告訴數(shù)智前線,大模型在行業(yè)內(nèi)的落地速度,實際落后于他們年初預(yù)期,其中很大一部分原因,是因為國內(nèi)的基礎(chǔ)大模型還不夠成熟,性能仍有待提升。

  11月初,GPT-4 Turbo的炸街式發(fā)布,更加深了業(yè)界對大模型基礎(chǔ)能力提升的迫切性。“現(xiàn)在最可怕的事情是,OpenAI在開發(fā)者大會上展現(xiàn)出來的能力,又把我們跟GPT-4之間的差距拉大了。”浪潮信息高級副總裁劉軍表示,如何持續(xù)不斷地去縮小這種差距,甚至再往后實現(xiàn)超越,是目前國內(nèi)大模型行業(yè)面臨的核心問題。

  劉軍認(rèn)為,AI產(chǎn)業(yè)一定會快速增長,但只有當(dāng)產(chǎn)業(yè)足夠壯大時,每個參與者從中切到的蛋糕才會越大。因此,國內(nèi)大模型從業(yè)者首先要做的,是讓蛋糕做大。而這其中的一大核心,就是讓基礎(chǔ)大模型的能力提升上去。這就好比人才的教育過程,絕大多數(shù)情況下,首先有了較強的基本能力和素質(zhì),才能在不同專業(yè)、行業(yè)里干得更好。否則,客戶體驗很差,用不起來,也就難以轉(zhuǎn)動商業(yè)模式。這也是浪潮信息選擇全面開源“源2.0”基礎(chǔ)大模型的原因之一。

  02

  基礎(chǔ)大模型正百花齊放

  浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華告訴數(shù)智前線,去年11月ChatGPT發(fā)布后,其展現(xiàn)出的全新的能力雖然對業(yè)界震撼很大,但方法上有跡可循。“通過源1.0+強化學(xué)習(xí),我們很快趕上,也做出了類似ChatGPT這樣一套系統(tǒng),在內(nèi)部持續(xù)迭代和改進(jìn)。”

  “GPT-4發(fā)布后,我們重新審視了原來的方案,一直在思考一個問題,它到底通過什么樣的技術(shù)實現(xiàn)了非常強的基礎(chǔ)模型能力。”而這些思考都落在了11月27日浪潮信息最新發(fā)布的源2.0上。

  “源2.0”不僅在數(shù)理邏輯、代碼生成、知識問答、中英文翻譯、理解和生成等方面有顯著的能力提升,還針對行業(yè)在算法、數(shù)據(jù)、算力方面的普遍痛點,提出了三項創(chuàng)新。

  算法方面,源2.0提出并采用了一種新型的注意力算法結(jié)構(gòu):局部注意力過濾增強機制(LFA:Localized Filtering-based Attention)。

  有別于傳統(tǒng) Transformer“捕捉全局信息和長依賴信息能力”,LFA 具備“捕捉局部信息和短依賴信息能力”,使得模型更精準(zhǔn)地掌握上下文之間的強語義關(guān)聯(lián),學(xué)習(xí)到人類語言范式本質(zhì)。

  比如,“我想吃中國菜”這樣一句話輸入到模型中時,首先會進(jìn)行分詞——我/想/吃/中國/菜/,而傳統(tǒng)Attention對這6個token將同等對待。但在自然語言中,“中國”和“菜”實際是有著更強的關(guān)系和局部依賴性的,LFA正是通過先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,再計算全局關(guān)聯(lián)性的方法,學(xué)到自然語言的這種局部和全局的語言特征,進(jìn)而提升模型精度。

  “我們對大模型結(jié)構(gòu)的有效性進(jìn)行了消融實驗,相比傳統(tǒng)注意力結(jié)構(gòu),LFA模型精度提高了3.53%。”吳韶華表示。在最終的模型訓(xùn)練上,最大參數(shù)只有1026億的源2.0,在LFA算法的加持下,也能比用2457億參數(shù)的源1.0,訓(xùn)練同樣大小Token數(shù)的Train Loss降低28%。而訓(xùn)練的損失曲線越小,意味著大模型對于訓(xùn)練集的特征學(xué)習(xí)得越好。

  數(shù)據(jù)是另一個被重點提升的方面。劉軍告訴數(shù)智前線,原來大家粗放式經(jīng)營的特征比較明顯,"好像給它足夠的數(shù)據(jù),只要用算力不停去訓(xùn)它,最后就能煉出金子來。”但煉金術(shù)其實也是需要有高品質(zhì)的金礦才能練出純度更高的金子。

  后來,大家都重視起了數(shù)據(jù)的清洗工作,但想要獲得高質(zhì)量的數(shù)據(jù)集并不容易。比如源1.0,使用的數(shù)據(jù)絕大部分都來自于互聯(lián)網(wǎng),浪潮信息為此采用了很多手段提純,才在800多TB數(shù)據(jù)中清洗出了一個5TB的高質(zhì)量數(shù)據(jù)集。

  尤其是高質(zhì)量數(shù)學(xué)、代碼等數(shù)據(jù)的獲得上,難度還要更大。吳韶華透露,為了獲取中文數(shù)學(xué)數(shù)據(jù),他們清洗了從2018年至今約12PB的互聯(lián)網(wǎng)數(shù)據(jù),但僅獲取到約10GB的數(shù)學(xué)數(shù)據(jù),且質(zhì)量分析后依然不夠高,投入巨大,收益較小。

  于是,此次推出的源2.0,在訓(xùn)練數(shù)據(jù)來源、數(shù)據(jù)增強和合成方法方面都進(jìn)行了創(chuàng)新。一方面,通過引入大量中英文書籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語料內(nèi)容占比;另一方面,用大型語言模型作為訓(xùn)練數(shù)據(jù)生成器,在每個類別上提升數(shù)據(jù)質(zhì)量,獲取了一批高質(zhì)量的數(shù)學(xué)與代碼預(yù)訓(xùn)練數(shù)據(jù)。

  而在算力方面,源2.0采用非均勻流水并行的方法,綜合運用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導(dǎo)致的訓(xùn)練效率降低的問題,以此降低了大模型對節(jié)點內(nèi)芯片間通信帶寬的需求,讓其在硬件差異較大的訓(xùn)練環(huán)境中也能實現(xiàn)高性能訓(xùn)練。

  “相當(dāng)于給你一條高速公路時,能跑到每公里200公里的時速,但給你一條羊腸小道,也能跑起來,并把最終的結(jié)果跑到。”劉軍解釋說。

  浪潮信息在算法、數(shù)據(jù)、算力上的創(chuàng)新,直接推動了源2.0在代碼、數(shù)學(xué)、事實問答方面的能力提升。據(jù)介紹,后續(xù)的源2.5、源3.0等,依然還將從算法、數(shù)據(jù)幾個角度入手。

  實際是,不僅僅是浪潮信息,其他一些底層大模型廠商們,也都在持續(xù)迭代和升級自己的基礎(chǔ)大模型能力。

  10月,百度發(fā)布文心大模型4.0,宣布實現(xiàn)了基礎(chǔ)模型的全面升級。而后不久,阿里透露,即將開源 720 億參數(shù)大模型。

  這在不少業(yè)內(nèi)人士看來,是一種好的發(fā)展趨勢。畢竟,產(chǎn)業(yè)要健康發(fā)展,不能只有一家公司擁有領(lǐng)先的能力,而是需要整個產(chǎn)業(yè)能百花齊放。

  “對于用戶來說,是不是最后就變成只有一家贏呢?其實不是這樣的,我們認(rèn)為,未來的生成式AI,會是一個多元化的生態(tài),每個模型可能都有它最擅長的能力,那么大家加起來就是一個非常棒的能力集合。”劉軍告訴數(shù)智前線,將來行業(yè)用戶最終去部署的時候,可能會有不同的模型在后面在做支撐,而這些都是基礎(chǔ)大模型的力量。

  03

  從硬件到更大市場

  隨著大模型在各行各業(yè)的持續(xù)滲透和深入,企業(yè)對大模型廠商提出的需求,已經(jīng)不僅僅局限于大模型本身的能力,也在迅速擴(kuò)展到模型訓(xùn)練經(jīng)驗、優(yōu)質(zhì)數(shù)據(jù)集,以及如何解決算力效率、存儲、網(wǎng)絡(luò)等方方面面的問題。

  “我們的算法工程師和實施工程師比我們的服務(wù)器還搶手,他們出差去跟各家的交流,都排得非常滿。”一位浪潮信息的人士告訴數(shù)智前線。作為國內(nèi)最大的AI服務(wù)器提供商,同時也是國內(nèi)最早進(jìn)行基礎(chǔ)大模型建設(shè)的廠商之一,浪潮信息在今年大模型的風(fēng)潮起來后,接到了大量客戶關(guān)于模型預(yù)訓(xùn)練、數(shù)據(jù)處理、架構(gòu)調(diào)優(yōu)等方面的需求。

  比如浪潮信息從866TB海量數(shù)據(jù)中清洗出了5TB的高質(zhì)量中文共享數(shù)據(jù)集。劉軍透露,據(jù)不完全統(tǒng)計,目前國內(nèi)大模型中,已有超過50家使用了浪潮信息的開源數(shù)據(jù)集。另外,浪潮信息在模型快速收斂、效率提高上的經(jīng)驗和方法,也受到廣泛關(guān)注。

  模型訓(xùn)練效率的提升則是更大的一個話題,直接關(guān)系到巨大的成本問題。尤其是在GPU短缺的大背景下,如何將有效地將算力用好,是每家企業(yè)都要面臨的挑戰(zhàn)。

  在今年8月那場集結(jié)了20多位國內(nèi)大模型“頂流”創(chuàng)業(yè)者的西溪論道閉門會上,李開復(fù)就曾表示,很快大家就會發(fā)現(xiàn),做過大模型 Infra (硬件底層)的人比做大模型的人還要貴、更稀缺,而會做 Scaling Law(擴(kuò)展定律,模型能力隨著訓(xùn)練計算量增加而提升)的人比會做大模型 Infra 的人更稀缺。

  客戶愈加復(fù)雜的需求,正在促使大量的大模型廠商,尤其是實力雄厚的大廠們,開始不斷在角色和業(yè)務(wù)上加速轉(zhuǎn)變和拓展。人工智能產(chǎn)業(yè)鏈上,各種跨界動作也愈發(fā)頻繁,業(yè)界有著“軟件企業(yè)向下,硬件企業(yè)向上”的現(xiàn)象。

  可以看到,此前,百度、騰訊、阿里等多家大模型廠商,都向用戶提供了大模型相關(guān)的工具鏈。一些大廠,也在加快切入用戶更新的一些需求。比如,騰訊云面向大模型時代的新需求,在今年7月發(fā)布了AI原生向量庫,最近又宣布將向量數(shù)據(jù)庫檢索規(guī)模從十億升級至千億級別。京東云則看到了大模型用戶在存儲方面遇到的新挑戰(zhàn),正在加大相關(guān)的業(yè)務(wù)投入。

  浪潮信息對自己的角色定位也在發(fā)生改變。劉軍坦言,“我們越來越不認(rèn)為自己是個硬件廠商,如何把硬件這個生意轉(zhuǎn)化成更大的生產(chǎn)力,我們必須去理解客戶的應(yīng)用需求和痛點,這也要求浪潮信息不僅僅是硬件,在系統(tǒng)、軟件、算法上,也都要非常強的團(tuán)隊和能力。”

  劉軍表示,浪潮信息目前在大模型上的核心思路是,要發(fā)揮自身的優(yōu)勢和對產(chǎn)業(yè)的理解,建立一個強大的基礎(chǔ)大模型,然后通過開源的方式,將做應(yīng)用、做行業(yè)、做專業(yè)、做技能的工作,交給生態(tài)伙伴、行業(yè)客戶和開發(fā)者去完成,共同推動大模型的創(chuàng)新、使用和落地,而不是和大模型企業(yè)、軟件廠商去競爭。

  為此,8月24日,浪潮信息正式發(fā)布了大模型智算軟件棧OGAI (Open GenAI Infra) “元腦生智”。這是一套基于浪潮信息過往積累的大模型的工程經(jīng)驗、服務(wù)客戶的經(jīng)驗等,打造的面向生成式AI開發(fā)與應(yīng)用場景的全棧軟件,涉及從集群系統(tǒng)環(huán)境部署到算力調(diào)度保障再到大模型開發(fā)管理。

  OGAI一共分為五層,各層對應(yīng)不同的應(yīng)用場景,每層間是解耦的,用戶需要哪些工具,就可以調(diào)用哪些。其中,從 L0 到 L2主要針對的是大模型基礎(chǔ)算力環(huán)境的效率提升。L3和L4則分別為大模型訓(xùn)練層和多模型納管層,提供的功能類似互聯(lián)網(wǎng)企業(yè)的工具鏈,不同的是,OGAI可以為企業(yè)提供本地化和私有化部署。

  數(shù)智前線獲悉,目前,浪潮信息在幫助合作伙伴和客戶更好地進(jìn)行大模型的訓(xùn)練和應(yīng)用上,已經(jīng)有了不少實踐。

  比如,某互聯(lián)網(wǎng)企業(yè)在使用AI集群,對面向推薦場景的大模型進(jìn)行訓(xùn)練時,遇到了模型數(shù)據(jù)不能及時從存儲讀取,導(dǎo)致GPU空閑和訓(xùn)練性能低下的問題,企業(yè)內(nèi)的算法團(tuán)隊用了幾個月也沒能攻克。

  浪潮信息的AI團(tuán)隊介入后,發(fā)現(xiàn)在其場景中,大模型對數(shù)據(jù)讀取IO的需求遠(yuǎn)超一般的AI模型訓(xùn)練情況,從而導(dǎo)致針對普通模型訓(xùn)練的服務(wù)器配置在推薦場景中出現(xiàn)了不適配的情況。針對這一特殊需求,浪潮信息團(tuán)隊最終基于自身經(jīng)驗,通過對CPU BIOS中的mps等多個選項配置進(jìn)行對性的的修改優(yōu)化,解決了這一問題。

  網(wǎng)易伏羲則在浪潮信息提供的AI算力服務(wù)、高質(zhì)量共享數(shù)據(jù)集等助力下,訓(xùn)練出了110億參數(shù)的中文預(yù)訓(xùn)練大模型“玉言”,并登頂中文語言理解權(quán)威測評基準(zhǔn)CLUE分類任務(wù)榜單。

  “未來,我們將重點圍繞開源社區(qū)來做建設(shè),通過持續(xù)開源基礎(chǔ)大模型的形式,盡可能廣泛地賦能更多的用戶場景,擴(kuò)展基礎(chǔ)模型的能力邊界。”吳韶華說。浪潮信息也將通過元腦生態(tài),聯(lián)合國內(nèi)眾多做大模型的左手伙伴,和面向行業(yè)的右手伙伴,一起推進(jìn)大模型落地行業(yè)。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞