文心一言即將面世規(guī)�；涞厝绾纹凭�

2023年03月09日 09:32:17 文|�；� 編|趙艷秋 來源：數(shù)智前線

　　百度文心一言將在3月16日發(fā)布，類ChatGPT大模型之間的商業(yè)落地戰(zhàn)已經(jīng)開啟。人工智能落地就像一座大冰山，產(chǎn)業(yè)落地“最后一公里”只是浮在海面上的那個冰山一角。目前圍繞“冰山之下”的種種布局和競爭早已開啟，實際上頭部企業(yè)已經(jīng)進(jìn)入備戰(zhàn)狀態(tài)。

　　類ChatGPT大模型之間的商業(yè)落地戰(zhàn)已經(jīng)開啟。

　　僅在開放測試3個月后，3月2日，OpenAI宣布，對外提供ChatGPT的API接口，允許開發(fā)者將其集成到自己的應(yīng)用和服務(wù)中。

　　同時，價格還直接打了個骨折。此前一個月，微軟已開始拜訪客戶，向企業(yè)推廣旗下云平臺Azure提供的OpenAI調(diào)用服務(wù)。

　　在國內(nèi)，百度文心一言將在3月16日發(fā)布。此前百度已密集與400多家企業(yè)達(dá)成戰(zhàn)略合作，百度智能云也已官宣，將對外提供文心一言的調(diào)用服務(wù)。

　　但人工智能應(yīng)用落地就像一座大冰山，產(chǎn)業(yè)落地“最后一公里”只是浮在海面上的那個冰山一角。落地成敗將取決于冰山之下自底而上的層層技術(shù)棧，以及人工智能研發(fā)運(yùn)營一體化(MLOps)。其中任何一環(huán)沒有做好，產(chǎn)業(yè)落地都很難實現(xiàn)。

　　如今，圍繞“冰山之下”的種種布局競爭也早已開啟，頭部企業(yè)進(jìn)入備戰(zhàn)狀態(tài)。

　　一個模型和它的產(chǎn)業(yè)化之旅

　　過去幾年，在一批行業(yè)人士眼中，某種程度上人工智能在產(chǎn)業(yè)中的落地在變慢。“我們每年可以發(fā)表幾萬篇論文，但卻很難做出幾萬個好案例。”一位行業(yè)人士感嘆。

　　這其中最本質(zhì)的原因是AI開發(fā)范式，它在很大程度上決定了產(chǎn)業(yè)落地的成本。當(dāng)人工智能人士王曄還在IBM Research工作時，業(yè)界針對每一個AI應(yīng)用，都要堆一批全棧算法工程師，從頭到尾做一遍算法開發(fā)。這種方式是行不通的。因為它人力成本高，嚴(yán)重依賴AI算法研究者;數(shù)據(jù)標(biāo)注和訓(xùn)練成本高，占到AI項目的60%~80%;算力成本也高。

　　于是，在過去10年，業(yè)界一直在尋找人工智能開發(fā)落地新范式，想擺脫人力密集的狀況。先是10年前，開始探索一種預(yù)訓(xùn)練模型+微調(diào)的開發(fā)范式。從2017年開始，隨著大模型理論的提出，AI開發(fā)進(jìn)入第三種范式。國外如OpenAI、谷歌，國內(nèi)如百度、華為，通過數(shù)以千億級的token(字符串)、上億級圖文、上千個節(jié)點(diǎn)來訓(xùn)練大模型。有了通用大模型，再疊加行業(yè)數(shù)據(jù)變成行業(yè)大模型，之后用少量數(shù)據(jù)就可以得到場景模型。

　　“我們認(rèn)為這是一種基于大模型的新應(yīng)用范式。”幾年前開始轉(zhuǎn)向2B市場的百度AI中臺總監(jiān)忻舟告訴數(shù)智前線。業(yè)內(nèi)認(rèn)為，預(yù)訓(xùn)練大模型和AIGC(人工智能生成內(nèi)容)將有望帶領(lǐng)產(chǎn)業(yè)落地走向下一個拐點(diǎn)。它極大降低了開發(fā)和產(chǎn)業(yè)化門檻，現(xiàn)實中大量高價值和長尾問題，都能一站式解決。

　　不過，不管開發(fā)范式怎么變化，人工智能開發(fā)落地的流程長且復(fù)雜，缺乏規(guī)范，無論小模型、中模型還是大模型的落地，都面臨大量實際問題。

　　比如，內(nèi)部場景挖掘難。百度AI中臺總監(jiān)忻舟去拜訪銀行客戶時，被客戶問的最多的是“別的銀行做過什么場景，能不能給我們也做一遍?”再如，成本高企。僅數(shù)據(jù)標(biāo)注，動輒就能花掉企業(yè)幾千萬甚至幾個億。百度AI中臺產(chǎn)品架構(gòu)師靳偉舉例，一張小小的增值稅發(fā)票，人工標(biāo)注就要15元。AI開發(fā)工具門檻高。尤其是央國企對自主可控訴求越來越多，他們要求人工智能平臺要降低開發(fā)門檻。

　　此外，還有集成部署、龐雜的系統(tǒng)對接、數(shù)據(jù)安全、效果評估、風(fēng)險管控......人工智能落地就像一座大冰山，實際上，要想讓模型在產(chǎn)業(yè)中發(fā)出“洪荒之力”，就更要關(guān)注冰山之下，它的層層技術(shù)棧，各種模態(tài)的預(yù)訓(xùn)練大模型，各種海量數(shù)據(jù)集，各種評測方法，以及開發(fā)運(yùn)維規(guī)范和工具。沒有這些從底到上的支撐，冰山將會崩解。所以，近兩年，人工智能研發(fā)運(yùn)營一體化(MLOps)在AI產(chǎn)業(yè)界廣受關(guān)注。

　　什么是MLOps?它是一套方法論和實踐指南，覆蓋了AI開發(fā)運(yùn)營的全生命周期管理，解決的是AI工程化的事。百度智能云主任架構(gòu)師謝永康把AI模型比作一輛汽車的“發(fā)動機(jī)”，但只有發(fā)動機(jī)無法滿足出行需求。AI工程化就是圍繞“發(fā)動機(jī)”去開展一系列工程，如數(shù)據(jù)采集、模型開發(fā)、服務(wù)部署、運(yùn)營評估、迭代優(yōu)化等，讓“發(fā)動機(jī)”最終變成一輛“車”，在場景中發(fā)揮價值。而MLOps提供的實踐指南，讓這個過程變得高效平順。

　　人工智能研發(fā)運(yùn)營標(biāo)準(zhǔn)推出

　　在做了不少人工智能產(chǎn)業(yè)化落地后，忻舟感受到，原來被認(rèn)為人工智能三大核心的算法、數(shù)據(jù)、算力，“其實只是核心的一小部分，人工智能落地是個龐大復(fù)雜的過程，有一大堆工程性和流程性的工作”。這個流程很長，每一個環(huán)節(jié)出現(xiàn)問題，都會導(dǎo)致最終效果與預(yù)期相差甚遠(yuǎn)。

　　面對人工智能產(chǎn)業(yè)化出現(xiàn)的各種急迫問題，2022年，中國信息通信研究院聯(lián)合30家頭部企業(yè)，包括百度、華為云、商湯、中國電信、中國工商銀行等展開了MLOps標(biāo)準(zhǔn)編制工作。

　　“這就像我們?nèi)粘Ｉ钪械腎SO9001質(zhì)量管理體系一樣。”忻舟告訴數(shù)智前線。MLOps源自實踐，這次標(biāo)準(zhǔn)制定更像是將散落在“民間”的實踐，提煉并體系化、規(guī)范化。百度也在此過程中，將曾趟過的坑以及產(chǎn)業(yè)落地的經(jīng)驗，都貢獻(xiàn)到了標(biāo)準(zhǔn)中。

　　百度智能云的AI中臺解決方案符合MLOps標(biāo)準(zhǔn)，并通過了信通院旗艦級認(rèn)證。這意味著百度智能云AI中臺在AI開發(fā)的服務(wù)能力和管理能力均達(dá)到國內(nèi)領(lǐng)先水平。

　　目前，國外頭部公司如微軟、谷歌，也在MLOps展開布局競爭，推出類似平臺。不過，忻舟認(rèn)為，不像傳統(tǒng)軟件開發(fā)的DevOps，MLOps國內(nèi)外幾乎處于同一起跑線，國內(nèi)有機(jī)會做得更好。

　　有了MLOps標(biāo)準(zhǔn)和實踐，企業(yè)在AI落地的每個環(huán)節(jié)上都變得有章可循，可以少走彎路，AI開發(fā)和運(yùn)營的整體效能得到提升，并降低了成本，保障了質(zhì)量。

　　比如，銀行客戶追問場景的事情，MLOps有環(huán)節(jié)支撐。如預(yù)制場景，相當(dāng)于是預(yù)制菜，當(dāng)預(yù)制一個通用票據(jù)識別場景后，可以為客戶提供“樣板”，在此基礎(chǔ)上，客戶再做一些細(xì)微調(diào)整，就可以用在銀行票據(jù)、回單、發(fā)票識別等不同細(xì)分場景。

　　針對企業(yè)CEO關(guān)注的成本，MLOps也有辦法。人工智能在哪些地方最能吞金?業(yè)界共識是數(shù)據(jù)標(biāo)注、模型訓(xùn)練和推理這三塊。以數(shù)據(jù)標(biāo)注為例，現(xiàn)在，符合MLOps規(guī)范的百度AI中臺，提供了智能標(biāo)注，標(biāo)注成本節(jié)省了70%，一些情況下甚至節(jié)省90%。

　　再如，模型上線后也不是萬事大吉了。幾年前，山東電力引入了人工智能系統(tǒng)，對電力供給側(cè)與需求側(cè)進(jìn)行精細(xì)化匹配，避免“電有時多得用不掉，有時又少了沒電用”。但人工智能模型在運(yùn)行過程中，會隨環(huán)境變化，出現(xiàn)漂移，就沒法實現(xiàn)供需側(cè)精準(zhǔn)匹配了。MLOps有模型效果監(jiān)測環(huán)節(jié)，自動檢測模型，并回溯查找原因，收集新數(shù)據(jù)進(jìn)行訓(xùn)練，保障模型的效果。

　　模型風(fēng)險管理也是重要一環(huán)。在與銀行的合作中，靳偉他們發(fā)現(xiàn)，這對金融行業(yè)尤為重要，于是研發(fā)產(chǎn)品，將全過程自動化地記錄下來，必要時重現(xiàn)回塑。這些產(chǎn)品和規(guī)范最終也沉淀到MLOps中。

　　大模型出來后，也給行業(yè)帶來新挑戰(zhàn)。大模型猶如龐然大物，每做一次微調(diào)，都幾乎要消耗幾百萬元。針對大模型的所有微調(diào)都會慎之又慎，這也更需要MLOps實踐指南的指導(dǎo)和協(xié)助。

　　而針對大模型未來的加速落地，忻舟透露，百度計劃在2023年下半年在業(yè)界陸續(xù)推出符合MLOps標(biāo)準(zhǔn)的完整工具鏈，包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)質(zhì)量控制、中間效果分析、模型可解釋性工具、模型的量化、壓縮等配套工具，從而讓大模型，包括即將推出的文心一言，能快速在產(chǎn)業(yè)落地。

　　冰山之下

　　你可能想象不到，業(yè)界一個重大的變化發(fā)生在2021年。這一年，AI場景的算力增速已遠(yuǎn)超算力的平均增速。業(yè)界多個市場調(diào)研公司也預(yù)測，到2026年，AI算力將占到整個算力的50%。

　　忻舟他們早已感知到了這個變化。“我兩三年前去某央企時，他們整個集團(tuán)好幾萬人當(dāng)中，所有做人工智能相關(guān)的人只有45位。但現(xiàn)在你到任何一個部門，都有幾十位做人工智能。”

　　行業(yè)正在掀起數(shù)智化浪潮，MLOps也正在發(fā)揮更大的作用。在百度，通過MLOps旗艦認(rèn)證的AI中臺，是通過AI大底座對外提供服務(wù)的。

　　什么是AI大底座?它是一個包含從芯片、框架、到大模型再到應(yīng)用的AI生產(chǎn)全要素的AI基礎(chǔ)設(shè)施，因此可以進(jìn)行端到端優(yōu)化。它實際上支撐了AI落地的最后一公里。而通過MLOps賦能，AI大底座能更有質(zhì)量地推動AI產(chǎn)業(yè)化。

　　具體而言，AI的底座的芯片層的是昆侖芯，聚焦解決算力問題。它是百度自研的人工智能芯片，100%自研XPU架構(gòu)。就像蘋果芯片和軟件的結(jié)合能讓蘋果產(chǎn)品更為順滑，昆侖芯在設(shè)計時要考慮大模型核心網(wǎng)絡(luò)結(jié)構(gòu)Transformer，以及未來可能的變種，從而更順滑地處理大模型。

　　昆侖芯之上是框架層——深度學(xué)習(xí)框架飛槳，它是人工智能時代的操作系統(tǒng)，是連接底層芯片和上層算法的中間層。飛槳在大模型并行訓(xùn)練上，申請了專利，有更好的大模型訓(xùn)練效能。值得關(guān)注的是，人工智能所比拼的生態(tài)，歸根到底是框架的生態(tài)。

　　飛槳之上是文心大模型。大模型是數(shù)據(jù)、算力和算法的集大成者，只有在這三個維度上深入積累，才能誕生優(yōu)秀的大模型。文心一言就是基于文心大模型而生。

　　在大模型之上，是各種產(chǎn)業(yè)AI應(yīng)用生態(tài)。

　　百度是全球為數(shù)不多、進(jìn)行全棧布局的人工智能公司，各個層面都有領(lǐng)先的關(guān)鍵自研技術(shù)，可以實現(xiàn)端到端優(yōu)化，大幅提升效率。

　　以能源領(lǐng)域為例，對高壓線纜進(jìn)行巡檢是必不可少的工作，但很多高壓線纜處于深山密林中，巡檢人員很難進(jìn)去，并且巡檢人員需要爬上線纜做各種各樣的檢查，非常危險�；贏I大底座，百度幫國網(wǎng)福建建設(shè)了AI中臺，在此基礎(chǔ)上，協(xié)同打造電力大模型，構(gòu)建了AI電力關(guān)鍵業(yè)務(wù)數(shù)據(jù)的全鏈條智能處理能力。這一方法已幫他們將識別準(zhǔn)確率提升了30%，識別效率提升了5倍。變電端效率提升了40—60倍，啟動送電時間縮短了80%。另外，由于不同省市自然環(huán)境不一樣，借助AI大底座，將其他地方收集的數(shù)據(jù)，灌到大模型中，實現(xiàn)了對通用大模型和具體到場景中模型的再訓(xùn)練，加強(qiáng)了大模型泛化的能力。

　　忻舟看到，有更多的人投身人工智能行業(yè)，也有更多的人工智能人士進(jìn)入傳統(tǒng)行業(yè)。未來，在大模型時代下，人們對于規(guī)律的發(fā)現(xiàn)方式和協(xié)作方式，將可能被刷新。在AI大底座的協(xié)助下，在科技界和產(chǎn)業(yè)界的協(xié)作下，千行百業(yè)中那些主流的、長尾的、高頻的、低頻的場景和數(shù)據(jù)，將在虛擬空間實現(xiàn)鏈接，生出巨大價值。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信