辦公軟件的超級英雄?金山WPS AI會員人數(shù)破百萬,鴻蒙版全面開跑ChatGPT 高級語音模式或?qū)⒂?月24日全面上線巨人網(wǎng)絡(luò)發(fā)布自研角色大模型GiantGPT、語音大模型BaiLing-TTS合合信息IPO啟航|參編重點(diǎn)行業(yè)標(biāo)準(zhǔn),為用戶信息安全保駕護(hù)航南京市建鄴區(qū)攜手華為云,共筑大模型應(yīng)用新高地貝納利哈倫252 & 哈倫402上線重慶摩展 售1.78萬元起2024西門子EDA技術(shù)峰會:開啟系統(tǒng)設(shè)計(jì)新時代假期暢玩“黑神話”,LG電子全家桶煥新升級體驗(yàn)極致性能抖音電商,流量潮水不退合合信息發(fā)布大模型加速器,破解國內(nèi)大模型產(chǎn)業(yè)“語料荒”難題共建創(chuàng)新生態(tài)推動5G擴(kuò)展 高通錢堃談如何助力新質(zhì)生產(chǎn)力發(fā)展騰訊出品!AI音頻模型 EzAudio AI,讓文本秒變逼真聲音《抖音電商DOU Case年鑒2024》重磅發(fā)布,解鎖CORE經(jīng)營實(shí)戰(zhàn)秘訣傳音控股與聯(lián)發(fā)科技攜手共建人工智能聯(lián)合實(shí)驗(yàn)室,加速推進(jìn)端側(cè)AI技術(shù)創(chuàng)新阿里通義萬相視頻生成模型“AI生視頻”功能正式上線阿里通義千問開源Qwen2.5系列模型:Qwen2-VL-72B媲美GPT-4字節(jié)推音樂生成神器 Seed-Music 支持多樣化輸入和精確控制可靈AI發(fā)布1.5版本 視頻更穩(wěn)更高清 人飛了臉都沒崩順豐成“系”:第五家上市公司在路上蘋果華為輪番炒作,AI眼鏡會是下一個大熱點(diǎn)嗎?
  • 首頁 > 云計(jì)算頻道 > 大模型

    合合信息發(fā)布大模型加速器,破解國內(nèi)大模型產(chǎn)業(yè)“語料荒”難題

    2024年09月19日 17:01:53   來源:Citnews中文科技資訊

      近日,合合信息在WAIC 2024上發(fā)布了用于大模型語料訓(xùn)練的“加速器”產(chǎn)品——TextIn智能文檔處理平臺。合合信息的思路是,從“煉丹”源頭的燃料出發(fā),通過標(biāo)準(zhǔn)化平臺進(jìn)行語料結(jié)構(gòu)化,提高數(shù)據(jù)預(yù)訓(xùn)練效率,幫助大模型廠商達(dá)成有效的模型性能提升和迭代。

      國內(nèi)的大模型產(chǎn)業(yè)處于高速發(fā)展時期,面向各個細(xì)分領(lǐng)域的大模型如雨后春筍辦涌現(xiàn),例如處理文檔的kimi、豆包,用于制作ppt的天工、萬知,但做到與chatgpt媲美確非常困難。業(yè)內(nèi)人士對這個現(xiàn)象的解釋是,高質(zhì)量的中文數(shù)據(jù)集實(shí)在緊缺,訓(xùn)模型時只能直接購買外文標(biāo)注數(shù)據(jù)集或者直接采集開源的國外語料庫作為外援。一旦“進(jìn)口語料”加入的訓(xùn)練參數(shù)量多了,就會出現(xiàn)跟ChatGPT相似的回答方式。

      國內(nèi)外大模型數(shù)據(jù)集主要為英文,均源于許多開源數(shù)據(jù)集進(jìn)行訓(xùn)練,如Common Crawl、RedPajama、BooksCorpus、The Pile、ROOT等。這部分?jǐn)?shù)據(jù)雖然量多,但質(zhì)量上卻良莠不齊。一大優(yōu)質(zhì)的中文語料數(shù)據(jù),沉睡在報告、論文、報紙等文檔里。

      為緩解語料荒困境,合合信息推出了用于大模型語料訓(xùn)練的“加速器”產(chǎn)品——TextIn智能文檔處理平臺。在訓(xùn)練前期階段,使用“加速器”文檔解析引擎,破解書籍、論文、研報等文檔中的版面解析障礙,為模型訓(xùn)練與應(yīng)用輸送純凈的“燃料”;同時,“加速器”搭載了文本向量化模型,以解決大模型“已讀亂回”的幻覺問題。

      合合信息此次發(fā)布的大模型“加速器TextIn智能文檔處理平臺,由TextIn文檔解析、TextIn Embedding(文本向量數(shù)據(jù)模型)以及OpenKIE三大工具組成。從獲得海量數(shù)據(jù)到高價值數(shù)據(jù),預(yù)訓(xùn)練階段的語料處理十分關(guān)鍵。這意味著,作為一個平臺型產(chǎn)品,向大模型廠商和開發(fā)者“遞鏟子”,其基礎(chǔ)的工具能力是否足夠扎實(shí),關(guān)系到種子用戶的購買意愿。

      基于這一思路,合合信息在產(chǎn)品設(shè)計(jì)階段提前做了幾件事。首先是場景前置,在未個性化階段提前給模型補(bǔ)充大量優(yōu)質(zhì)的垂直領(lǐng)域Know-how,比如金融、法律、教育等,關(guān)注特定行業(yè)中的普遍痛點(diǎn),基于用戶訴求在產(chǎn)品設(shè)計(jì)時提供解決方案,進(jìn)而提高大模型加速器在核心應(yīng)用場景中表現(xiàn)能力。二是專注產(chǎn)品化,不只對客戶提供通用場景的API,而是提供更多工具型產(chǎn)品,降低應(yīng)用門檻,做到開箱即用,這對技術(shù)資源較為薄弱的傳統(tǒng)企業(yè)、中小創(chuàng)業(yè)公司或個人開發(fā)者來說非常友好。

      大模型變革的浪潮里,以數(shù)據(jù)為中心,成為行業(yè)人士從事大模型研發(fā)和應(yīng)用的共識。具體到實(shí)踐層面,大模型上游階段在文本解析、邏輯版面、文檔問答等方面,仍有很多的提升工作可以做。

      未來,合合信息將繼續(xù)依托技術(shù)優(yōu)勢,面向人工智能產(chǎn)業(yè)的不足提出解決辦法,助力大模型產(chǎn)業(yè)持續(xù)健康發(fā)展。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    [No. S013]
    分享到微信

    即時

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。