• 首頁 > 云計算頻道 > 大模型

    大模型語料急速消耗,合合信息發(fā)布大模型加速器助力語料訓練

    2024年09月11日 16:36:41   來源:Citnews中文科技資訊

      自CHATGPT問世以來,國內(nèi)大模型市場進入高速發(fā)展期,截至2024年7月30日,全國范圍內(nèi)已有197個生成式人工智能服務通過網(wǎng)信辦備案。大模型產(chǎn)業(yè)發(fā)展如火如荼的同時,其訓練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質(zhì)量參差不齊,尤其是高質(zhì)量中文語料短缺的問題日益凸顯,成為各方關(guān)注焦點。

      阿里研究院5月發(fā)布的《大模型訓練數(shù)據(jù)白皮書》(以下簡稱《白皮書》)顯示,互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達59.8%,而中文僅占 1.3%。同樣,語料的質(zhì)量會顯著影響大模型的性能。在大模型領域,輸入低質(zhì)量數(shù)據(jù),必然會輸出低質(zhì)量結(jié)果。

      以中文語料為例。中國工程院院士高文指出,當前全球通用的50億大模型數(shù)據(jù)訓練集中,中文語料占比僅為1.3%,其數(shù)量和質(zhì)量上同英文等其他語言相比存在明顯不足。“沉睡”在報告、論文、報紙等文檔內(nèi)的大批高價值語料數(shù)據(jù),由于其復雜的版面結(jié)構(gòu),制約了大模型的訓練語料處理能力,無法被輕易解析并提取。

      解決中文數(shù)據(jù)不足和質(zhì)量問題,處理多樣化數(shù)據(jù),仍是各廠商面臨的一大挑戰(zhàn)。為了幫助企業(yè)應對數(shù)據(jù)局限問題,近日,合合信息在WAIC 2024上發(fā)布了用于大模型語料訓練的“加速器”產(chǎn)品——TextIn智能文檔處理平臺。

      在訓練前期階段,使用“加速器”文檔解析引擎,破解書籍、論文、研報等文檔中的版面解析障礙,為模型訓練與應用輸送純凈的“燃料”;同時,“加速器”搭載了文本向量化模型,以解決大模型“已讀亂回”的幻覺問題。

      合合信息的思路是,從“煉丹”源頭的燃料出發(fā),通過標準化平臺進行語料結(jié)構(gòu)化,提高數(shù)據(jù)預訓練效率,幫助大模型廠商達成有效的模型性能提升和迭代。合合信息此次發(fā)布的大模型“加速器TextIn智能文檔處理平臺,由TextIn文檔解析、TextIn Embedding(文本向量數(shù)據(jù)模型)以及OpenKIE三大工具組成。

      目前,無線表、跨頁表格、公式等復雜元素的處理,仍是大模型語料清晰的“攔路虎”。以銀行常見的基金對賬單托管業(yè)務為例,市面上基金公司眾多,各家企業(yè)的賬單樣式都不相同,加上復雜的表格呈現(xiàn)形式,要將數(shù)據(jù)從非結(jié)構(gòu)化圖文信息中抽取,并整理成模型訓練需要的形式,往往十分耗費人力和時間。

      TextIn文檔解析在文本、表格、圖像等非結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)上,最快1.5秒就能完成百頁長文檔的解析;不僅速度快,同時還具備理解能力,可以智能還原文檔的閱讀順序。

      另一方面,大模型或許在通用問答中生成表現(xiàn)很好,但就現(xiàn)階段來看,面對專業(yè)領域問題,大模型仍存在局限性,容易出現(xiàn)“一本正經(jīng)地胡說八道”的幻覺,稍不注意,便可能帶來嚴重的影響。經(jīng)測試,使用合合信息的TextIn Embedding模型(文本向量數(shù)據(jù)模型)后,能提高大模型信息搜索和問答的質(zhì)量、效率和準確性。

      未來,合合信息將重點瞄準金融、醫(yī)療等行業(yè)推出垂直領域產(chǎn)品,同時面向開發(fā)者推進內(nèi)測計劃,吸納更多用戶參與到產(chǎn)品共創(chuàng)和優(yōu)化中去。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    [No. S013]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。