近日,諾諦智能“支點(diǎn)”向量模型憑借多樣化困難樣本采樣策略以及基于“支點(diǎn)”大模型的數(shù)據(jù)合成,超越眾多開源模型,拿下主流權(quán)威評測C-MTEB榜單排名第一。
MTEB(Massive Text Embedding Benchmark)是用于評估文本嵌入模型的一系列評估指標(biāo)的集合,對應(yīng)的C-MTEB則被公認(rèn)為是目前業(yè)界最全面、最權(quán)威的中文語義向量評測基準(zhǔn)之一,涵蓋了分類、聚類、檢索、排序、文本相似度、STS等6個經(jīng)典任務(wù),共計(jì)35個數(shù)據(jù)集,為深度測試中文語義向量的全面性和可靠性提供了可靠的實(shí)驗(yàn)平臺,眾多行業(yè)領(lǐng)先的開源模型都會參與評測,榜單競爭激烈。
此次獲得C-MTEB榜單排名第一的諾諦“支點(diǎn)”向量模型,采用了多樣化困難樣本采樣策略,其針對分類和聚類、檢索、排序以及句對匹配任務(wù)設(shè)計(jì)了不同的困難樣本選擇策略。同時(shí)該模型還采用了基于諾諦“支點(diǎn)”行業(yè)大模型的數(shù)據(jù)合成,通過多樣化的數(shù)據(jù)合成策略對分類、聚類、句對匹配樣本進(jìn)行重寫,為每個樣本構(gòu)造出多個合成樣本,并針對檢索和排序任務(wù)對問題和文章同時(shí)進(jìn)行增強(qiáng),可生成多個檢索問題。此外,對于不同場景的檢索任務(wù),“支點(diǎn)”向量模型還設(shè)計(jì)了多樣化損失函數(shù),結(jié)合梯度累積策略以及數(shù)據(jù)調(diào)度策略,最終使諾諦“支點(diǎn)”向量模型在分類、聚類、句對匹配、檢索、排序任務(wù)上的性能大幅提升。
在實(shí)際應(yīng)用中,“支點(diǎn)”向量模型為了滿足不同業(yè)務(wù)實(shí)際場景對向量的差異化需求,在訓(xùn)練過程中引入了MRL技術(shù),可根據(jù)指定維度的向量計(jì)算多個附加損失,使其可以輸出不同維度的向量用于下游任務(wù),進(jìn)一步提升實(shí)際業(yè)務(wù)場景下分類、聚類、檢索、排序、文本相似度等任務(wù)的AI能力。
而作為大模型的最主要應(yīng)用場景之一,RAG技術(shù)需要配合大模型和向量模型來落地,而諾諦開源了行業(yè)頂尖中文RAG場景向量模型,在為AI領(lǐng)域的持續(xù)創(chuàng)新提供助力的同時(shí),也可以賦能更多制造企業(yè)實(shí)現(xiàn)智能化升級。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。