上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領先的目標網(wǎng)絡AI 3D生成天花板再拉升!清華團隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團喜歡“追風口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權益年內狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    亞馬遜 AWS 將提供人類基準測試團隊來測試人工智能模型

    2023年11月30日 15:54:11   來源:站長之家

      亞馬遜希望用戶能夠更好地評估人工智能模型,并鼓勵更多人參與這一過程。

      在AWS re:Invent 大會上,AWS數(shù)據(jù)庫、分析和機器學習副總裁 Swami Sivasubramanian 宣布推出宣布 Bedrock 上的模型評估,現(xiàn)已提供預覽,用于評估其存儲庫 Amazon Bedrock 中的模型。如果沒有一種透明的測試模型的方式,開發(fā)者可能最終會使用不夠準確的模型來處理問答項目,或者使用對他們的用例來說過大的模型。

      Sivasubramanian 說:「模型的選擇和評估不僅僅在開始時進行,而且是定期重復的事情。我們認為讓人類參與循環(huán)是很重要的,所以我們提供了一種管理人類評估工作流程和模型性能指標的方法。」

      Sivasubramanian 在此前接受的采訪中表示,有時一些開發(fā)者不知道他們是否應該使用更大的模型來進行項目,因為他們假設更強大的模型會滿足他們的需求。后來他們發(fā)現(xiàn),他們本可以基于一個更小的模型來構建。

      模型評估包括兩個部分:自動評估和人工評估。在自動版本中,開發(fā)者可以進入他們的 Bedrock 控制臺并選擇一個模型進行測試。然后,他們可以根據(jù)像魯棒性、準確性或有害性等指標來評估模型在任務上的性能,如摘要、文本分類、問答和文本生成。Bedrock 包括了流行的第三方人工智能模型,如 Meta 的 Llama 2. Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

      盡管 AWS 提供測試數(shù)據(jù)集,但客戶可以將自己的數(shù)據(jù)帶入基準測試平臺,以便更好地了解模型的行為。然后系統(tǒng)生成一份報告。

      如果涉及到人類,用戶可以選擇與 AWS 的人工評估團隊或他們自己的團隊合作?蛻舯仨氈付ㄈ蝿疹愋(例如摘要或文本生成)、評估指標以及他們想使用的數(shù)據(jù)集。AWS 將為與其評估團隊合作的用戶提供定制化的定價和時間表。

      AWS 生成式人工智能副總裁 Vasi Philomin 在接受采訪時表示,更好地了解模型的性能有助于更好地指導開發(fā)。它還允許公司在使用模型之前,看看模型是否不符合一些負責任的人工智能標準——比如有害性敏感度過低或過高。

      Philomin 說:「重要的是模型要為我們的客戶工作,要知道哪個模型最適合他們,我們正在給他們一種更好地評估這一點的方法!

      Sivasubramanian 還表示,當人類評估人工智能模型時,他們可以檢測到自動系統(tǒng)無法檢測到的其他指標——比如同理心或友好度。

      Philomin 表示,AWS 不會要求所有客戶都對模型進行基準測試,因為一些開發(fā)者可能之前已經(jīng)使用過 Bedrock 上的一些基礎模型,或者對模型對他們有何用處已有所了解。那些仍在探索要使用哪些模型的公司,可能會從經(jīng)歷基準測試過程中受益。

      AWS 表示,雖然基準測試服務目前處于預覽階段,但它只會對評估期間使用的模型推理收費。

      盡管沒有特定的人工智能模型基準測試標準,但某些行業(yè)普遍接受特定的指標。Philomin 表示, Bedrock 上的基準測試的目標不是廣泛評估模型,而是為公司提供一種衡量模型對其項目影響的方式。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。