谷歌推Scenic：可識別視頻內(nèi)容并生成詳細描述

2024年04月07日 11:47:46 來源：站長之家

　　Scenic 是谷歌推出的模型，一個專注于計算機視覺領域的代碼庫，主要用于研究基于注意力的模型。

　　該庫提供了一系列共享的輕量級庫，解決訓練大規(guī)模視覺模型時常見的任務，并包含了幾個使用這些庫的問題特定訓練和評估循環(huán)的項目。Scenic 使用 JAX 和 Flax 進行開發(fā)，支持開發(fā)人員在圖像、視頻、音頻和多模態(tài)組合方面開發(fā)分類、分割和檢測模型。Scenic能識別任意長度的視頻內(nèi)容，并生成詳細描述。針對長視頻，可以在處理完整個視頻前，流式預測視頻內(nèi)容。

　　Scenic 提供了一些功能，包括用于啟動實驗、摘要編寫、日志記錄、性能分析等的樣板代碼;優(yōu)化的訓練和評估循環(huán)、損失函數(shù)、度量、雙部分匹配器等;以及用于流行視覺數(shù)據(jù)集的輸入管道和強大的非注意力基線模型。

　　在 Scenic 中，有一些 SOTA 模型和基線模型，這些模型可能是使用 Scenic 開發(fā)的，也可能是在 Scenic 中重新實現(xiàn)的。一些項目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外，Scenic 還提供了一些重現(xiàn)的基線模型，如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

　　Scenic 的目標是促進大規(guī)模視覺模型的快速原型設計。為了保持代碼簡單易懂且易于擴展，Scenic 更傾向于通過復制粘貼而非增加復雜性或增加抽象來解決問題。只有當功能被證明在許多模型和任務中廣泛有用時，才可能將其上游到 Scenic 的共享庫中。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信