中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 業(yè)界新聞

    我們是否需要視頻搜索

    2021年03月04日 14:42:27   來源:品玩

      這個片段的出處是哪兒?這種問題就像是手撓不到后背的癢。

      大部分時候,遇到這樣的情況,你可以做的就是把視頻里的金句摘出來,用文字去網(wǎng)上問。不然,就截圖去搜索引擎或者視頻平臺上搜。兩者的前提都是把你看到的視頻片段再降些維度,抽象成更簡單的東西。但如果碰上冷門的視頻或者視頻中的語言你無法聽懂,難題就來了。

      所以,能不能直接用視頻搜視頻呢?

      文字搜萬物

    1.jpg

      目前來看,人們討論的“視頻搜索”更多依托于傳統(tǒng)的輸入文字完成搜索的模式。

      抖音方面此前表示,抖音搜索在技術(shù)上會重點關(guān)注多模態(tài)信號補充,基于此,有兩項技術(shù)在輔佐著這種傳統(tǒng)意義上的視頻搜索的精確性——OCR(光學(xué)文字識別)和ASR(語音識別)。

      OCR全稱Optical Character Recognition,直白點說就是能把圖像中的(換到視頻就是其中某幾楨)出現(xiàn)的文字識別出來。路況監(jiān)控讀取車牌,拍照上傳銀行卡面讀取卡號都是這項技術(shù)的日常應(yīng)用。目前常用的OCR庫有Google的開源項目tesseract以及微軟提供API的Azure。在國內(nèi)機器學(xué)習(xí)技術(shù)頂尖的百度也在去年開源了自己的OCR庫PaddleOCR。

      ASR(Automatic Speech Recognition)則與OCR對應(yīng),可以用于將視頻內(nèi)容中的語音內(nèi)容提取出來,成為被檢索的標(biāo)記。SIRI與微信語音轉(zhuǎn)文字都是這項技術(shù)的應(yīng)用。

      但這兩項技術(shù)實際上只能完成最淺的視頻搜索情景,它們的基礎(chǔ)是“我知道我要看的東西叫什么”,并且最好視頻本身已經(jīng)預(yù)制了文本標(biāo)簽。

      如果只是依靠OCR與ASR技術(shù),同樣的一只老虎在理論上需要脖子上掛一塊牌子寫著“老虎”才能被搜索出來。并且很可能脖子上寫的是“我不是老虎”的那些,也會出現(xiàn)在搜索結(jié)果里。

      但比如我想要搜索電影《機器人總動員》里的“瓦力”,又不知道電影和機器人的名字,我可能就只能搜“長得一個垃圾桶的機器人”,然后期待茫茫人海中有人給“瓦力”標(biāo)記“垃圾桶”,之后托付給偉大的機器學(xué)習(xí)。

      而它仍然很有可能把天行者盧克身邊的R2-D2推給我。

      其實谷歌在2017年就已經(jīng)對視頻搜索技術(shù)做了推進。

      當(dāng)時的Google Cloud Next云端大會上,谷歌公開了一個基于深度機器學(xué)習(xí)的視頻技術(shù)應(yīng)用Cloud Video Intelligence API。當(dāng)時的谷歌副總裁李飛飛現(xiàn)場演示了谷歌在深度機器學(xué)習(xí)的基礎(chǔ)上,已經(jīng)可以做到在視頻中精確定位某個客體出現(xiàn)的時間。

      這項技術(shù)在視頻搜索上的意義是可以將純粹的圖像信息進行歸類,讓它們可以被檢索。比如搜索“老虎”,在視頻資料庫中所有與老虎相關(guān)的視頻都會被標(biāo)記并且按相關(guān)程度列出。這項技術(shù)解決了搜索過程中只能將一切轉(zhuǎn)化為文字再進行機器學(xué)習(xí)或者匹配的一般邏輯,李飛飛也視其為“黑暗中為數(shù)字世界點燃一盞燭光”。

      同樣是2017年,阿里文娛和達摩院在視頻搜索上也進行了關(guān)于語言、語音等多模態(tài)視頻搜索的實踐。其中一個技術(shù)方案是利用人臉識別的技術(shù),識別出視頻中出現(xiàn)的人物如黃子韜、易烊千璽,“再通過 OCR/ASR 技術(shù),識別各視頻中的對話內(nèi)容并轉(zhuǎn)化成文本,然后基于文本去做結(jié)構(gòu)化理解”。

      2019年事情又往前推進了一步。谷歌開始嘗試在涉及Youtube的英文視頻搜索中直接顯示視頻中段的相關(guān)內(nèi)容。Engadget的報道稱,這意味著如果你要搜索某支曲子,搜索結(jié)果會顯示某場包含這首曲子的音樂會,并且進度條直接拉到這首曲子的位置。

      但這項技術(shù)目前仍然依賴上傳者在視頻中手動添加時間標(biāo)記。并且這樣的技術(shù)本質(zhì)上仍然是將其他模態(tài)形式的信息轉(zhuǎn)譯成文本,并沒有動搖傳統(tǒng)搜索模式以文字輸入為基礎(chǔ)的基本形態(tài)。

      丟掉文字,視頻搜視頻?

      回到開頭的問題,我如果手頭上只有一個視頻片段,要怎么搜索呢?依賴文字輸入的搜索功能并不能完成這個任務(wù)。這時候只能以視頻搜索視頻。

      現(xiàn)實的情況是,把一整個視頻作為搜索依據(jù)還有點難,不過可以將視頻定格在某一楨,而這其實就是現(xiàn)在已經(jīng)隨處可見的圖片搜索。

      圖片搜索最早要追溯到28年前。

      1992年,日本學(xué)者T.Kato在一篇論文里首次提出了基于內(nèi)容的圖像檢索(CBIR)概念。CBIR技術(shù)通俗來說是一種匹配技術(shù)。在輸入一個樣本圖片文件時,將圖像中的色彩(顏色直方圖、顏色一致性矢量等參數(shù))、形狀(面積、曲率等)和紋理等信息進行特征提取,進行編碼,然后將圖像編碼放到信息庫中去尋找相似圖像。

      基于此,IBM Aimaden研究中心開發(fā)了第一個商用的CBIR系統(tǒng)QBIC。谷歌也在2001年推出了圖片搜索服務(wù)。而在精確度方面的發(fā)展,則托付給了深度學(xué)習(xí)技術(shù)。

      抖音在2019年曾推出過抖音識圖的功能,通過人臉識別技術(shù),用戶搜索到一則短視頻中出現(xiàn)人物的所有抖音視頻。但抖音推出識圖功能的主要動力還是其在電商方面的潛力。利用這項技術(shù),抖音博主自己帶貨的衣服可以直接被識別出來鏈接到商品,節(jié)約了中間更多的跳轉(zhuǎn)步驟。

      而在2020年,阿里巴巴淘系技術(shù)部與北京大學(xué)前沿計算研究中心CVDA實驗室、英國愛丁堡大學(xué)等合作,正式開源業(yè)界首個大規(guī)模的多模態(tài)直播服飾檢索數(shù)據(jù)集(Watch and Buy)。借助PixelAI 商品識別算法,商品的圖片識別已經(jīng)可以被應(yīng)用在直播環(huán)境中。

      但圖片搜索所面臨的風(fēng)險也高于文字,美國媒體DIGITAL TREND在抖音識圖上線后不久就表示出對于私人視頻信息安全的質(zhì)疑,而這個實驗性的功能目前也已經(jīng)從抖音的側(cè)欄里下線。

      不過,這些技術(shù)已經(jīng)基本能滿足大多數(shù)的視頻搜索需求。可以看出,目前的搜索邏輯都是從低維到高維(文字搜圖片,圖片搜視頻),在各種媒介形式中,視頻是復(fù)雜程度最高的。另一方面,視頻形式對于用戶來說完成度太高,把所有東西都揉在一起。如果能通過搜索功能把與視頻相關(guān)的文字和圖片搜索結(jié)果拆解出來,這可能才是視頻媒介越來越成為主流之后,我們對視頻搜索的期待。

      但鑒于在視頻在保存和格式統(tǒng)一上的高門檻,其作為搜索輸入端的價值不高。并且由于版權(quán)限制,視頻素材未來會越來越被各個平臺圈地保護,這又導(dǎo)致視頻搜索先天性地只能變成某種形式的站內(nèi)搜索,而失去了作為一個開放搜索平臺的內(nèi)容寬度。

      所以無論怎么看,用視頻搜索內(nèi)容可能仍然是個遙遠的事情。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。