SORA再放大招？讓馬斯克認輸，AI到底有多猛？

2024年02月20日 11:20:00 來源：DoNews

　　回顧剛剛過去的2023年，如果要問什么東西最火的話，大模型肯定是其中最靚的仔，就在最近用GPT引爆全球大模型賽道的OPEN AI再度給市場一記重拳，甚至連馬斯克都不得不愿賭服輸，這就是全新的視頻生成大模型，這個全新的大模型到底有多猛?我們該如何看待這件事?

　　一、視頻生成大模型再放大招?

　　據(jù)每日經濟新聞的報道，據(jù)OpenAI官網，OpenAI首個視頻生成模型Sora發(fā)布，完美繼承DALL·E 3的畫質和遵循指令能力，能生成長達1分鐘的高清視頻。

　　AI想象中的龍年春節(jié)，紅旗招展人山人海。有緊跟舞龍隊伍抬頭好奇觀望的兒童，還有不少人掏出手機邊跟邊拍，海量人物角色各有各的行為。一位時髦女士漫步在東京街頭，周圍是溫暖閃爍的霓虹燈和動感的城市標志。

　　一名年約三十的宇航員戴著紅色針織摩托頭盔展開冒險之旅，電影預告片呈現(xiàn)其穿梭于藍天白云與鹽湖沙漠之間的精彩瞬間，獨特的電影風格、采用35毫米膠片拍攝，色彩鮮艷。

　　OpenAI表示，公司正在教授人工智能理解和模擬運動中的物理世界，目標是訓練出能夠幫助人們解決需要與現(xiàn)實世界互動的問題的模型。在此，隆重推出文本到視頻模型——Sora。Sora可以生成長達一分鐘的視頻，同時保證視覺質量和符合用戶提示的要求。

　　Sora模型能夠生成包含多個角色、特定類型運動和主體及背景精確細節(jié)的復雜場景。該模型不僅能理解用戶在提示中所要求的內容，還能理解這些事物在現(xiàn)實世界中的存在方式。

　　對于這款全新的產品，世界知名企業(yè)家馬斯克也不吝贊美之詞，馬斯克回應稱：“gg人類(gg humans)。”據(jù)媒體引申，gg是網絡游戲用語“goodgames”的縮寫，主要用于游戲結束后，輸贏雙方都可以用。但現(xiàn)在多由失敗方發(fā)出，表示認賭服輸、心服口服的意思。在馬斯克帖子的評論區(qū)里，還有用戶附和道：“gg好萊塢”。

　　360集團創(chuàng)始人、董事長周鴻祎在微博發(fā)文談文生視頻模型Sora。周鴻祎認為，Sora意味著AGI實現(xiàn)將從10年縮短到1年。他分析說，OpenAI訓練這個模型應該會閱讀大量視頻，大模型加上Diffusion技術需要對這個世界進行進一步了解，學習樣本就會以視頻和攝像頭捕捉到的畫面為主。一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube上和TikTok的視頻都看一遍，對世界的理解將遠遠超過文字學習，一幅圖勝過千言萬語，而視頻傳遞的信息量又遠遠超過一幅圖，這就離AGI真的就不遠了，不是10年20年的問題，可能一兩年很快就可以實現(xiàn)。

　　二、Sora到底有多猛?

　　隨著科技的飛速發(fā)展，人工智能(AI)已經成為了當今世界最為熱門的話題之一。其中，OpenAI的ChatGPT和Sora等模型的出現(xiàn)，更是顛覆了我們的認知，Sora的出現(xiàn)到底意味著什么?當馬斯克都要認輸?shù)臅r候我們到底該怎么看?

　　首先，Sora的出現(xiàn)無疑是另一大里程碑。ChatGPT作為OpenAI研發(fā)的里程碑式語言模型，其強大的自然語言處理能力和對上下文理解的深度，在推出后迅速引發(fā)了全球范圍內的廣泛關注和熱議。ChatGPT不僅能夠流暢對話、解答問題，還能生成具有邏輯性和創(chuàng)造性的文本內容，這一突破性進展讓人們看到了人工智能在認知智能領域取得的重大飛躍。

　　緊隨ChatGPT之后，OpenAI又推出了視頻生成模型Sora，該模型更是將AI技術推到了一個全新的視覺維度。Sora憑借其創(chuàng)新的文本到視頻轉換能力，使得AI從理解和生成文本躍升至創(chuàng)作高清視頻內容的新高度。通過理解用戶輸入的文字描述，Sora可以自動生成包括復雜場景、多角色動態(tài)交互在內的長達一分鐘的流暢高清視頻，這標志著OpenAI在跨模態(tài)學習與生成方面取得了重大突破。

　　其次，Sora的最大突破還是在于理解人類語言并且通感成為視頻。Sora模型的核心優(yōu)勢體現(xiàn)在它能夠理解人類語言輸入，并基于這種理解進行視頻內容的創(chuàng)造性生成。通過深度學習和跨模態(tài)技術，Sora能夠將文本描述中的抽象概念、情境、甚至是情感色彩映射到視覺表達上，生成與描述相匹配且具有一定連貫性的視頻片段。

　　盡管目前生成的視頻可能在細節(jié)處理、物理真實感或者復雜交互場景等方面還存在不完善之處，但其突破性在于首次實現(xiàn)了從文本到高質量視頻內容的有效轉化，這為內容創(chuàng)作者提供了一種全新的工具，大大提升了創(chuàng)意表達的效率和可能性。此外，Sora的應用價值也體現(xiàn)在教育、娛樂、廣告設計等眾多領域中，它有可能重塑這些行業(yè)的生產方式，并為未來更加智能化的內容創(chuàng)作打下堅實基礎。

　　第三，視頻的變革可能遠超過文字的變革，而且速度會更快。在當前的互聯(lián)網時代，視頻已經成為人們獲取信息、娛樂休閑的主要方式之一。每天都有大量的視頻內容被上傳到網絡上，涵蓋了新聞、教育、娛樂、廣告等各個領域。這些豐富的視頻資源為大模型的學習提供了寶貴的素材。

　　通過對這些視頻進行深度學習和分析，大模型可以不斷地提取和總結視頻中的視覺元素、場景轉換、敘事結構等規(guī)律，從而提高自身的生成能力。同時，大模型還可以利用這些視頻資源進行自我迭代和優(yōu)化，不斷提升自身的性能和效率。

　　隨著Sora等大模型的快速普及和應用，我們可以預見一場行業(yè)變革正在醞釀之中。對于內容創(chuàng)作者來說，大模型將極大地提高他們的創(chuàng)作效率和質量，降低創(chuàng)作成本。他們只需輸入簡短的文字描述或創(chuàng)意想法，就可以快速生成符合要求的視頻內容，大大節(jié)省了時間和精力。

　　對于廣告公司、影視制作公司等企業(yè)來說，大模型將為他們帶來更多的商業(yè)機會和創(chuàng)新空間。他們可以利用大模型快速生成廣告宣傳片、宣傳片等視頻內容，提高品牌曝光度和用戶黏性。同時，大模型還可以幫助他們實現(xiàn)個性化定制服務，滿足客戶的個性化需求。

　　第四，人類到底該怎么辦?隨著人工智能技術的不斷發(fā)展和普及，嚴防死守來防止其應用已經變得不再現(xiàn)實。從長遠來看，更好的策略是積極地去理解和利用人工智能，而不是試圖阻止它的發(fā)展。

　　一方面，人工智能在很多領域已經展現(xiàn)出了巨大的潛力和價值。例如，在醫(yī)療領域，人工智能可以幫助醫(yī)生進行疾病診斷和治療方案制定;在交通領域，人工智能可以提高交通流量和安全性;在金融領域，人工智能可以幫助進行風險評估和投資決策等。因此，通過積極利用人工智能，人類可以創(chuàng)造更多的價值，提高生活質量。

　　另一方面，理解和利用人工智能也需要人類不斷地進行探索和創(chuàng)新。隨著人工智能技術的不斷發(fā)展，新的應用場景和商業(yè)模式也將不斷涌現(xiàn)。通過不斷學習和實踐，人類可以更好地掌握人工智能的技術和應用，推動其與社會、經濟、文化等各個領域的深度融合。

　　因此，與其盲目地抗拒人工智能，不如積極地去理解和利用它。通過不斷學習和創(chuàng)新，人類可以更好地掌握人工智能的技術和應用，推動其與社會各個領域的深度融合，這樣才是人工智能時代真正的生存之道。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信