您的位置：首頁 > 新聞 > 高新技術(shù) > 新聞詳情

OpenAI CTO：Sora今年將發(fā)布會添加語音功能

時間：2024-03-14 22:25:24

來源：網(wǎng)易科技
作者：網(wǎng)易科技
編輯：豆角

美國當?shù)貢r間周三，人工智能初創(chuàng)公司OpenAI的首席技術(shù)官米拉·穆拉蒂（Mira Murati）接受了媒體記者專訪。在采訪中，她談到了該公司最新文本轉(zhuǎn)視頻工具Sora，這款產(chǎn)品預(yù)計將于今年晚些時候向公眾發(fā)布，同時還會添加語音功能;此外在發(fā)布前，團隊將對其進行優(yōu)化，以降低計算資源消耗。

以下為翻譯全文：

某個清晨醒來時，你是否曾幻想過一頭公牛在精致的瓷器店中悠然自得地行走的場景?要實現(xiàn)這一奇幻景象，你有三種途徑：

A）聯(lián)系當?shù)氐膭游锺Z養(yǎng)師以及知名家居品牌Crate & Barrel;

B）雇請頂尖的好萊塢動畫制作人;

C）使用神奇的AI工具Sora，簡單輸入指令即可。

歡迎進入人工智能的下一個“魔法世界”。在這里，你的語言能夠化作逼真、流暢且細膩的視頻畫面。

OpenAI計劃在今年晚些時候向大眾推出其文本到視頻的轉(zhuǎn)換工具Sora。盡管正式發(fā)布尚需時日，但OpenAI已經(jīng)向我們揭示了這款工具的驚人潛力：僅需精心設(shè)計的文本指令，便可創(chuàng)造出幾乎足以替代許多視頻制作專業(yè)人員的作品?！度A爾街日報》專欄作家喬安娜·斯特恩（Joanna Stern）向該公司提交了幾條由她自己編寫的提示，比如一條美人魚和她的螃蟹伙伴評測智能手機，或是一頭公牛在精致的瓷器店內(nèi)自由漫步。

斯特恩隨后親身體驗了Sora的神奇之處，她利用這款工具制作了一段模擬對OpenAI首席技術(shù)官穆拉蒂進行虛擬視頻采訪的片段，兩人深入剖析了這些有趣的問題，并對該技術(shù)的潛在問題進行了探討。

OpenAI在上個月首次展示了用其生成式人工智能工具制作的視頻預(yù)覽，整個互聯(lián)網(wǎng)為之沸騰。與之前那些斷斷續(xù)續(xù)、分辨率低下的人工智能視頻技術(shù)相比，Sora生成的內(nèi)容無疑是一場視覺盛宴，堪比高品質(zhì)的自然紀錄片或大制作電影。

與之前的人工智能技術(shù)相似，Sora首先讓我們對其能力感到驚嘆，隨即又擔憂其對社會的影響。面對斯特恩的擔憂，穆拉蒂向她保證，OpenAI在發(fā)布這一強大工具時將采取慎重的步驟。但這并不意味著一切都將無憂無慮。

這些超逼真視頻真的是Sora生成的嗎?

斯特恩對Sora生成的視頻感到深深震撼：從無人機視角拍攝的意大利阿馬爾菲海岸的壯觀景色，到手持自拍桿的柯基犬，再到?jīng)_浪板上活潑的動畫水獺，這些畫面無一不展示了Sora在創(chuàng)意和細節(jié)處理上的強大能力。她進一步挑戰(zhàn)Sora，要求它生成更接近日常生活的場景：“兩名30多歲、棕發(fā)的職業(yè)女性在一個明亮的演播室里坐下接受新聞采訪?！?

Sora生成的視頻中，兩位女性的嘴唇和頭發(fā)動作自然流暢，皮夾克的細節(jié)也清晰可見。穆拉蒂透露，這段20秒長、720P分辨率的視頻僅用了幾分鐘就完成了生成，盡管目前還未加入聲音。但她承諾，OpenAI正在計劃為Sora增添語音功能。

為了對比Sora與其他工具的區(qū)別，斯特恩也在另一個AI視頻生成器Runway上輸入了相同的提示。然而，得到的結(jié)果大相徑庭，Runway生成的畫面是兩個模糊、幽靈般的女性形象，它們看起來像是直接從惡夢中走出來的，令人毛骨悚然。

那么，Sora究竟是如何實現(xiàn)這一神奇轉(zhuǎn)換的呢?盡管解釋其內(nèi)部工作原理可能比解釋美人魚的進化還要復(fù)雜，但簡單來說，Sora背后的AI模型通過分析大量視頻數(shù)據(jù)，學(xué)會了識別和理解各種物體與動作。輸入文本提示后，模型能夠迅速勾勒出整個場景的基本輪廓，并逐幀添加細節(jié)。

行業(yè)觀察人士和競爭對手，包括Runway的首席執(zhí)行官，都認為OpenAI的這些顯著成就歸功于其巨大的計算資源和龐大的訓(xùn)練數(shù)據(jù)量。但OpenAI最近也面臨著版權(quán)侵犯的指控，因未經(jīng)授權(quán)使用大量在線內(nèi)容訓(xùn)練其ChatGPT模型。

當被問及OpenAI為訓(xùn)練Sora使用了哪些數(shù)據(jù)時，穆拉蒂表示：“我們主要使用了公開可獲取的數(shù)據(jù)及已授權(quán)數(shù)據(jù)。”。當被進一步追問這些數(shù)據(jù)是否包括YouTube、Instagram和Facebook上的視頻時，穆拉蒂表示她并不清楚具體細節(jié)，但后來確認，已授權(quán)的材料確實包含了知名版權(quán)圖片網(wǎng)站Shutterstock上的內(nèi)容。

人工智能模型對普通用戶來說往往是個神秘的黑匣子。我們看到的是輸入和輸出，而中間的處理過程則不得而知。因此，我們可能永遠無法完全理解為何生成的內(nèi)容展現(xiàn)出某些特定的風格或特征。例如，斯特恩提到的那條美人魚身旁的甲殼類伙伴留著類似《海綿寶寶》中蟹老板的胡須，這是否是模型的創(chuàng)新還是某種偶然?

穆拉蒂還告訴斯特恩，當前Sora生成視頻的成本遠高于該公司的圖像生成器Dall-E。但她承諾，在Sora正式向公眾發(fā)布前，團隊將對其進行優(yōu)化，以降低計算資源消耗。

如何識別人工智能生成視頻?

在當前的早期階段，人工智能生成的內(nèi)容中還存在一些明顯的瑕疵。

例如，在Sora生成的采訪視頻中，一位淺發(fā)色女子的一只手似乎多出了五根手指。對此，穆拉蒂解釋道：“準確再現(xiàn)手部運動真的很難?！?

在另一次測試中，斯特恩期望看到一個機器人從電影制片人手中奪走攝像機的場景。但Sora生成的是一位人類電影制片人突變成機器人，場面顯得突兀且不自然。更有甚者，背景中的黃色出租車也不知怎的變成了銀色轎車。穆拉蒂承認模型“在維持連貫性方面表現(xiàn)尚可，但并不完美”。

這引出了一個深刻的議題：當這些缺陷得到修正，人工智能生成的視頻愈發(fā)逼真時，我們?nèi)绾螀^(qū)分真實與人工智能生成的視頻?

Sora生成的每個視頻下方都會有一個水印。穆拉蒂解釋說，最終這些視頻還將包含元數(shù)據(jù)，以標示其生成方式和來源。此外，OpenAI設(shè)有一個名為“Sora紅隊”的安全測試小組。該團隊的職責是提供各種提示，探索潛在的漏洞、偏見和其他可能的有害結(jié)果。穆拉蒂說：“這就是我們目前還沒有廣泛部署這些系統(tǒng)的原因。我們需要先弄清楚這些問題，然后才能放心地將其推向市場?！?

就Sora的提示詞政策而言，穆拉蒂透露，它可能借鑒OpenAI的另一工具Dall-E的做法。例如，為了防止濫用和侵犯隱私，用戶將無法使用Sora來生成公眾人物的形象。當斯特恩試圖輸入“在任美國總統(tǒng)的電視新聞畫面”時，Sora拒絕了這一請求。

斯特恩也嘗試讓Sora生成“在東歐小鎮(zhèn)上行走的士兵”的視頻，但也遭到了拒絕。對于裸露等敏感內(nèi)容的提示，穆拉蒂表示OpenAI正在與藝術(shù)家和專家緊密合作，共同探討如何在不阻礙創(chuàng)意表現(xiàn)的同時，設(shè)立合理的“護欄和限制”。

將與好萊塢合作

隨技術(shù)發(fā)展，像Sora這樣的AI工具將變得更強大、更精細。這種進步可能會改變傳統(tǒng)的工作方式，如無人機操作員或插畫家的角色，引起好萊塢既期待又憂慮的反響。

演員、電影制片人和工作室老板泰勒·佩里（Tyler Perry）表示，看到Sora的潛力后，他宣布暫停耗資8億美元的工作室擴建計劃。他認為這項技術(shù)能夠削減布景和外景拍攝的成本，但同時也對電影行業(yè)和演員的未來抱有擔憂。

代表好萊塢和全美各地動畫藝術(shù)家的動畫協(xié)會主席珍妮特·莫雷諾·金（Jeanette Moreno King）也稱，盡管藝術(shù)創(chuàng)作決策仍需人類參與和判斷力，未來卻是充滿不確定性的迷霧。

愛德華·薩奇（Edward Saatchi）及其人工智能視頻工作室Fable正夢想打造一個AI版Netflix：僅需輸入一段文本提示，便可呈現(xiàn)完整的電視劇集。

對于Sora對視頻制作行業(yè)的潛在影響，穆拉蒂重申了OpenAI采取的緩步審慎策略。她表示，OpenAI正在與行業(yè)內(nèi)部人士合作，進行早期的測試和反饋征集，希望全球的電影制作者和創(chuàng)作者能加入這一探索過程，共同促進電影產(chǎn)業(yè)的發(fā)展。

如果將OpenAI比作一開始提到的那頭在瓷器店里自由漫步的公牛，那么它目前可能需要小心行事。但最終，它可能不可避免地將帶來一些破壞。