視頻生成器Sora讓人喜憂交加
繼推出ChatGPT后,龍年伊始,OpenAI公司又推出了最新人工智能(AI)模型——文本-視頻程序Sora。這款工具可根據(jù)簡單的文本描述,生成類似好萊塢電影般的逼真而又充滿想象力的視頻。
英國《新科學(xué)家》雜志網(wǎng)站在2月17日的文章中指出,對(duì)Sora的到來,人們可能“既愛又怕”。不少科學(xué)家歡呼其到來,認(rèn)為它將進(jìn)一步推動(dòng)技術(shù)進(jìn)步。但也有人擔(dān)心,Sora會(huì)被別有用心之人用來制造深度偽造視頻,加劇錯(cuò)誤和虛假信息的泛濫。
兩大技術(shù)孵化強(qiáng)大功能
Sora日語意為“天空”,其背后的團(tuán)隊(duì)之所以選擇這個(gè)名字,是因?yàn)樗?ldquo;讓人聯(lián)想到無限的創(chuàng)造潛力”。該系統(tǒng)是生成式AI的一個(gè)最新實(shí)例。生成式AI可即時(shí)創(chuàng)建文本、圖像和聲音。
Sora目前可單獨(dú)使用文本指令,或?qū)⑽谋九c圖像相結(jié)合,來創(chuàng)建長達(dá)60秒的視頻,而且是一鏡到底。比如一段演示視頻依據(jù)如下文字描述生成:一位時(shí)尚女性漫步于充滿城市標(biāo)牌的東京街道上,道路兩邊霓虹燈閃爍,透出陣陣暖意。Sora不僅準(zhǔn)確呈現(xiàn)了細(xì)節(jié),還生成了具有豐富情感的角色。
目前OpenAI官網(wǎng)上已更新了48個(gè)視頻,包括一只狗在雪地里嬉戲,車輛在路上行駛,以及更奇幻的場(chǎng)景,如鯊魚在城市摩天大樓之間游泳等。有專家認(rèn)為,Sora的表現(xiàn)優(yōu)于其他類似模型,標(biāo)志著文本-視頻技術(shù)的巨大飛躍。
為實(shí)現(xiàn)更高水平的真實(shí)感,Sora結(jié)合了兩種不同的AI技術(shù)。一是類似于DALL-E等AI圖像生成器中使用的擴(kuò)散模型,這些模型學(xué)習(xí)將隨機(jī)圖像像素轉(zhuǎn)換為相干圖像;二是“轉(zhuǎn)換器架構(gòu)”技術(shù),其被用于將序列數(shù)據(jù)依據(jù)上下文內(nèi)容拼接在一起。例如,大型語言模型使用轉(zhuǎn)換器架構(gòu)將零散的單詞組裝成人們可理解的句子。OpenAI將視頻片段分解為視覺“時(shí)空補(bǔ)丁”,Sora的轉(zhuǎn)換器架構(gòu)可處理這些補(bǔ)丁。
英偉達(dá)公司高級(jí)研究科學(xué)家范麟熙在社交媒體平臺(tái)X上稱,Sora是一個(gè)可模擬現(xiàn)實(shí)世界的“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”。
仍有諸多完善空間
盡管Sora生成的視頻令人印象深刻,但并非完美無缺。
OpenAI公司坦承,目前Sora模型也有弱點(diǎn)。它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性,且可能無法理解因果關(guān)系。例如,該系統(tǒng)最近生成了一個(gè)人吃餅干的視頻,但餅干怎么吃也沒變小,被咬的餅干也神奇地沒有咬痕。此外,該模型還可能混淆文字提示的空間細(xì)節(jié),也可能難以精確描述隨時(shí)間推移發(fā)生的事件。
美國普林斯頓大學(xué)的阿凡德·納拉亞南指出,Sora生成的視頻在描繪有大量動(dòng)作的復(fù)雜場(chǎng)景時(shí)仍然會(huì)出現(xiàn)一些奇怪的小問題。
或使人真?zhèn)坞y辨
除了加快經(jīng)驗(yàn)豐富的電影制作人的工作速度外,Sora還可能快速廉價(jià)的制造網(wǎng)絡(luò)虛假信息,使人們?cè)诨ヂ?lián)網(wǎng)上更難分辨真?zhèn)巍?br />
OpenAI公司仍在試圖了解Sora的危險(xiǎn)性,因此尚未向公眾發(fā)布該系統(tǒng)。相反,他們正在與為數(shù)不多的學(xué)者和其他外部研究人員分享這項(xiàng)技術(shù),希望借助這些專家的智慧,找到該系統(tǒng)可能被濫用的方式。
OpenAI針對(duì)Sora開展的“紅隊(duì)”演習(xí)中,專家們?cè)噲D破壞AI模型的保護(hù)措施,以評(píng)估其被濫用的可能性。OpenAI發(fā)言人表示,目前參與測(cè)試Sora的都是“在錯(cuò)誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家”。
這項(xiàng)測(cè)試至關(guān)重要,因?yàn)镾ora可能會(huì)被別有用心者用來生成虛假視頻,以騷擾他人,甚至影響政治選舉。學(xué)術(shù)界、商界、政府以及AI專家都很擔(dān)心,AI生成的“深度偽造”內(nèi)容可能會(huì)造成虛假和錯(cuò)誤信息的廣泛傳播。
美國加州大學(xué)伯克利分校的哈尼·法里德認(rèn)為,與生成式AI領(lǐng)域的其他技術(shù)一樣,人們有理由相信,文本-視頻技術(shù)會(huì)持續(xù)改進(jìn)。因?yàn)橐坏㏒ora與由AI驅(qū)動(dòng)的語音克隆技術(shù)相結(jié)合,將為不懷好意者提供全新工具,并創(chuàng)建出逼真的深度偽造內(nèi)容,這將讓人們?cè)絹碓诫y以區(qū)分真?zhèn)巍?br />
OpenAI已經(jīng)在該系統(tǒng)生成的視頻中加上了水印,表明這些視頻是由AI生成的。但該公司也承認(rèn),這些水印可被移除,水印可能難以被發(fā)現(xiàn)。
OpenAI發(fā)言人強(qiáng)調(diào)稱,在將Sora用于OpenAI的產(chǎn)品之前,該公司正在采取幾項(xiàng)重要的安全措施。例如,該公司已使用了自動(dòng)化流程,旨在防止其商業(yè)AI模型生成針對(duì)政客和名人的虛假內(nèi)容。(記者 劉 霞)
繼推出ChatGPT后,龍年伊始,OpenAI公司又推出了最新人工智能(AI)模型——文本-視頻程序Sora。這款工具可根據(jù)簡單的文本描述,生成類似好萊塢電影般的逼真而又充滿想象力的視頻。
英國《新科學(xué)家》雜志網(wǎng)站在2月17日的文章中指出,對(duì)Sora的到來,人們可能“既愛又怕”。不少科學(xué)家歡呼其到來,認(rèn)為它將進(jìn)一步推動(dòng)技術(shù)進(jìn)步。但也有人擔(dān)心,Sora會(huì)被別有用心之人用來制造深度偽造視頻,加劇錯(cuò)誤和虛假信息的泛濫。
兩大技術(shù)孵化強(qiáng)大功能
Sora日語意為“天空”,其背后的團(tuán)隊(duì)之所以選擇這個(gè)名字,是因?yàn)樗?ldquo;讓人聯(lián)想到無限的創(chuàng)造潛力”。該系統(tǒng)是生成式AI的一個(gè)最新實(shí)例。生成式AI可即時(shí)創(chuàng)建文本、圖像和聲音。
Sora目前可單獨(dú)使用文本指令,或?qū)⑽谋九c圖像相結(jié)合,來創(chuàng)建長達(dá)60秒的視頻,而且是一鏡到底。比如一段演示視頻依據(jù)如下文字描述生成:一位時(shí)尚女性漫步于充滿城市標(biāo)牌的東京街道上,道路兩邊霓虹燈閃爍,透出陣陣暖意。Sora不僅準(zhǔn)確呈現(xiàn)了細(xì)節(jié),還生成了具有豐富情感的角色。
目前OpenAI官網(wǎng)上已更新了48個(gè)視頻,包括一只狗在雪地里嬉戲,車輛在路上行駛,以及更奇幻的場(chǎng)景,如鯊魚在城市摩天大樓之間游泳等。有專家認(rèn)為,Sora的表現(xiàn)優(yōu)于其他類似模型,標(biāo)志著文本-視頻技術(shù)的巨大飛躍。
為實(shí)現(xiàn)更高水平的真實(shí)感,Sora結(jié)合了兩種不同的AI技術(shù)。一是類似于DALL-E等AI圖像生成器中使用的擴(kuò)散模型,這些模型學(xué)習(xí)將隨機(jī)圖像像素轉(zhuǎn)換為相干圖像;二是“轉(zhuǎn)換器架構(gòu)”技術(shù),其被用于將序列數(shù)據(jù)依據(jù)上下文內(nèi)容拼接在一起。例如,大型語言模型使用轉(zhuǎn)換器架構(gòu)將零散的單詞組裝成人們可理解的句子。OpenAI將視頻片段分解為視覺“時(shí)空補(bǔ)丁”,Sora的轉(zhuǎn)換器架構(gòu)可處理這些補(bǔ)丁。
英偉達(dá)公司高級(jí)研究科學(xué)家范麟熙在社交媒體平臺(tái)X上稱,Sora是一個(gè)可模擬現(xiàn)實(shí)世界的“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”。
仍有諸多完善空間
盡管Sora生成的視頻令人印象深刻,但并非完美無缺。
OpenAI公司坦承,目前Sora模型也有弱點(diǎn)。它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性,且可能無法理解因果關(guān)系。例如,該系統(tǒng)最近生成了一個(gè)人吃餅干的視頻,但餅干怎么吃也沒變小,被咬的餅干也神奇地沒有咬痕。此外,該模型還可能混淆文字提示的空間細(xì)節(jié),也可能難以精確描述隨時(shí)間推移發(fā)生的事件。
美國普林斯頓大學(xué)的阿凡德·納拉亞南指出,Sora生成的視頻在描繪有大量動(dòng)作的復(fù)雜場(chǎng)景時(shí)仍然會(huì)出現(xiàn)一些奇怪的小問題。
或使人真?zhèn)坞y辨
除了加快經(jīng)驗(yàn)豐富的電影制作人的工作速度外,Sora還可能快速廉價(jià)的制造網(wǎng)絡(luò)虛假信息,使人們?cè)诨ヂ?lián)網(wǎng)上更難分辨真?zhèn)巍?br />
OpenAI公司仍在試圖了解Sora的危險(xiǎn)性,因此尚未向公眾發(fā)布該系統(tǒng)。相反,他們正在與為數(shù)不多的學(xué)者和其他外部研究人員分享這項(xiàng)技術(shù),希望借助這些專家的智慧,找到該系統(tǒng)可能被濫用的方式。
OpenAI針對(duì)Sora開展的“紅隊(duì)”演習(xí)中,專家們?cè)噲D破壞AI模型的保護(hù)措施,以評(píng)估其被濫用的可能性。OpenAI發(fā)言人表示,目前參與測(cè)試Sora的都是“在錯(cuò)誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家”。
這項(xiàng)測(cè)試至關(guān)重要,因?yàn)镾ora可能會(huì)被別有用心者用來生成虛假視頻,以騷擾他人,甚至影響政治選舉。學(xué)術(shù)界、商界、政府以及AI專家都很擔(dān)心,AI生成的“深度偽造”內(nèi)容可能會(huì)造成虛假和錯(cuò)誤信息的廣泛傳播。
美國加州大學(xué)伯克利分校的哈尼·法里德認(rèn)為,與生成式AI領(lǐng)域的其他技術(shù)一樣,人們有理由相信,文本-視頻技術(shù)會(huì)持續(xù)改進(jìn)。因?yàn)橐坏㏒ora與由AI驅(qū)動(dòng)的語音克隆技術(shù)相結(jié)合,將為不懷好意者提供全新工具,并創(chuàng)建出逼真的深度偽造內(nèi)容,這將讓人們?cè)絹碓诫y以區(qū)分真?zhèn)巍?br />
OpenAI已經(jīng)在該系統(tǒng)生成的視頻中加上了水印,表明這些視頻是由AI生成的。但該公司也承認(rèn),這些水印可被移除,水印可能難以被發(fā)現(xiàn)。
OpenAI發(fā)言人強(qiáng)調(diào)稱,在將Sora用于OpenAI的產(chǎn)品之前,該公司正在采取幾項(xiàng)重要的安全措施。例如,該公司已使用了自動(dòng)化流程,旨在防止其商業(yè)AI模型生成針對(duì)政客和名人的虛假內(nèi)容。(記者 劉 霞)