OpenAI時隔一年再出“王炸”

中美AI差距緣何再度拉大？

2026-04-16 09:39:30

　　本報記者樊三彩

　　“一隻狼對著月亮嚎叫，感到孤獨，直到它找到狼群。”

　　“一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。”

　　“一yi隻zhi貓mao叫jiao醒xing熟shu睡shui的de主zhu人ren，要yao求qiu吃chi早zao餐can。主zhu人ren試shi圖tu忽hu視shi這zhe隻zhi貓mao，但dan貓mao嚐chang試shi了le新xin的de策ce略lve，最zui後hou主zhu人ren從cong枕zhen頭tou下xia拿na出chu秘mi密mi藏zang匿ni的de零ling食shi，讓rang貓mao再zai呆dai一yi會hui兒er。”

　　…………

　　能想象嗎，這些清晰流暢的視頻場景，竟然出自一款人工智能模型。2月16日，OpenAI時隔一年再出“王炸”，宣布推出全新的生成式人工智能模型Sora。該模型可以直接輸出長達60秒的視頻，並且包含高度細致的背景、複雜的多角度鏡頭，以及富有情感的多個角色。截至目前，其官網已經更新48個類似的視頻demo（樣片）。

　　這一突破引起業內人士廣泛關注的原因在於，2021年初和2022年末，OpenAI先後推出了圖像生成係統DALL·E和聊天機器人ChatGPT。此次則是繼圖像、文本之後，將先進的AI（人工智能）技術拓展到了視頻領域，視頻相關業務或將首當其衝。工業4.0研究院院長胡權告訴《中國冶金報》記者：“當國內還掙紮在4秒AI視頻的連貫性的邊緣時，OpenAI已經可以製作60秒的視頻了。當我們以為快要追趕上他們的腳步時，突然發現差距正在越來越大。”

　　中美AI差距或在加大

　　基礎研究不到位是關鍵

　　通過文字生成視頻，對於大模型而言，難在哪裏？華為技術有限公司運營商服務解決方案規劃部客戶技術總監顧廷權表示：“sora是根據人的文字描述（類似簡單劇本）生成相應的視頻（類似MV電影），這就需要為模型訓練數據做高描述性的標注，大模型不僅要理解提示的內容，還要構建這些內容在物理世界中的存在方式。”

　　OpenAI發布的Sora核心論文顯示，Sora采用了一種Transformer架構，能夠處理視頻和圖像潛在編碼的時空片段。它創新應用了多項技術，如實現視覺數據創新轉化的補片技術（先將視頻數據壓縮到低維度潛在空間，再將其分解成時空補片，進而實現從視頻到補片的轉化）、視頻生成的Transformer擴展技術等。

　　“同樣是生成虛擬空間，其實數字孿生相較於Sora的難度更高。”顧廷權剖析道，“數字孿生與自動駕駛類似，可以劃分為若幹成熟度等級（如L0、L1、L2、L3、L4等），目前大多數字孿生都在L2級以下，僅實現了可視化和虛實簡單交互等功能。”胡權同樣認為：“相較於數字孿生體的先進應用（不是當前一些人認為的可視化或局部的仿真），OpenAI做的東西還沒有涉及物理世界，難度當然要小得多。”

　　同tong時shi，我wo國guo也ye在zai大da力li發fa展zhan人ren工gong智zhi能neng大da模mo型xing，據ju不bu完wan全quan統tong計ji，目mu前qian已yi達da上shang百bai個ge。既ji然ran如ru此ci，為wei何he中zhong美mei人ren工gong智zhi能neng領ling域yu差cha距ju始shi終zhong存cun在zai，並bing且qie再zai度du加jia大da？360創始人周鴻禕微博發文認為：“盡管國內大模型發展水平表麵看已經接近GPT-3.5，但實際上跟4.0比還有一年半的差距。OpenAl手裏應該還有一些秘密武器，無論是 GPT-5，還是機器通過自我學習自動產生內容，奧特曼（OpenAI CEO）是個營銷大師，知道怎樣掌握節奏，他們手裏的武器並沒有全拿出來。這樣看來，中國跟美國的AI差距可能還在加大。”

　　在胡權看來，基礎研究不到位是差距形成的關鍵所在。“由於ChatGPT-3.5已經實現開源，國內很多大模型公司都在這一基礎上開展研究，這意味著我們在沿著別人的技術路徑前進，因而很難實現超越。”他ta表biao示shi，目mu前qian國guo內nei存cun在zai一yi種zhong資zi源yuan錯cuo配pei的de現xian象xiang，如ru很hen多duo科ke研yan院yuan所suo也ye在zai開kai展zhan大da模mo型xing應ying用yong研yan究jiu以yi圖tu盈ying利li，當dang前qian的de科ke研yan體ti製zhi導dao致zhi我wo們men很hen難nan形xing成cheng開kai創chuang性xing的de突tu破po。此ci外wai，新xin型xing的deAI發展需要大量投資，目前國內的投資強度遠遠不夠；chanyehuanjingbuliyuchuangxin，liru，jianguanguoyuyange，qiyewufadifengxianshicuo。tajianyi，guojiatongguoshelijijindefangshilaizhichirengongzhinengdefazhan，erbushizhidingqiyehuoxiangmu，zheyangcainengrangnaxiezhenzhengyoushilidexiangmuyongxianchulai。

　　AGI不再遙遠工業應用猶可期

　　值得注意的是，Sora並非完美。正如公開的核心論文所說：“作為一個模擬器，Sora當dang前qian還hai有you許xu多duo局ju限xian。比bi如ru，它ta無wu法fa精jing確que模mo擬ni像xiang玻bo璃li破po碎sui這zhe樣yang的de基ji本ben物wu理li互hu動dong。有you些xie互hu動dong，比bi如ru吃chi東dong西xi，並bing不bu總zong能neng正zheng確que反fan映ying物wu體ti狀zhuang態tai的de改gai變bian。我wo們men在zaiOpenAI Sora 介紹頁中詳細列出了模型的其它常見失誤，包括長時間視頻樣本中出現的不一致性或物體的突然出現等問題。”

　　即使存在這樣的局限，也無法掩蓋其依舊是一款劃時代的人工智能模型，依舊是“向著創建能夠模擬物理世界的通用工具邁出的有前途的一步”。

　　周鴻禕認為，Sora 的誕生意味著實現 AGI（通用人工智能）可能從10 年縮短至一兩年。“有了大模型技術作為基礎，再加上人類知識的引導，可以創造各個領域的超級工具，例如在生物醫學、蛋白質、基因研究以及物理、化學、數學的學科研究上，大模型都會發揮作用。”他表示。

　　科技創業公司研究機構PitchBook估計，2023年全球生成式AI的市場規模將達到426億美元，2026年則將達到981億美元，未來增長動能可期。而不斷湧現的生成式人工智能，其對於人類的影響每次都會引發廣泛關注與討論。

　　周鴻禕表示，這次OpenAI利用它的大語言模型優勢，讓Sora實現了對現實世界的理解和對世界的模擬兩層能力，這樣產生的視頻才是真實的，才能跳出2D的範圍模擬真實的物理世界。“這次 Soraduiwulishijiedemoni，zhishaojianghuiduijiqirenjushenzhinenghezidongjiashidailaijudadeyingxiang。yuanlaidezidongjiashijishuguoduqiangtiaoganzhicengmian，ermeiyougongzuozairenzhicengmian。qishirenzaijiashiqichedeshihou，henduopanduanshijiyuduizhegeshijiedelijie。biruduifangdesuduzenmeyang，nengfoufashengpengzhuang，pengzhuangyanzhongxingruhe，ruguomeiyouduishijiedelijiejiuhennanshixianzhenzhengdewurenjiashi。”他說。

　　“在大模型與人類或企業的關係上，如果大模型良性發展，會成為人類的AI助手；反之，會被大量濫用，再由國家力量禁止或打擊。”胡權指出。

　　至於在工業上的應用，胡權表示：“通過文字生成視頻，已經沒有原理上的障礙了，但工程上的困難還比較多：一是設計一個應用係統，這裏麵涉及一些類似黑箱的模塊，看起來OpenAI不會開源；二是需要用數據來訓練算法，否則無法生成好的結果，類似ChatGPT的模型算法一樣；三是計算能力，跟隨者需要擁有類似的計算能力。”

　　相關鏈接

　　AI在讚比亞

　　探測到巨型銅礦

　　2月初，利用AI勘探銅、鋰等綠色轉型所需金屬的矽穀獨角獸KoBold Metals宣布，公司在讚比亞Mingomba項目上發現了巨型銅礦儲量。這家公司背後的投資者是由比爾·蓋茨牽頭，貝索斯、馬雲、孫正義、達利歐、布隆伯格等人參與投資的突破能源風險投資基金，以及普徠仕等知名機構和挪威國家石油公司。

　　據悉，該公司利用AI技術大量讀取分析所有地球衛星拍攝的地質圖片、激(ji)光(guang)地(di)球(qiu)掃(sao)描(miao)數(shu)據(ju)，以(yi)及(ji)全(quan)球(qiu)的(de)地(di)震(zhen)波(bo)數(shu)據(ju)，並(bing)用(yong)時(shi)一(yi)年(nian)重(zhong)新(xin)繪(hui)製(zhi)了(le)一(yi)張(zhang)精(jing)細(xi)無(wu)比(bi)的(de)全(quan)球(qiu)地(di)殼(ke)礦(kuang)藏(zang)分(fen)布(bu)圖(tu)，並(bing)借(jie)此(ci)在(zai)讚(zan)比(bi)亞(ya)探(tan)測(ce)到(dao)一(yi)個(ge)巨(ju)型(xing)銅(tong)礦(kuang)。

　　多家科技企業承諾打擊

　　濫用人工智能幹擾選舉

　　2月16日，全球多家科技企業在第60屆慕尼黑安全會議(慕安會)上簽署協議，承諾在2024nianzhegeduoguojuxingzhongyaoxuanjudenianfendajizhizaiganraoxuanjuderengongzhinenglanyongxingwei。rengongzhinengdefumianyingxiangbeicijiemuanhuilieweiquanqiuzhuyaoanquanweixiezhiyi。

　　微軟將在德國投資

　　32億歐元發展人工智能

　　2月15日，微軟公司總裁在德國首都舉行的一次活動上表示，未來兩年，微軟將在德國投資32億歐元，重點發展人工智能。作為該公司過去40年來在德國進行的最大一筆投資，微軟將在2024年和2025年把大部分資金用於建立數據中心和培訓人工智能人才。

　　日本計劃2024年

　　引入生成式人工智能立法

　　近日，據日經新聞報道稱，日本執政黨自民黨計劃在2024年提議政府引入生成式人工智能立法。

　　《中國冶金報》（2024年02月20日 04版四版）

來源：中國冶金報-中國鋼鐵新聞網

編輯：宋玉錚

下一篇：唐鋼獲評全國首批數字化轉型貫標三星級評估...

版權說明

【1】凡本網注明"來源：中國冶金報—中國鋼鐵新聞網"的所有作品，版權均屬於中國鋼鐵新聞網。媒體轉載、摘編本網所刊作品時，需經書麵授權。轉載時需注明來源於《中國冶金報—中國鋼鐵新聞網》及作者姓名。違反上述聲明者，本網將追究其相關法律責任。
【2】凡本網注明"來源：XXX（非中國鋼鐵新聞網）"的作品，均轉載自其它媒體，轉載目的在於傳遞更多信息，並不代表本網讚同其觀點，不構成投資建議。
【3】如果您對新聞發表評論，請遵守國家相關法律、法規，尊重網上道德，並承擔一切因您的行為而直接或間接引起的法律責任。
【4】如因作品內容、版權和其它問題需要同本網聯係的。電話：010—010-64411649