“構建材料人工智能需摒棄‘萬能大模型’幻想”
——中國鋼研首席科學家談如何構建“AI友好數據集”

2026-03-28 05:07:56

　　本報記者樊三彩

　　自大模型爆火以來，國內外相繼發布了多項材料大模型：2023年11月，穀歌發布材料AI（人工智能）模型 GNoME；2023年12月，微軟發布了材料AI生成模型 MatterGen；2024年6月，清華大學團隊發展出DeepH通用材料模型，並展示了一種構建材料大模型的可行方案；2025年2月份，鬆山湖實驗室發布MatChat材料大語言模型；2025年3月份，北京鋼研新材發布“AI新材道”智能選材大模型。

　　“這些工作引領著未來，但也帶來了爭議。”近日，中國鋼研科技集團數字化研發中心首席科學家蘇航在接受《中國冶金報》記者采訪時發出4連問：我wo們men如ru何he信xin任ren和he驗yan證zheng黑hei盒he模mo型xing給gei出chu的de結jie果guo？我wo們men需xu要yao通tong過guo模mo擬ni數shu據ju進jin行xing模mo型xing訓xun練lian嗎ma？機ji器qi學xue習xi能neng否fou引yin領ling實shi現xian原yuan始shi創chuang新xin？帶dai有you幻huan覺jiao的de模mo型xing適shi合he科ke學xue研yan究jiu嗎ma？“這些問題將深刻影響未來10年材料人工智能的發展方向。”蘇航認為。

　　“早在上世紀80niandai，zhongguokexueyuanjiuyouyigecailiaomoshishibiexuepai，jiangjiqixuexiyingyongyuxincailiaofaxian，houlaiyiduzhongduandezhuyaoyuanyinjiuzaiyuhennanhuoqugaozhiliangdeshujuji。”蘇航認為，今天我們要發展有價值的AI材料模型，首先需要構建起“AI友好的數據集”。

　　廣義而言，AI for Science（科學人工智能）起源於大科學項目。大型望遠鏡、衛星、基因測序儀、同步加速器、中子源和電子顯微鏡，每年生成PB（十萬兆字節）級乃至EB （百萬兆字節）級的數據量，從中提取有價值的信息對科學家而言是艱巨的挑戰，因而機器學習成為必然選擇。當前，AI for Science的成功主要在自然科學領域，而非技術科學領域。

　　“相比傳統機器學習回歸模型，大模型有兩個必要的特征，一是參數量足夠大，二是具備泛化（外推）能力。它們對高質量數據的要求包含4個方麵。”蘇su航hang進jin一yi步bu闡chan釋shi道dao，一yi是shi同tong源yuan性xing。數shu據ju來lai源yuan統tong一yi，消xiao除chu未wei知zhi因yin素su的de幹gan擾rao，但dan文wen獻xian數shu據ju不bu滿man足zu同tong源yuan性xing。二er是shi分fen散san性xing。空kong間jian上shang樣yang本ben盡jin可ke能neng分fen散san，“好”“壞”數據兼備，但工業生產數據不滿足分散性。三是可信性。數據的來源、去向、產權、責任清晰，匿名網絡數據、強製征集數據的可信性不高。四是完備性（特別針對大模型）。數據覆蓋特征空間大部分可能的模式、形成閉環，目前材料領域僅計算數據相對完備。

　　“數據閉環是AI生成的前提。國際上現有成功的科技大模型的共同特征是：具備大科學項目研究背景，具備完備閉環、開源的數據集積累。”蘇航補充道，目前在世界範圍內，還不具備建立通用材料大模型的數據基礎，但越小的領域內越有可能出現突破性的AI應用，前提是數據集相對完備。

　　“要在細分領域獲得與專業人士相當的預測能力，需要達到一定的基礎數據量，即我們稱之為Scaling Law的數據下界；同時，數據采樣應盡可能遍曆所有特征模式。如鋼鐵金相圖譜的可能特征模式在20種左右，達成閉環的數據量僅需要數百張覆蓋所有特征的照片，而不是數萬張。這意味著在細分領域建立具備無限泛化能力的材料AI，並不一定都需要大規模的數據集。”蘇航舉例道。

　　“在材料為代表的工程科學領域，須適應AI對大數據的需求，改變傳統上以驗證為主的科研模式，建立AI友好的矩陣化數據生產新模式，才能讓AI加速技術發現與發明。”蘇航介紹，中國鋼研正在實踐“計算數據+實驗數據+應用數據”的矩陣化數據生產新模式，取得顯著成果。

　　中國鋼研新材道團隊開發了區塊鏈材料數據發現與共享協議，配合材料模式識別、隱私計算，讓數據可用但不可見。2023年，中國鋼研發布全球首個“材料數據區塊鏈通則”，建立了包括鋼鐵、裝備製造、裝備用戶在內的10多個企業私有雲，50個鋼鐵企業輕節點；已覆蓋6000多個國家、團體、企業的產品標準，20多萬種鋼鐵、高溫合金、焊材、鋁合金的材料產品。

　　“在我看來，當前形勢下，構建材料人工智能（AI for Material）需摒棄‘萬能大模型’幻想，重點關注3個方向的技術工作。”蘇航表示。

　　一是細分領域完備數據集建設和專業模型的開發，如材料產品數據集，金屬多元相圖，金相組織，基於自動生成數據集的試驗、計算模型等，基於材料區塊鏈的多節點數據協同可加速完備數據集的形成。

　　二是大語言模型智能體(AI Agent)的創新應用。基於通用大語言模型，建立AI輔助計算、建模、設計智能體群，並實現多智能體協同。

　　三是以場景創新驅動方法論創新。“新賽道無常路，無需跟隨。AI領域，美國的優勢在技術，中國的優勢在場景，但場景創新可以反過來驅動AI技術進步，DeepSeek（深度求索）就是範例。”他說。

　　《中國冶金報》（2025年05月27日 04版四版）

來源：中國冶金報-中國鋼鐵新聞網

編輯：宋玉錚

下一篇：河鋼實現“模型+數據集”雙資產形態入表

版權說明

【1】凡本網注明"來源：中國冶金報—中國鋼鐵新聞網"的所有作品，版權均屬於中國鋼鐵新聞網。媒體轉載、摘編本網所刊作品時，需經書麵授權。轉載時需注明來源於《中國冶金報—中國鋼鐵新聞網》及作者姓名。違反上述聲明者，本網將追究其相關法律責任。
【2】凡本網注明"來源：XXX（非中國鋼鐵新聞網）"的作品，均轉載自其它媒體，轉載目的在於傳遞更多信息，並不代表本網讚同其觀點，不構成投資建議。
【3】如果您對新聞發表評論，請遵守國家相關法律、法規，尊重網上道德，並承擔一切因您的行為而直接或間接引起的法律責任。
【4】如因作品內容、版權和其它問題需要同本網聯係的。電話：010—010-64411649