科技日報北京8月14日電 (記者吳葉凡)14日,國新辦舉行新聞發(fā)布會,介紹“十四五”時期數字中國建設發(fā)展成就。國家發(fā)展改革委黨組成員、國家數據局局長劉烈宏介紹,截至2025年6月底,我國算力總規(guī)模位于全球第二,已經建設高質量數據集超過3.5萬個,總體量超過了400PB。
劉烈宏指出,“十四五”時期,我國牢牢把握數字化、網絡化、智能化發(fā)展機遇,全面深化數據要素市場化配置改革,推動數字中國建設取得顯著成就。近年來,我國人工智能的快速發(fā)展,離不開國家對數據工作的高度重視。
“數據是人工智能發(fā)展的三大核心要素之一,在推動‘人工智能+’過程中發(fā)揮著關鍵作用,特別是高質量數據集的建設至關重要?!眲⒘液昱e例,在醫(yī)療健康領域,通過標注的醫(yī)學影像高質量數據集,模型的疾病診斷準確率可以提升15%以上。
作為第一個把數據作為生產要素的國家,我國多措并舉促進數據資源的開發(fā)利用。劉烈宏介紹,為大力推動高質量數據的供給,我國出臺了高質量數據集建設相關文件,多部門聯(lián)合推動相關工作?!拔覀冎笇珖鴶祿藴驶夹g委員會研究制定了相關標準和技術文件,組織了高質量數據集建設先行先試工作和典型案例征集活動,分行業(yè)、分領域樹立了一批典型的解決方案?!眲⒘液暾f。
劉烈宏透露,經過一段時間的努力,國內多數模型訓練使用的中文數據占比已經超過60%,有的模型已達到80%。中文高質量數據的開發(fā)和供給能力持續(xù)增強,推動我國人工智能模型性能的快速提升。
人工智能模型的訓練也推動了數據交易需求的攀升。數據顯示,截至今年6月底,各地高質量數據集累計交易額近40億元,數據交易機構掛牌的高質量數據集總規(guī)模達到了246PB。“以北京數交所為例,高質量數據集占交易總量的比例從去年的10%躍升到目前的近80%?!眲⒘液暾f。同時,上海、天津、安徽等地正在試點“數據語料作價入股”等新模式,引導企業(yè)將高質量數據集折算為股權投入到相關企業(yè)。
劉烈宏表示,下一步,相關部門將通過體系化布局持續(xù)推進高質量數據集建設,加快打造具身智能、低空經濟、生物制造等重點領域數據高地,“我們也將推動全社會強化數據要素價值認同,加快推進數據要素價值共創(chuàng),培育‘為優(yōu)質數據買單’的市場共識。”