推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)化,不僅夯實(shí)了人工智能算法訓(xùn)練的基石,也有助于釋放數(shù)據(jù)要素的價(jià)值。新形勢(shì)下,促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,需要在需求牽引、創(chuàng)新驅(qū)動(dòng)、生態(tài)培育等方面找準(zhǔn)發(fā)力點(diǎn)。
日前,一份名為《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見(jiàn)》的文件,迅速讓“數(shù)據(jù)標(biāo)注產(chǎn)業(yè)”躍入大眾視野,也引發(fā)很多人的好奇:“數(shù)據(jù)標(biāo)注”究竟是個(gè)什么樣的產(chǎn)業(yè)?國(guó)家為何如此重視這個(gè)新事物?
對(duì)于“數(shù)據(jù)標(biāo)注”,專家的解釋很直接:就是給文本、語(yǔ)音、圖片、視頻等各種各樣的數(shù)據(jù)“打標(biāo)簽”。但別小看這些標(biāo)簽,正是有了它們,數(shù)據(jù)才可以更好地被人工智能算法理解和使用,人工智能系統(tǒng)的性能與準(zhǔn)確性才能有效提升。從某種意義上說(shuō),沒(méi)有高質(zhì)量的數(shù)據(jù)標(biāo)注,就沒(méi)有高性能的人工智能系統(tǒng)。
通常情況下,訓(xùn)練一個(gè)領(lǐng)先的大模型,需要數(shù)百萬(wàn)條甚至數(shù)千萬(wàn)條標(biāo)注數(shù)據(jù)。遺憾的是,我國(guó)雖是全球第二大數(shù)據(jù)資源國(guó),但還算不上數(shù)據(jù)資源強(qiáng)國(guó)。有機(jī)構(gòu)統(tǒng)計(jì)顯示,2023年我國(guó)數(shù)據(jù)資源為32ZB(澤字節(jié)),保存數(shù)據(jù)僅有2.9%,這一數(shù)字遠(yuǎn)低于發(fā)達(dá)國(guó)家平均水平。換句話說(shuō),數(shù)據(jù)質(zhì)量低、大量數(shù)據(jù)被浪費(fèi)等現(xiàn)象,客觀上制約了我國(guó)數(shù)據(jù)資源價(jià)值的發(fā)揮,而通過(guò)推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)化,不僅夯實(shí)了人工智能算法訓(xùn)練的基石,也有助于釋放數(shù)據(jù)要素的價(jià)值。
促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,有其必要性。當(dāng)前,全球主流基礎(chǔ)大模型中,中文語(yǔ)料僅占全部語(yǔ)料的1%,高質(zhì)量中文數(shù)據(jù)不足很大程度是我國(guó)基礎(chǔ)大模型能力的短板所在。正因如此,全面提升中文語(yǔ)料質(zhì)量,已成為破解我國(guó)大模型發(fā)展的關(guān)鍵環(huán)節(jié)之一。打造具有國(guó)際影響力的數(shù)據(jù)標(biāo)注企業(yè)和品牌,將有助于構(gòu)建完整的人工智能產(chǎn)業(yè)鏈,提升我國(guó)在全球人工智能領(lǐng)域的市場(chǎng)份額和話語(yǔ)權(quán)。
近年來(lái),人工智能技術(shù)的迭代升級(jí)和應(yīng)用場(chǎng)景的持續(xù)拓展,推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)不斷呈現(xiàn)出自動(dòng)化、專業(yè)化和高端化的特點(diǎn),數(shù)據(jù)標(biāo)注產(chǎn)業(yè)正逐步從傳統(tǒng)的勞動(dòng)密集型產(chǎn)業(yè)向知識(shí)密集型產(chǎn)業(yè)轉(zhuǎn)變,數(shù)據(jù)標(biāo)注員作為國(guó)家認(rèn)可的新工種,其專業(yè)化要求也在不斷提高。同時(shí),數(shù)據(jù)標(biāo)注的應(yīng)用領(lǐng)域加快拓展深化,除了傳統(tǒng)的語(yǔ)音轉(zhuǎn)寫、圖片文字識(shí)別等,來(lái)自垂直大模型公司的新需求也越來(lái)越多,標(biāo)注的內(nèi)容也更加豐富多彩。
新形勢(shì)下,促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,需要在需求牽引、創(chuàng)新驅(qū)動(dòng)、生態(tài)培育等方面找準(zhǔn)發(fā)力點(diǎn)——
在深化需求牽引方面,通過(guò)釋放公共數(shù)據(jù)標(biāo)注需求和挖掘企業(yè)數(shù)據(jù)標(biāo)注需求,依法依規(guī)有序推動(dòng)公共數(shù)據(jù)標(biāo)注與開(kāi)發(fā)利用。支持跨部門、跨地區(qū)、跨層級(jí)公共數(shù)據(jù)融合應(yīng)用,鼓勵(lì)政府部門和企業(yè)協(xié)同開(kāi)展政務(wù)大模型所需數(shù)據(jù)的標(biāo)注和訓(xùn)練,在現(xiàn)代農(nóng)業(yè)、智能制造、信息服務(wù)等重點(diǎn)領(lǐng)域發(fā)掘公共數(shù)據(jù)標(biāo)注需求。
在增強(qiáng)創(chuàng)新驅(qū)動(dòng)方面,加強(qiáng)數(shù)據(jù)標(biāo)注領(lǐng)域的關(guān)鍵技術(shù)攻關(guān)、標(biāo)準(zhǔn)制定和創(chuàng)新載體建設(shè)。支持軟硬一體、自主可控的數(shù)據(jù)標(biāo)注領(lǐng)域技術(shù)和關(guān)鍵設(shè)備的研發(fā)應(yīng)用。培育建設(shè)數(shù)據(jù)標(biāo)注領(lǐng)域重點(diǎn)實(shí)驗(yàn)室、技術(shù)創(chuàng)新中心等創(chuàng)新載體。
在培育繁榮生態(tài)方面,著力壯大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的經(jīng)營(yíng)主體,推動(dòng)其規(guī);、標(biāo)準(zhǔn)化、集約化發(fā)展。積極完善產(chǎn)業(yè)生態(tài),暢通數(shù)據(jù)采集、標(biāo)注、人工智能應(yīng)用產(chǎn)業(yè)鏈,推動(dòng)上下游協(xié)同發(fā)展,培育一批深耕行業(yè)的數(shù)據(jù)標(biāo)注瞪羚企業(yè)、獨(dú)角獸企業(yè)。
此外,還要持續(xù)優(yōu)化支撐體系,在加大財(cái)稅金融支持力度、推動(dòng)數(shù)據(jù)標(biāo)注服務(wù)納入政府采購(gòu)范疇等方面,提升數(shù)據(jù)標(biāo)注的公共服務(wù)能力。尤其是在人才培養(yǎng)上,要深化產(chǎn)學(xué)研融合,鼓勵(lì)行業(yè)聯(lián)盟、高校、科研院所與企業(yè)建立長(zhǎng)期合作機(jī)制,進(jìn)一步暢通人才發(fā)展通道,強(qiáng)化數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的人才支撐。 (作者:顧陽(yáng) 來(lái)源:經(jīng)濟(jì)日?qǐng)?bào))