日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

新質(zhì)觀察|誰來喂飽中國的AI?公共數(shù)據(jù)開放的關(guān)鍵一躍

王翔
2025-11-18 07:32
來源:澎湃新聞
? 澎湃商學(xué)院 >
字號

當(dāng)你在政務(wù)App上咨詢“醫(yī)保報銷要多久到賬”,或在醫(yī)療智能體里描述癥狀時,后臺的人工智能(以下簡稱AI)并不是天生的“百事通”。它之所以能理解你的問題、給出自然的回答,靠的是成千上萬條語料樣本——來自政策文件、醫(yī)療記錄、熱線對話、網(wǎng)絡(luò)評論等真實數(shù)據(jù)。這些數(shù)據(jù)的集合有一個共同的名字:高質(zhì)量數(shù)據(jù)集。它總是甘居幕后,卻正成為智能時代最重要的數(shù)據(jù)基礎(chǔ)設(shè)施之一。為什么高質(zhì)量數(shù)據(jù)集的供給對于AI的發(fā)展如此重要?我國的高質(zhì)量數(shù)據(jù)集建設(shè)、共享和開放如何破局呢?

AI學(xué)習(xí)的中文“教材”稀缺,共享開放亟待破局

一個AI模型能有多聰明,取決于它“讀”過多少好書。高質(zhì)量數(shù)據(jù)集是AI大模型訓(xùn)練、推理和驗證的關(guān)鍵基礎(chǔ),是AI學(xué)習(xí)的“教材”,是AI能“懂人話”并且“說人話”的前提。如果教材內(nèi)容錯誤、混亂或不完整,AI的成長就會走彎路。

同時,AI大模型訓(xùn)練不僅需要龐大的數(shù)據(jù)量,更強調(diào)跨語種、跨模態(tài)、跨領(lǐng)域的數(shù)據(jù)多樣性。據(jù)AI應(yīng)用社區(qū) Hugging Face統(tǒng)計,中文開源數(shù)據(jù)集數(shù)量僅占全部開源數(shù)據(jù)集的8%左右。我國大部分AI模型的訓(xùn)練數(shù)據(jù)集依賴外國開放數(shù)據(jù),這種不對稱性不僅帶來語義偏倚與文化誤讀風(fēng)險,也制約了本地化場景下AI系統(tǒng)的泛化能力。中文語料數(shù)據(jù)供給不足,AI大模型只能“餓著肚子”,在貧瘠的通用語料里苦苦訓(xùn)練。

另外,當(dāng)前中文互聯(lián)網(wǎng)上充斥著用AI生成的低質(zhì)量中文語料,其中大量包含事實錯誤、邏輯混亂、語法不通、陳詞濫調(diào)等問題。“垃圾進,垃圾出”,用這些數(shù)據(jù)再去投喂AI,可能帶來中文AI模型退化的風(fēng)險。就好像用一份復(fù)印件反復(fù)復(fù)印,不斷重復(fù)這個過程之后,最終得到的復(fù)印件可能已經(jīng)模糊不清、錯誤百出。

鑒于高質(zhì)量數(shù)據(jù)集供給的重要性,我國連續(xù)推出戰(zhàn)略部署,明確將其納入政策頂層設(shè)計。剛剛發(fā)布的《中共中央關(guān)于制定國民經(jīng)濟和社會發(fā)展第十五個五年規(guī)劃的建議》,要求“強化算力、算法、數(shù)據(jù)等高效供給”。前不久發(fā)布的《國務(wù)院關(guān)于深入實施“人工智能+”行動的意見》也明確要求:“以應(yīng)用為導(dǎo)向,持續(xù)加強人工智能高質(zhì)量數(shù)據(jù)集建設(shè)”。然而,當(dāng)前我國高質(zhì)量數(shù)據(jù)集的建設(shè)、共享與開放仍面臨不少的困難和挑戰(zhàn)。

AI數(shù)據(jù)集的數(shù)據(jù)源復(fù)雜多樣,整體呈現(xiàn)分散化狀態(tài),存在邊界模糊、家底不清、權(quán)責(zé)不明、標準不一、統(tǒng)籌不力等問題。政府、高校、科研機構(gòu)和企業(yè)之間數(shù)據(jù)壁壘突出,數(shù)據(jù)被長期被“鎖”在各自的“數(shù)據(jù)孤島”里。高質(zhì)量數(shù)據(jù)集的內(nèi)部共享和對外開放都缺乏統(tǒng)一的數(shù)據(jù)平臺與協(xié)調(diào)機制,難以形成高質(zhì)量、大規(guī)模數(shù)據(jù)集共建共享格局。數(shù)據(jù)資源建設(shè)主要依靠科研任務(wù)驅(qū)動,在資金、聲譽、成果轉(zhuǎn)化方面的激勵不足,責(zé)任與收益不對等問題凸顯,各方推動數(shù)據(jù)共享開放的積極性有待提升。

公共數(shù)據(jù)開放:破解數(shù)據(jù)供給瓶頸的關(guān)鍵路徑

要加強AI高質(zhì)量數(shù)據(jù)集供給,公共數(shù)據(jù)開放是一條亟待開拓的路徑。公共數(shù)據(jù),取之于民、用之于民。政府和其他公共管理與服務(wù)機構(gòu)掌握的公共數(shù)據(jù)體量大、價值高、類型廣,權(quán)威性與可信度高,應(yīng)當(dāng)優(yōu)先向社會開放用于AI及相關(guān)產(chǎn)業(yè)的發(fā)展。利用開放的公共數(shù)據(jù)建設(shè)高質(zhì)量數(shù)據(jù)集,將有望成為AI時代的智能底座,助力形成政府治理提質(zhì)、市場創(chuàng)新加速、社會效益倍增的多贏局面。

首先,公共數(shù)據(jù)中包含的政策文書、法律法規(guī)、社交媒體、新聞?wù)Z料等數(shù)據(jù),經(jīng)過模型處理后可以提升增強政府決策的智能化與科學(xué)化水平,促進政務(wù)服務(wù)的精準化與個性化,并推動開放治理與公眾參與。

其次,公共數(shù)據(jù)向社會開放,可以通過規(guī)模效應(yīng)提高數(shù)據(jù)利用效率,降低創(chuàng)新的邊際成本,激發(fā)市場主體的創(chuàng)新積極性,促進AI相關(guān)的技術(shù)突破與產(chǎn)業(yè)融合。

第三,公共數(shù)據(jù)向社會開放還可以打破大機構(gòu)壟斷數(shù)據(jù)的局面,有效緩解社會信息不對稱問題,使得不同規(guī)模的企業(yè)、科研機構(gòu)與個人可以公平地獲得數(shù)據(jù)資源,彌合數(shù)字鴻溝,促進數(shù)字包容。

目前,國際上已經(jīng)有大量基于公共數(shù)據(jù)開發(fā)的高質(zhì)量數(shù)據(jù)集向開發(fā)者開放,并形成了多樣化的建設(shè)模式和治理機制,產(chǎn)生了豐富的應(yīng)用成果。我國上海、杭州等城市的公共數(shù)據(jù)開放平臺,也嘗試上線了一批用于AI訓(xùn)練的高質(zhì)量數(shù)據(jù)集。不過,我國大部分地方還沒有啟動這項工作。筆者在調(diào)研中發(fā)現(xiàn),這項工作的開展面臨著不懂、不愿、不能、不敢的困境。

一是“不懂”。很多領(lǐng)導(dǎo)干部和公務(wù)員仍把數(shù)據(jù)看作工作中的副產(chǎn)品,尚未意識到,自己每天處理的審批文件、熱線語音、交通流量等等,其實都是AI學(xué)習(xí)的最好教材。對AI相關(guān)概念的理解不清晰、不統(tǒng)一,一知半解的狀況比較普遍。

二是“不愿”。高質(zhì)量數(shù)據(jù)集建設(shè)需要投入大量人力物力,標注、清洗、整理都極為繁瑣。缺乏相應(yīng)的激勵機制,就容易出現(xiàn)“多一事不如少一事”的心理。

三是“不能”。高質(zhì)量數(shù)據(jù)集建設(shè)在數(shù)據(jù)編目、預(yù)處理、標注、更新、分布校準和多模態(tài)數(shù)據(jù)處理等方面都有一定的技術(shù)門檻,而這些數(shù)據(jù)集的共享開放缺乏統(tǒng)一的數(shù)據(jù)標準、術(shù)語字典、標注體系,導(dǎo)致數(shù)據(jù)難以互通。一些部門即便想做,也缺少技術(shù)與人力的支撐。

四是“不敢”。數(shù)據(jù)安全和隱私保護是最大的顧慮。公共數(shù)據(jù)往往涉及個人信息和公共安全,稍有不慎就可能引發(fā)風(fēng)險。因此,許多單位寧愿把數(shù)據(jù)“鎖在柜子里”,也不敢對外開放。

四步入手破解公共數(shù)據(jù)開放瓶頸問題

上述四個“不”,正是當(dāng)前公共數(shù)據(jù)開放的“卡脖子”問題。要讓公共數(shù)據(jù)開放賦能高質(zhì)量數(shù)據(jù)集建設(shè),在觀念、制度和技術(shù)層面都需要跨越鴻溝。

第一,認知升級,讓數(shù)據(jù)供給成為共識。許多地方在推進AI項目時,往往注重算法創(chuàng)新和算力建設(shè),卻忽略了數(shù)據(jù)資源供給。要通過培訓(xùn)、宣傳以及試點示范,讓各級各部門各單位都認識到開放數(shù)據(jù)的社會效益和經(jīng)濟價值。

第二,機制創(chuàng)新,讓“數(shù)據(jù)愿意流動”。公共數(shù)據(jù)開放需要利益與責(zé)任的平衡,應(yīng)建立明確的收益分配機制和供給激勵機制。我國多地正在探索的公共數(shù)據(jù)授權(quán)運營,就是解決高效流通與合規(guī)使用、兼顧效率和公平的有益探索。

第三,技術(shù)支撐,讓“數(shù)據(jù)能流動”。在技術(shù)層面,要在城市層面建立統(tǒng)一的數(shù)據(jù)目錄體系,普及數(shù)據(jù)采集、清洗、標注、脫敏、合成、溯源等工具,建立統(tǒng)一的標簽體系與術(shù)語庫,消除數(shù)據(jù)流動的技術(shù)梗阻。

第四,安全護航,不僅“用得好”,還要“用得安”。數(shù)據(jù)安全與開放并不矛盾,一方面要引入先進的數(shù)據(jù)脫敏和內(nèi)容安全技術(shù),加強政務(wù)智能體合規(guī)與倫理研究,開展倫理審查和安全評估;另一方面可以探索建立數(shù)據(jù)“避風(fēng)港”,構(gòu)建鼓勵創(chuàng)新、包容審慎的數(shù)據(jù)治理環(huán)境。

小結(jié)

如果把AI的發(fā)展比作一次長跑,那么我們目前所處的位置,大體是“起跑后的加速階段”——模型架構(gòu)爆發(fā)、算力擴張迅速、應(yīng)用場景繁榮。但若要走向“質(zhì)的躍遷”,必須打破數(shù)據(jù)供給的瓶頸。

共享開放的高質(zhì)量數(shù)據(jù)集是AI時代的數(shù)據(jù)基礎(chǔ)設(shè)施。公共數(shù)據(jù)應(yīng)當(dāng)率先成為AI高質(zhì)量數(shù)據(jù)集的“底料”——在開放、透明、安全的制度框架下,點燃創(chuàng)新的火種。讓公共數(shù)據(jù)助力AI發(fā)展,讓AI發(fā)展反哺公共利益、實現(xiàn)公共價值。當(dāng)公共數(shù)據(jù)流動起來,AI的未來也將變得更加可信、開放與包容。

(作者王翔為復(fù)旦大學(xué)數(shù)字與移動治理實驗室研究員)

    責(zé)任編輯:蔡軍劍
    圖片編輯:蔣立冬
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            四虎精品视频永久免费| 蜜桃在线夫妻性爱视频播放| 亚洲中文成人中文字幕| 波多野结衣红桃视频| 亚洲国产日产无码精品| 337P人体粉嫩| 国产极品美女到高潮无套| 国产精品白浆无码流出| 操日韩老太太熟女| 成人黄色视频在线观看免费| 久热热国产久热| 亚洲综合无码日韩国产加勒比 | 亚洲日韩精品a∨片无码加勒比 | 国产免费爽爽视频在线观看| 2021久久天天躁狠狠躁夜夜| 性男女做视频观看网站| 奇米影视7777一区二区三区| 奇米影视四色在线视频| 99久9在线视频 | 传媒| 女人高潮被爽到呻吟在线观看| avav日韩在线蜜桃| 在线欧美片一区| 久久国产精品99精品国产| 成熟丰满熟妇高潮xxxxx视频| 欧美成人精品高清在线观看| 91密桃精品国产91久久| 国产欧美网站| 日日爱.66.91| 国产在线线精品宅男网址| 国产精品一区二区三区人人爽日韩精品人人模 | 国产精品久久猪| 波多野结衣无码一区| 久久www免费人成_网站| 中文字幕一区有码视三区| 99精品少妇毛片| 久久亚洲sm情趣捆绑调教| 亚洲中文字幕日韩精品| 发个毛片看看| 亚洲综合自拍第一页| 欧美五十路熟女毛茸茸的屄| 国产婷婷在线精品综合|