數據作為新型生產要素,正在成為推動人工智能發(fā)展的核心引擎。 近日,中國信息通信研究院聯合中電信人工智能科技發(fā)布《數據標注產業(yè)發(fā)展研究報告(2025年)》,全面剖析了當前我國數據標注產業(yè)的發(fā)展現狀、核心要素、未來趨勢及政策導向,為行業(yè)提供了權威的前瞻性洞察。 報告指出,數據標注是連接原始數據與AI模型的關鍵橋梁,狹義上指對文本、圖像、語音、視頻和3D點云等數據進行人工或半自動標記,廣義上則涵蓋數據采集、清洗、標注、質檢等全生命周期服務。 隨著大模型的爆發(fā)式增長,數據需求呈指數級上升。 例如,2025年Qwen2.5Max模型的數據量已超20萬億tokens,相較2018年的GPT-1增長近1.4萬倍,對高質量標注數據的需求空前迫切。 在政策層面,“央地一體”的支持體系已初步成型。 國家層面,2024年12月國家數據局等四部門聯合發(fā)布《關于促進數據標注產業(yè)高質量發(fā)展的實施意見》,提出到2027年實現年均復合增長率超20%的目標。 全國已確立成都、沈陽、合肥、長沙、??凇⒈6?、大同七個國家級數據標注基地,總標注規(guī)模達17282TB,服務大模型163個,帶動產值超83億元,形成區(qū)域協(xié)同發(fā)展新格局。 技術創(chuàng)新正推動產業(yè)從“人力密集型”向“智能知識型”躍遷。 自動化標注、多模態(tài)標注、合成數據等技術不斷突破,人機協(xié)同模式成為主流。 尤其在醫(yī)療、自動駕駛等領域,專業(yè)化的高精度標注需求激增,要求標注人員具備醫(yī)學、法律、工程等跨學科知識,行業(yè)正加速向高技術含量、高知識密度、高價值應用的“三高”特征演進。 與此同時,標準建設和人才培養(yǎng)成為關鍵支撐。 全國數據標準化技術委員會已成立,推動高質量數據集標準體系建設。 多地將數據標注納入職業(yè)技能培訓,打造產教融合實訓平臺,緩解人才短缺困境。 安全合規(guī)亦被置于首位,強調數據脫敏、權限管控和全生命周期防護。 展望未來,報告建議從技術創(chuàng)新、行業(yè)賦能、生態(tài)培育、標準應用、人才培養(yǎng)和安全保障六大方向發(fā)力,推動數據標注產業(yè)專業(yè)化、智能化發(fā)展。 可以預見,數據標注不再只是“AI基石”,更將成為驅動千行百業(yè)智能化升級的核心生產力,為我國人工智能高質量發(fā)展提供堅實底座。 出品方:信通院 發(fā)布時間:2025年 文檔頁數:56頁 |