北京制定通用人工智能創(chuàng)新措施:開展大模型創(chuàng)新算法及關鍵技術研究-天天亮點
    2023-05-16 16:26:20 來源: 多知網(wǎng)


    (資料圖片僅供參考)

    多知網(wǎng) 5 月 16 日消息,據(jù)北京市政府網(wǎng)站消息,北京市科委、中關村管委會制定了《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施 ( 2023-2025 年 ) ( 征求意見稿 ) 》,其中表示針對目前大模型訓練高質量中文語料占比過少,不利于中文語境表達及產(chǎn)業(yè)應用的問題,整合現(xiàn)有開源中文預訓練數(shù)據(jù)集和高質量互聯(lián)網(wǎng)中文數(shù)據(jù)并進行合規(guī)清洗。同時持續(xù)擴展高質量多模態(tài)數(shù)據(jù)來源,建設合規(guī)安全的中文、圖文對、音頻、視頻等大模型預訓練語料庫,通過北京國際大數(shù)據(jù)交易所社會數(shù)據(jù)專區(qū)進行定向有條件開放。

    征求意見稿指出,將新增算力建設項目納入算力伙伴計劃,加快推動海淀區(qū) " 北京人工智能公共算力平臺 ",朝陽區(qū) " 北京數(shù)字經(jīng)濟算力中心 " 等項目建設。加快推動數(shù)據(jù)要素高水平開放的 " 國家數(shù)據(jù)基礎制度先行先試示范區(qū) " 建設,爭創(chuàng)國家級數(shù)據(jù)訓練基地,提升北京人工智能數(shù)據(jù)標注庫規(guī)模和質量。

    在探索通用人工智能路徑方面,征求意見稿表示,圍繞大型語言模型構建、訓練、調優(yōu)對齊、推理部署等全流程,支持開展創(chuàng)新算法及核心技術研究,形成完整高效的訓練體系并對外開源。探索多模態(tài)通用模型架構,研究大模型高效并行訓練技術,以及邏輯和知識推理、指令學習、人類意圖對齊等調優(yōu)方法,研發(fā)支持百億參數(shù)模型推理的高效壓縮技術。從 " 采、存、管、研、用 " 五個方面,研發(fā)包含數(shù)據(jù)采集、清洗、標注、脫敏、存儲等功能在內的數(shù)據(jù)處理工具。

    構建多模態(tài)多維度的基礎模型評測基準及評測方法。建立基礎模型評測工具集,提供適應性的工具進行評測。研發(fā)適用于模型訓練場景的新一代人工智能編譯器,實現(xiàn)算子自動生成和自動優(yōu)化,推動人工智能芯片與框架的廣泛適配。研發(fā)人工智能芯片評測系統(tǒng),實現(xiàn)多芯片多框架的自動化評測。

    征求意見稿表示,鼓勵并組織來自不同學科的專業(yè)人員標注通用人工智能模型訓練數(shù)據(jù)及指令數(shù)據(jù),提高訓練數(shù)據(jù)的多樣性 ; 鼓勵優(yōu)先采用安全可信的軟件、工具、計算和數(shù)據(jù)資源,通過改進算法等技術手段,確保訓練數(shù)據(jù)集的規(guī)范性 ; 鼓勵生成式人工智能產(chǎn)品在科研等非面向公眾服務領域實現(xiàn)向上向善應用。

    此外,為了持續(xù)提升人工智能產(chǎn)業(yè)倫理治理自律自治能力,將研發(fā)并部署人工智能倫理治理公共服務平臺,服務政府監(jiān)管與產(chǎn)業(yè)自律自治,強化相關責任主體科技倫理規(guī)范意識,提升科技倫理治理能力。

    關鍵詞:
    責任編輯: 梅長蘇