上海人工智能實驗室發布多模態語料
2023-08-16 18:12:31 來源:人民日報
(相關資料圖)
本報上海8月15日電(記者沈文敏)近日,上海人工智能實驗室宣布聯合語料數據聯盟成員單位,共同開源發布“書生·萬卷”1.0多模態預訓練語料。
“書生·萬卷”1.0集合了語料數據聯盟成員豐富的內容積累與上海人工智能實驗室的數據處理能力等優勢,將為學術界及產業界提供高質量大模型多模態預訓練語料。本次開源的數據總量超過2TB,具備多元融合、精細處理、價值對齊、易用高效等四大特征。
本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分數據集。其中文本數據來自網頁、百科、書籍、專利、教材、考題等,數據總量超過5億個文檔,數據大小超過1TB,覆蓋科技、文學、媒體、教育、法律等多個領域;圖文數據主要來自公開網頁,經處理后形成圖文交錯文檔,總量超過2200萬個,數據大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領域;視頻數據主要來自中央廣播電視總臺和上海文廣集團,包含新聞、影視等多種類型的節目影像,總計視頻文件數超過1000個,數據大小超過900GB,內容覆蓋軍事、文藝、體育、自然、知識、影像藝術等方面。
《 人民日報 》( 2023年08月16日 12 版)
標簽:
相關閱讀
精彩推薦
- 上海人工智能實驗室發布多模態語料2023-08-16
- 京東物流:上半年虧損約5.29億元,同比減虧2023-08-16
- 綠城中國(03900.HK)8月16日收盤跌0.51%,2023-08-16
- 美麗中國新畫卷·守護綠水青山 新疆麥蓋提2023-08-16
- 西藏日土:夏日班公湖碧波瀲滟2023-08-16
- 2023中秋國慶放假通知,連休8天,3個好消息2023-08-16
- 高爾夫尊中國(室內)公開賽:以數智競技,2023-08-16
- 以賽聚英、以賽育才,第五屆浦東新區長三角2023-08-16
- 星火成炬 | 硬核救援“黑科技”2023-08-16
- 沿著大運河看中國丨從運河原點城市出發 感2023-08-16
- 沿著大運河看中國|江都水利樞紐護送一江清2023-08-16
- 新疆圖木舒克 引洪灌溉 42萬畝胡楊林“喝2023-08-16
- 美麗中國新畫卷 新疆沙雅 阿不力克木·居2023-08-16
- 美財長耶倫回憶訪華吃菌子經歷:我們所有人2023-08-16
- 瑜伽學院 電影(關于瑜伽學院 電影的基本2023-08-16
- 挪威主權財富基金上半年回報率10%,美國科2023-08-16
- 國海證券股份有限公司上調貝斯特評級2023-08-16
- 甘源食品董秘回復:截止8月10日,公司的股2023-08-16
- 漲停雷達:數據要素個股異動 安妮股份觸及2023-08-16
- 廣信股份: 具體情況您可以通過上交所網站2023-08-16
- 豪恩汽電董秘回復:本公司是一家專注于汽車2023-08-16
- 宜興、常熟獲批建設國家級知識產權快速維權2023-08-16
- 風機橡膠軟接頭制作過程2023-08-16
- 大廠秋招又起:為什么“ATMD”成第一梯隊2023-08-16
- 天譽置業(00059.HK)將于8月31日舉行董事會2023-08-16
- 發展壯大節水產業新業態2023-08-16
- 登陸央視1套,看仰韶的“大國品牌”之路!2023-08-16
- 廣東省政府日前組織房企開會 多位地產央2023-08-16
- 東威科技董秘回復: 報告中的銷售收入就是2023-08-16
- 開拓藥業-B(09939.HK)急漲逾12%,截至發稿2023-08-16