艾倫AI發布迄今為止最大的文本數據集
2023-08-21 20:00:56 來源:鞭牛士
(資料圖片僅供參考)
據艾倫AI研究所(AI2)官方博客,8月19日,艾倫AI研究所發布了包含3萬億個token(詞例)的開放語料庫。據悉,這些語料來自各種網絡內容、學術出版物、代碼、書籍和百科全書等材料,是迄今為止最大的開放文本數據集。
關鍵詞:
(資料圖片僅供參考)
據艾倫AI研究所(AI2)官方博客,8月19日,艾倫AI研究所發布了包含3萬億個token(詞例)的開放語料庫。據悉,這些語料來自各種網絡內容、學術出版物、代碼、書籍和百科全書等材料,是迄今為止最大的開放文本數據集。
關鍵詞: