四虎亚洲精品私库AV在线,国产精品毛片一区二区三区,熟妇人妻无码中文幕老熟妇

復(fù)旦NLP團(tuán)隊(duì)開源MOSS，此為國內(nèi)首個(gè)公開亮相的類ChatGPT模型

2023-04-25 13:45

復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室邱錫鵬教授團(tuán)隊(duì)上線 MOSS 兩個(gè)月后，把 MOSS 開源了。

目前開源的版本是 MOSS 003，二月份公開邀請內(nèi)測的版本為 MOSS 002，一月份有一個(gè)內(nèi)部測試版本叫做 OpenChat 001。

在 MOSS 003 中，復(fù)旦團(tuán)隊(duì)采用不同的技術(shù)路線，通過讓Moss和人類以及其他對話模型都進(jìn)行交互，顯著提升了學(xué)習(xí)效率和研發(fā)效率，短時(shí)間內(nèi)就高效完成了對話能力訓(xùn)練。

MOSS 成為國內(nèi)首個(gè)公開亮相的類ChatGPT語言模型，也是國內(nèi)首個(gè)搭載插件系統(tǒng)的開源對話語言模型， “端到端”走通了大語言模型的開發(fā)全程。

MOSS 的成長過程

復(fù)旦 NLP 團(tuán)隊(duì)成員孫天祥公布了 MOSS成長過程。

ChatGPT 問世后，國內(nèi) NLP 從業(yè)者受到?jīng)_擊很大，當(dāng)時(shí)沒有 llama 也沒有 alpaca，團(tuán)隊(duì)普遍認(rèn)為國內(nèi)技術(shù)距離 ChatGPT 有一到兩年的技術(shù)差距。

要做 ChatGPT 有兩個(gè)部分是很昂貴的，一個(gè)是數(shù)據(jù)標(biāo)注，一個(gè)是預(yù)訓(xùn)練算力。團(tuán)隊(duì)沒有算力，便去構(gòu)造數(shù)據(jù)——從 OpenAI 的論文附錄里扒了一些它們API收集到的user prompt，然后用類似Self－Instruct的思路擴(kuò)展出大約 40 萬對話數(shù)據(jù)。

一月份的時(shí)候，團(tuán)隊(duì)研制出了 OpenChat 001，雖然 OpenChat 001 不具備中文能力，不知道關(guān)于自己的信息（比如名字、能力等），且安全性較低，但此時(shí)模型已經(jīng)具備了指令遵循能力、多輪能力、跨語言對齊能力，可以理解中文并用英文回答。

這給了團(tuán)隊(duì)很大的信心，于是加緊了 MOSS 002 的部署，增加到了116萬條中英文對話數(shù)據(jù)。截至MOSS 002訓(xùn)練完成時(shí)，gpt－3．5－turbo、LLaMA、Alpaca均未出現(xiàn)，但卻收到很多類似“MOSS是蒸餾ChatGPT” ／ “基于LLaMA微調(diào)”等質(zhì)疑。

目前開源的最新版本 MOSS 003 的基座語言模型已經(jīng)在 100B 中文 token 上進(jìn)行了訓(xùn)練，總訓(xùn)練 token 數(shù)量達(dá)到 700B，還構(gòu)造了約 30 萬插件增強(qiáng)的對話數(shù)據(jù)，目前已包含搜索引擎、文生圖、計(jì)算器、方程求解等。還給 MOSS 增加了I nner Thoughts 作為輸出，即在 MOSS 決定調(diào)用 API 以及回復(fù)之前首先輸出其“內(nèi)心想法”。

研發(fā)團(tuán)隊(duì)稱本次開源只是個(gè)開始，后續(xù)團(tuán)隊(duì)還將開源完整版 MOSS 003 微調(diào)數(shù)據(jù)、偏好數(shù)據(jù)、偏好模型以及經(jīng)過偏好訓(xùn)練過的最終模型。

MOSS 發(fā)布時(shí)掀起驚濤駭浪

2 月份，國內(nèi)各大廠紛紛開始拼大模型，但在國內(nèi)賽道上首個(gè)拿出大模型的不是大廠，而是學(xué)界——復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室邱錫鵬教授團(tuán)隊(duì)。

2 月 20 日晚，復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室發(fā)布類 ChatGPT 模型 MOSS 的消息一經(jīng)公開，很快就登頂了知乎熱榜。由于瞬時(shí)訪問壓力過大，MOSS服務(wù)器還被網(wǎng)友擠崩潰了。

針對服務(wù)器崩潰一事，MOSS 官網(wǎng)發(fā)公告回應(yīng)：“我們最初的想法只是想將 MOSS 進(jìn)行內(nèi)測，以便進(jìn)一步優(yōu)化，沒有想到會(huì)引起這么大的關(guān)注，我們的計(jì)算資源不足以支持如此大的訪問量，并且作為學(xué)術(shù)團(tuán)隊(duì)我們也沒有相關(guān)的工程經(jīng)驗(yàn)，給大家造成非常不好的體驗(yàn)和第一印象，在此向大家致以真誠的歉意。

團(tuán)隊(duì)稱，MOSS 還是一個(gè)非常不成熟的模型，距離 ChatGPT 還有很長的路需要走。作為一個(gè)學(xué)術(shù)研究的實(shí)驗(yàn)室無法做出和 ChatGPT 能力相近的模型，MOSS 只是想在百億規(guī)模參數(shù)上探索和驗(yàn)證 ChatGPT 的技術(shù)路線，并且實(shí)現(xiàn)各種對話能力。

MOSS 可執(zhí)行對話生成、編程、事實(shí)問答等一系列任務(wù)，打通了讓生成式語言模型理解人類意圖并具有對話能力的全部技術(shù)路徑。這條路徑的走通，為國內(nèi)學(xué)術(shù)界和產(chǎn)業(yè)界提供了重要經(jīng)驗(yàn)，將助力大語言模型的進(jìn)一步探索和應(yīng)用。

企查查 APP 顯示，目前 MOSS 商標(biāo)申請信息共 74 條，已有 32 枚商標(biāo)被成功注冊，申請人包括進(jìn)出口、電子商務(wù)、高新技術(shù)等領(lǐng)域的多家公司及多個(gè)自然人，商標(biāo)國際分類包括科學(xué)儀器、珠寶鐘表、教育娛樂等，此外，目前仍有 3 枚 MOSS 商標(biāo)正在注冊申請中。

團(tuán)隊(duì)核心人物邱錫鵬

根據(jù)復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院官網(wǎng)的介紹，邱錫鵬教授于復(fù)旦大學(xué)獲得理學(xué)學(xué)士和博士學(xué)位。研究方向?yàn)樽匀徽Z言處理、深度學(xué)習(xí)，發(fā)表CCF－A／B類論文70余篇。主持開發(fā)了開源自然語言處理工具FudanNLP、FastNLP，獲得了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛使用。

邱錫鵬的研究方向是，圍繞自然語言處理的機(jī)器學(xué)習(xí)模型構(gòu)建、學(xué)習(xí)算法和下游任務(wù)應(yīng)用，包括：自然語言表示學(xué)習(xí)、預(yù)訓(xùn)練模型、信息抽取、中文NLP、開源NLP系統(tǒng)、可信NLP技術(shù)、對話系統(tǒng)等。

邱錫鵬表示：“盡管MOSS還有很大改善空間，但它的問世證明了在開發(fā)類ChatGPT產(chǎn)品的路上，國內(nèi)科研團(tuán)隊(duì)有能力克服技術(shù)上的重要挑戰(zhàn)�！盡OSS研發(fā)項(xiàng)目得到了上海人工智能實(shí)驗(yàn)室的有力支持。后期，這項(xiàng)工作將通過開源方式和業(yè)界社區(qū)分享。