🔥 Gate 動態大使專屬發帖福利任務第三期報名正式開啓!🏆 第二期獲獎名單將於6月3日公布!
👉️ 6月3日 — 6月8日期間每日發帖,根據帖子內容評級瓜分 $300獎池
報名即可參與:https://www.gate.com/zh/questionnaire/6761
報名時間:6月3日10:00 - 6月8日 24:00 UTC+8
🎁 獎勵詳情:
一、S級周度排名獎
S級:每週7日均完成發帖且整體帖子內容質量分數>90分可獲S級,挑選2名優質內容大使每人$50手續費返現券。
二、A/B 等級瓜分獎
根據各位動態大使發帖數量及帖子內容質量獲評等級,按評定等級獲獎:
A級:每週至少5日完成發帖且整體帖子內容質量90>分數>80可獲A級,從A級用戶中選出5名大使每人$20手續費返現券
B級:每週至少3日完成發帖且整體帖子內容質量80>分數>60可獲B級,從B級用戶中選出10名大使每人$10手續費返現券
📍 活動規則:
1.每週至少3日完成發帖才有機會獲獎。
2.根據發帖天數和整體發帖內容質量分數給予等級判定,分爲S/A/B等級,在各等級下選擇幸運大使獲獎。
💡 帖子評分標準:
1.每帖不少於30字。
2.內容需原創、有獨立見解,具備深度和邏輯性。
3.鼓勵發布市場行情、交易知識、幣種研究等主題,使用圖例或視頻可提高評分。
4.禁止發布FUD、抄襲或詆毀內容,違規將取
擊敗整個羊駝家族,Meta AI自對齊新方法只需極少人工標註數據
原文來源:量子位
人工標註數據告急?
Mata新方法僅用少量種子數據,就構建了一個高質量的指令遵循( instruction following)語言模型。
換言之,大語言模型需要大量人工標註的指令數據進行微調,而現在模型可自動從網絡語料庫未標記的文本中推理出指令。
然後用自己生成的指令數據進行訓練,堪比自產自銷。
並且用這種方法訓練出的模型在Alpaca基準測試上,超越開源羊駝及其一系列衍生模型。
LeCun發推認為該研究在模型自對齊方面具有轟動性:
羊駝:我自己搞數據訓練了一頭鯨
這種可擴展的新方法叫做指令回譯,Mata為用這種方法訓練出的模型起了個名字——Humpback(座頭鯨,又稱駝背鯨)。
(研究人員表示,之所以起這麼個名字,是因為它和駱駝背的關係,而且鯨魚體型更大,對應模型規模更大)
標註示例和語料來源都有了,下一步就是**自增強(Self-augment)**階段。
研究人員用種子數據對基礎模型LLaMa進行了微調,獲得指令預測模型。然後用這個指令預測模型,為未標註文本推理出一個候選指令。之後組合候選指令與文本(指令-輸出對),作為候選增強訓練數據,也就是上圖中的Augmented Data A。
但還不能用A的數據直接訓練,因為未標註文本本身質量參差不齊,生成的候選指令也存在噪聲。
所以需要關鍵的**自管理(Self-curate)**步驟,使用模型預測數據質量,選擇高質量樣本進行訓練。
為了提高模型指令預測質量,研究人員用候選數據迭代訓練了模型,在迭代訓練中,數據質量也會越來越好。
此外,在組合種子數據和增強數據微調模型時,他們還使用不同的系統提示標記區分了這兩個數據源:
進行兩輪迭代後,最終模型就新鮮出爐啦。
合併兩種訓練數據:1+1>2
下面再來看看研究人員的分析結果:
**
**###### △種子數據和增強數據的指令多樣性。內圈是常見的根動詞,外圈是與其對應的常見名詞。
上圖是用8%種子數據和13%的增強數據統計的指令多樣性。
可以很直觀地看到,在長尾部分增強數據多樣性更強,且增強數據與現有的人工標註種子數據相輔相成,補充了種子數據中未出現的類型。
其次,研究人員比較了三個增強數據集:Augmented data,all(無自管理)、
**
**###### △使用自篩選評估不同數據大小和質量的自增強數據。 y軸表示在使用給定數據大小和質量微調LLaMa 7B時與text-davinci-003的勝率。
(text-davinci-003,一種基於GPT-3的指令遵循模型,使用強化學習在人類編寫的指令數據、輸出、模型響應和人類偏好上進行了微調)
最後來看一下Alpaca排行榜上的結果。 Humpback在不依賴蒸餾數據的情況下,表現明顯優於其它方法,並且縮小了與專有模型之間的差距。
非蒸餾(Non-distilled),指不依賴於任何外部模型作為任何形式監督的訓練模型;蒸餾(Distilled),指在訓練過程中引入更強大的外部模型,例如使用從外部模型蒸餾的數據;專有(Proprietary),指使用專有數據和技術進行訓練的模型。
**
**###### △相對於text-davinci-003的勝率
在與開源模型LIMA 65B、Guanaco 65B、Falcon-Instruct 40B和專有模型davinci-003、Claude的比較中,Humpback的表現也都更符合人類偏好。
由於用於訓練的文本數據來自網絡語料庫,微調後的模型可能會放大網絡數據的偏差。雖然和基礎模型相比,微調後的模型提高了檢測偏差的準確性。然而,這並不意味著會完全解決這個問題。
傳送門:論文鏈接)
參考鏈接: [1] [2] [3]