加密貨幣交易所 加密貨幣交易所
Ctrl+D 加密貨幣交易所
ads
首頁 > Luna > Info

ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_CHA:比特幣

Author:

Time:1900/1/1 0:00:00

撰文:Tanya Malhotra

來源:Marktechpost

編譯:DeFi 之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型(LLM)正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI 開發的 ChatGPT 是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如 Pathways 語言模型(PaLM)、Chinchilla 等,在模仿人類方面也有很好的表現。

Mechanism Capital聯合創始人已償還Radiant Capital貸款并提取全部ARB:金色財經報道,據鏈上分析師 Lookonchain 披露,Mechanism Capital 聯合創始人 Andrew Kang 已償還 Radiant Capital 貸款并提取了全部 ARB,他出售了 21.7 萬枚 ARB 并以 0.97 美元價格購入 21 萬枚 USDC,并將 95.3 萬枚 ARB 存入幣安。歷史數據顯示,Andrew Kang 在今年 1 月 2 日以 1.2 美元價格購入 ARB,如果他按當前價格出售則虧損約 27 萬美元。[2023/6/11 21:29:55]

大型語言模型使用強化學習(reinforcement learning,RL)來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理(agent)通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像 ChatGPT 這樣的 LLM 表現出的卓越性能都要歸功于強化學習。

Hive Blockchain6月開采278.5個BTC,目前持有3,239個比特幣:金色財經報道,比特幣和以太坊礦工Hive Blockchain上個月開采了278.5BTC和2,542ETH。該公司計劃通過出售當前生產的比特幣和以太坊來為其未來的擴張提供資金。

根據周四的一份聲明,該公司目前持有3,239個比特幣和7,667個以太坊。Hive將其比特幣挖礦哈希率從每秒2.17exahash(EH/s)提高到2.24EH/s。根據聲明,以太坊挖礦能力從月初的6.26(TH/s)上升到6.0TH/s,因為夏季氣溫較高,一些礦工暫時下線以進行布局優化。(theblock)[2022/7/8 1:58:57]

ChatGPT 使用來自人類反饋的強化學習(RLHF),通過最小化偏差對模型進行微調。但為什么不是監督學習(Supervised learning,SL)呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員 Sebastian Raschka 在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

動態 | Ryan X Charles:反對比特幣現金強制重播保護:據ambcrypto消息,Money Button首席執行官、BSV的支持者Ryan X Charles在接受采訪時表示,反對比特幣現金強制重播保護。因為這對網絡“非常具有破壞性”。他還表示,BSV的關鍵價值主張是一個穩定的協議,即使不等同于原始的比特幣協議,它也是“非常接近”的,這將被重播保護所破壞。[2018/12/4]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF 則被訓練來估計產生反應的質量,而不僅僅是排名分數。

動態 | ResearchAndMarkets報告: 2018-2022年區塊鏈服務市場年復合增長率為85.49%:據ResearchAndMarkets發布的報告稱,2018-2022年期間,全球區塊鏈服務(BaaS)市場年復合增長率為85.49%。[2018/8/24]

Sebastian Raschka 分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和 ChatGPT 之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇 SL 的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠 SL 是不夠的,RLHF 對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現 RLHF 往往表現得更好。2022 年的一篇論文《從人類反饋中學習總結》顯示,RLHF 比 SL 表現得更好。原因是 RLHF 考慮了連貫性對話的累積獎勵,而 SL 由于其文本段落級的損失函數而未能很好做到這一點。

像 InstructGPT 和 ChatGPT 這樣的 LLMs 同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用 SL 對模型進行微調,然后使用 RL 進一步更新。SL 階段允許模型學習任務的基本結構和內容,而 RLHF 階段則完善模型的反應以提高準確性。

DeFi之道

個人專欄

閱讀更多

金色財經 善歐巴

金色早8點

Odaily星球日報

歐科云鏈

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新聞

Tags:CHA比特幣GPTATGChad Coin比特幣錢包哪個最安全可靠HyperGPTCatgirl Optimus

Luna
新聞周刊 | 比特幣市值超過Visa_BAS:coincheck交易平臺會跑嗎

金色周刊是金色財經推出的一檔每周區塊鏈行業總結欄目,內容涵蓋一周重點新聞、礦業信息、項目動態、技術進展等行業動態。本文是其中的新聞周刊,帶您一覽本周區塊鏈行業大事.

1900/1/1 0:00:00
ETHDenver 2023 會議背后的 VC 觀察_WEB:ETH合法嗎

主持人:Chloe,Foresight News嘉賓:Evans(Arcane Group Partner)、Joshua(Antalpha Investment Manager)、Elaine.

1900/1/1 0:00:00
金色Web3.0日報 | Aptos將舉行黑客松_NFT:元宇宙下載

DeFi數據 1、DeFi代幣總市值:523.32億美元 DeFi總市值及前十代幣 數據來源:coingecko2、過去24小時去中心化交易所的交易量47.

1900/1/1 0:00:00
LSD市場爭奪戰開啟 一文梳理9個潛力協議_LSD:ETH

原文作者:Louis Cooper原文編譯:0x 11 ,Foresight News上海升級將釋放價值超過 270 億美元的 ETH.

1900/1/1 0:00:00
主網上線 一文速覽zkSync Era更新功能_NBS:ZKS

2 月 16 號,ZK 系L2擴容解決方案 zkSync 宣布了 2.0 版本的上線.

1900/1/1 0:00:00
關于Blur的深度討論及潛在投資機會_BSP:NBS幣

原文作者:Jessica Shen, Mint Ventures 投資經理本文先對 Blur 當前的機遇和挑戰展開討論.

1900/1/1 0:00:00
ads