加密貨幣交易所 加密貨幣交易所
Ctrl+D 加密貨幣交易所
ads
首頁 > 火星幣 > Info

ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_CHA:AIN

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

新加坡前總理吳作棟加入區塊鏈公司ChainUp擔任特別顧問:9月27日消息,區塊鏈技術提供商ChainUp周日宣布,已聘請新加坡前總理吳作棟(Goh Chok Tong)為其新任命的董事會特別顧問。ChainUp的董事會將由董事長Ooi Sang Kuang領導,他也是新加坡華僑銀行的董事會主席。據悉,吳作棟自1990年起接任李光耀任新加坡總理,并于1992年起擔任新加坡人民行動黨秘書長至2004年為止。

ChainUp總部位于新加坡,提供一整套區塊鏈解決方案,包括流動性解決方案、NFT交易系統、錢包解決方案以及數字資產托管和管理。(海峽時報)[2022/9/27 22:33:04]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

Stargate在Galxe上推出新活動,完成的用戶可鑄造Omnichain NFT:9月16日消息,基于Layer Zero的跨鏈橋Stargate在Galxe上推出新活動,在北京時間9月20日8:00至10月4日7:59期間使用Stargate從Optimism上轉出或向Optimsim轉入最少100美元的USDC或以太坊的用戶,將可以免費在Galxe上鑄造一枚在Optimism上發行的Omnichain NFT,跨鏈金額最高的用戶將可鑄造一枚獨一無二的NFT。[2022/9/16 7:01:12]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

Quantum Blockchain Technologies報告2021年虧損540萬歐元后股價下跌:6月30日消息,加密貨幣技術公司Quantum Blockchain Technologies PLC在公布2021年虧損擴大后股價下跌。

Quantum去年凈虧損540萬歐元(560萬美元),而2020年凈虧損為120萬歐元。這在很大程度上由與認股權相關的260萬歐元費用導致。截至格林尼治時間7點54分,該公司股價下跌11%,至1.55便士。(MarketWatch)[2022/6/30 1:41:58]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAChainAINHAIEDCC BlockchainMchaintruechainblockchain怎么注冊

火星幣
Web3中文|2023年ZK賽道有哪些參與機會?(附操作指南)_ROL:TrollCoin

展望2023年的加密市場,無疑ZK是最令人期待的細分賽道。一方面以太坊創始人VitalikButerin最看好這項技術,表示過去十年里,最強大的密碼技術也許是通用簡潔的零知識證明;另一方面,ZK.

1900/1/1 0:00:00
深入了解Synthetix V3:功能、優勢和未來計劃_THE:HET

原文標題:《WhatisSynthetixV3?》原文作者:MattLosquadro,Synthetix?原文編譯:Kxp.

1900/1/1 0:00:00
Ordinals會讓比特幣再次變得有趣嗎?_比特幣:din幣種

文/JoelJohn,譯/金色財經xiaozou如今的科技行業真是處于一個奇怪的時代。上周末,最大的銀行之一出現了“流動性問題”,Circle的穩定幣并不穩定,美國數字資產買家的主要入金渠道Si.

1900/1/1 0:00:00
亞馬遜入局 NFT能復燃嗎_亞馬遜:Web AI

來源:北京商報? 自去年11月以來,加密貨幣的總市值下降了2/3,面臨著持續挑戰。但投資者對該行業的興趣仍然遠勝其他行業。比如美國電商巨頭亞馬遜,就想將實體商品與NFT關聯,開辟一條新的路徑.

1900/1/1 0:00:00
監管機構持續施壓加密銀行業務路在何方?_加密貨幣:cobo和trustwallet

加密銀行業務一團糟,FTX交易所的暴雷導致兩家受美國監管的銀行遭受破壞性擠兌。其中,SilvergateCapitalCorp.不得不虧本出售資產以償還存款人和貸款人,SilvergateBan.

1900/1/1 0:00:00
AIGC 浪潮下 Web3 的應用層創新_AIG:AIG幣

撰文:Alice,ForesightVenturesChatGPT推出兩個月后用戶數量迅速突破1億,成為業內和資本市場的關注熱點。目前,國內外已有多家科技巨頭在AIGC領域布局.

1900/1/1 0:00:00
ads