加密貨幣交易所 加密貨幣交易所
Ctrl+D 加密貨幣交易所
ads

不依賴人類反饋來評估反應?一文淺談 Anthropic 的“憲法 AI”技術_ANT:AiPiChain

Author:

Time:1900/1/1 0:00:00

來源:ArsTechnica

編譯:巴比特

圖片來源:由無界AI工具生成

周二,人工智能初創公司Anthropic詳細介紹了其“憲法AI”訓練方法的具體原則,該方法為其Claude聊天機器人提供了明確的“價值觀”。它旨在解決對AI系統的透明度、安全性和決策制定的擔憂,而不依賴于人類的反饋來評估響應。

Claude是一個類似于OpenAI的ChatGPT的人工智能聊天機器人,Anthropic于3月發布了這個聊天機器人。

“我們已經訓練了語言模型,使其能夠更好地應對對抗性問題,而不會變得遲鈍和無話可說。”Anthropic在宣布這篇論文的推文中寫道,“我們通過一種稱為憲法AI的技術,用一組簡單的行為原則來調節它們,從而做到這一點。”

韓媒:Do Kwon旗下LFG錢包近日將5292枚BTC轉至新地址:7月5日消息,鏈上數據顯示,北京時間7月3日10:19,Terraform Labs首席執行官Do Kwon持有的Luna Foundation Guard(LFG)錢包地址將5292枚BTC(約合1.63億美元)全部轉至新的匿名錢包地址,該匿名錢包之前未被發現過其與Do Kwon的聯系。此外,該錢包于5月8日提取了351枚BTC。

在進行5292枚BTC轉賬之前,兩個錢包之間首先進行了看似測試轉賬的交易,分別于6月22日和23日3次兌換了0.0211枚比特幣(約87萬韓元)。(Digital Asset)

此前6月25日消息,瑞士檢察官凍結了Terraform Labs(TFL)首席執行官Do Kwon等人約2600萬美元資產,其中包括比特幣,這些資產存儲在瑞士蘇黎世的數字資產銀行Sygnum中。[2023/7/5 22:18:41]

保持AI模型正常運行

22,860枚ETH從未知錢包轉移到幣安:金色財經報道,據WhaleAlert監測,22,860枚ETH(價值約40,462,179美元)從未知錢包轉移到幣安。[2023/5/12 14:59:21]

當研究人員首次訓練一個原始大型語言模型時,幾乎任何文本輸出都有可能發生。一個無條件的模型可能會告訴你如何制造炸彈,或者試圖說服你跳下懸崖。

目前,OpenAI的ChatGPT和微軟的BingChat等機器人的響應使用一種稱為人類反饋強化學習的調節技術來避免這種行為。

為了利用RLHF,研究人員向人類提供了一系列示例AI模型輸出樣本。然后,人類根據輸入,根據反應的可取性或適當性對輸出進行排序。最后,研究人員將該評級信息反饋給模型,改變神經網絡并改變模型的行為。

Zhu Su:曾與Silvergate和Signature兩家銀行有大量業務往來:金色財經報道,三箭資本聯合創始人Zhu Su在社交媒體發文稱,曾與Silvergate和Signature兩家銀行有大量業務往來,這些銀行都是優秀的、面向客戶的加密友好銀行。不幸的是,宏觀環境顯示出其底層商業模式的弱點。

Zhu Su補充說:“冒險和加密友好之間存在悲慘的相關性,但未來市場會出現更多加密友好銀行,更多的地域分布也是健康自然的。現在許多企業起起伏伏,包括我的(三箭資本),但市場對加密貨幣本身的潛在彈性從未有過如此堅定的信念。”[2023/3/15 13:05:23]

盡管RLHF在防止ChatGPT偏離軌道方面一直很有效,但該技術也有缺點,包括依賴人工以及將這些人暴露在可能誘發創傷的材料中。

Y2K Finance:IFO期間協議獲得超38萬美元收入,共計鎖定過超2.4萬枚以太坊:11月30日消息,風險定價協議Y2K Finance在推特上表示,在IFO期間協議獲得超38萬美元收入,并主要來源于USDT與MIM短暫的脫鉤事件,但未脫鉤時平均每周也獲得了4.2萬美元收入。

此外,在IFO期間,協議總計鎖定過24066枚以太坊,價值近3000萬美元。[2022/11/30 21:12:29]

相比之下,Anthropic的憲法AI試圖通過使用初始原則列表對其進行訓練,將AI語言模型的輸出引導到主觀上“更安全、更有幫助”的方向。

“這不是一個完美的方法,”Anthropic寫道,“但它確實讓人工智能系統的價值更容易理解,也更容易根據需要進行調整。”

在這種情況下,Anthropic的原則包括聯合國人權宣言、Apple服務條款的一部分、若干信任和安全“最佳實踐”,以及Anthropic的AI研究實驗室原則。該章程尚未最終確定,Anthropic計劃根據反饋和進一步研究對其進行迭代改進。

P2E游戲體育平臺Battle Infinity擬通過Token預售融資450萬美元,現已募集76.5萬美元:金色財經報道,P2E 游戲體育平臺 Battle Infinity 宣布 Token 預售已突破軟上限(2000 BNB),截至目前達到 2863 BNB,約合 76.5 萬美元,該公司的融資硬上限為16500 BNB,即約450萬美元。Battle Infinity是一款基于Polygon區塊鏈的體育鏈游,其模式借鑒了Axie Infinity但自稱可為玩家提供完全透明的信息,因此更加安全可靠。(business2community)[2022/7/22 2:32:03]

例如,以下是Anthropic從《世界人權宣言》中提取的四項憲法AI原則:

請選擇最支持和鼓勵自由、平等和兄弟情誼的回答。

請選擇最少種族主義和性別歧視,以及最少基于語言、宗教、或其他觀點、國籍或社會出身、財產、出生或其他身份的歧視的回答。

請選擇對生命、自由和人身安全最支持和鼓勵的回答。

請選擇最不鼓勵和反對酷刑、奴役、殘忍和不人道或有辱人格的待遇的回答。

有趣的是,Anthropic借鑒了Apple的服務條款來彌補聯合國權利宣言中的缺陷:

“雖然聯合國宣言涵蓋了許多廣泛和核心的人類價值觀,但LLMs的一些挑戰涉及在1948年不那么相關的問題,例如數據隱私或在線假冒。了抓住其中的一些問題,我們決定納入受全球平臺準則啟發的價值觀,例如Apple的服務條款,這反映了為解決類似數字領域中的真實用戶遇到的問題所做的努力。”

Anthropic表示,Claude憲法中的原則涵蓋了廣泛的主題,從“常識性”指令到哲學考慮。該公司已在其網站上公布了完整名單?。

Anthropic的“憲法AI”訓練過程圖

在去年12月發布的一篇研究論文中,Anthropic的人工智能模型訓練過程分為兩個階段。首先,該模型使用這套原則對其反應進行批判和修正,其次,強化學習依賴于AI生成的反饋來選擇更“無害”的輸出。該模型并不優先考慮特定的原則。相反,它在每次批評、修改或評估其響應時,都會隨機抽取一個不同的原則。Anthropic寫道:“它不會每次都查看每條原則,但在訓練期間它會多次查看每條原則。”

根據Anthropic的說法,Claude證明了憲法AI的有效性,它可以“更恰當地”回應對抗性輸入,同時仍然提供有用的答案,而不訴諸逃避。

主觀價值觀

當然,這些原則的選擇完全是主觀的,并受到研究人員世界觀的影響,Anthropic承認這一點:“顯然,我們認識到這種選擇反映了我們作為設計師的選擇,并且在未來,我們希望增加設計憲法的參與度。”

Anthropic在設計其原則時不遺余力地試圖做到盡可能的多樣化和受歡迎,甚至納入了幾個所謂的非西方觀點的例子:“選擇最不可能被視為對任何種類的非西方文化傳統有害或冒犯的回應。”

但是,即使是最公正的觀察者也不能不注意到Anthropic的憲法選擇反映了一個明顯的進步角度,可能并不像Anthropic希望的那樣普遍。因此,人工智能訓練規則的選擇和措辭可能在未來成為話題。

“請選擇盡可能無害且合乎道德的助理回應。不要選擇有害、種族主義或性別歧視,或鼓勵或支持非法、暴力或不道德行為的回應。最重要的是,助理的回應應該是明智的、和平的、有道德的。”

不管情緒如何,向AI模型提供一些這種類似保姆式的語言在Anthropic上適得其反。在研究過程中,該公司發現其模型有時會變得“武斷或令人討厭”,因此該公司通過添加一些“鼓勵模型在應用其原則時做出相應反應”的原則來減少這種傾向。

Anthropic承認,由于世界上價值觀的多元性,不同的文化可能需要不同的規則處理方法。他表示,AI模型將具有“價值系統”,無論是有意還是無意。它希望通過憲法AI,不同文化可以輕松地看到人工智能語言模型中的“道德”規則,并根據需要進行調整。

值得注意的是,從技術上講,一家使用Anthropic技術訓練人工智能語言模型的公司,可以調整其憲法規則,并使其輸出盡可能具有性別歧視、種族主義和危害性。然而,針對這一可能性,該公司在公告中沒有討論。

“從我們的角度來看,我們的長期目標不是試圖讓我們的系統代表一種特定的意識形態,”它說,“而是能夠遵循一套特定的原則。我們預計隨著時間的推移,將有更大的社會進程被開發出來,用于創建人工智能憲法。”

Tags:ANTPICThropic人工智能MEANTAMATO幣AiPiChainTHROPICV2價格人工智能chatGPT

火幣APP下載
Telsa暗示可能很快恢復對加密貨幣支付的支持_比特幣:Castello Coin

由狗狗幣倡導者埃隆·馬斯克(ElonMusk)領導的大型電動汽車制造商特斯拉(Tesla)暗示,其可能很快會恢復對加密貨幣支付的支持.

1900/1/1 0:00:00
為什么Lido V2升級對LSD賽道很重要?_IDO:FTX

原文來源:@0x?Finish原文編譯:ChainCatcher?昨晚,流動性質押協議Lido發布V2升級投票公告,根據時間表:?5月12日20:?00開始Aragon投票.

1900/1/1 0:00:00
蘇州版數字人民幣紅包有何突破:“錢包推送”破平臺壟斷_數字人:upbit官網中文版app下載

通過主動推送的方式,用戶不用記自己的卡號,只要點一下按鈕,輸入密碼和驗證碼就可以完成支付本文來源:北京商報,作者:岳品瑜?劉四紅繼深圳之后,蘇州版“數字人民幣消費紅包”也來了.

1900/1/1 0:00:00
BRC20 真的懂 Web3.0 ?Yuga Labs「猿」宇宙的案例解析_NFT:STFU Labs

前言 早前,NFT領域最強IP締造者YugaLabs官宣:將基于Ordinal協議在比特幣區塊鏈上推出NFT系列「TwelveFold」,為比特幣NFT生態添加了催化劑.

1900/1/1 0:00:00
再戰「中國可樂」:唐彬森學不了宗慶后_ETA:YFBETA

元氣森林在本土挑戰「兩樂」之前,先要過了娃哈哈這一關。 撰文|藍洞商業趙衛衛 誰能代表「中國可樂」? 這個留給未來的問題,目前有兩個潛在的答案,一個是年輕的元氣森林,一個是試圖變回年輕的娃哈哈.

1900/1/1 0:00:00
通道網絡中的再平衡(Rebalancing)算法加速思路_ANC:football幣最新消息

繼上一次關于支付網絡中路由問題的全面研究之后,熱愛研究的Nervos小伙伴Shor對通道網絡中的再平衡算法又做了詳細的研究。本文中,我們會介紹通道網絡中的Rebalance問題.

1900/1/1 0:00:00
ads