我的 P(Doom) 是 NaN,也就是「非數值」(Not A Number),原因如下。如果你將風險視為能力除以可觀測性(capability divided by visibility),故事看起來很簡單,對吧?分子正在快速攀升。每個人都看到它在攀升。
但在可觀測性方面,對於主導架構——自注意力轉換器(self-attention Transformers)——我們可以測量一些內部數據,但我們無法可靠地解釋它們。正因為如此,當我們問「這有多危險?」時,我們試圖計算一個檢查項缺失的數值,就像除以零之類的。
但當然,如果你是像 Eliezer 那樣的貝氏主義者,你會說機率永遠不會是未定義的。永遠不會是非數值。只要給我一個先驗機率(prior),我就會給你一個後驗機率(posterior)。
但如果似然函數(likelihood function)壞了,它看起來就像一條平線,對吧?它覆蓋了整個棋盤。從 0% 到 100%。我們是在盲目飛行。我們不知道。所以平均值,我猜,是 50%,但那是裝飾性的。區間才是訊息。除非你有真正的可解釋性,否則計算根本不會收斂。
嗯,我的意思是,我不知道,對吧?這就像把硬幣拋向外太空。它正面朝上的機率是多少?有人進來說,我認為它幾乎總是正面朝上。永遠不會是反面。好吧,但它被拋進了外太空。等到它落地時,我可能已經不在了。我有什麼立場說他們可能錯了?
嗯,它在旋轉。它只是在旋轉。是啊。
是 0 到 100。而且,我認為我們需要具有有界、可檢查狀態的架構,而不是目前的木製特洛伊木馬,我們真的不知道裡面是什麼,它是會急左轉還是急右轉,妳不知道。
但我們需要透明馬系統,作為部署條件,可以實際看透它,那樣我就能給出一個真實的數字。
這是一個好問題。我認為對於核武,它的可解釋性要高得多,因為必須有人發射那枚核導彈。所以我的核戰 P(Doom) 形狀更標準。所以是的,我的核戰變異數(variance)相當窄。
是指平均值?
是的,我想我會把它定在大約 50% 左右,而且…
但這是一個與 AI 末日形狀非常不同的 50%,AI 末日像這樣(平坦),但核戰可能像這樣(鐘形)。而且通往核戰末日的某些路徑部分是由於爭奪 AI 霸權、統治地位等引發的。我們當然可以談論這一點,但這並非微不足道。
變異數較高。
嗯哼。
沒錯。
因為我們不知道。我們真的不知道。
首先,如你所知,作為負責疫情數位回應的人,我非常認真看待大流行病。臺灣在 2020 年疫情的第一年僅通報了 7 例 COVID 死亡,部分原因是幾年前我們經歷了非常嚴重的 SARS。
因為那次 SARS 的經驗,臺灣按比例損失的人數比任何其他國家都多,我們基本上「預先防範」(pre-bunked)了一堆與大流行相關的問題。所以,例如戴口罩與不戴口罩、疫苗與不疫苗、接觸者追蹤等等,我們在一次流行病與全球大流行之間的間隔期進行了真正的討論。
因此,試圖聚焦以縮小大流行病的變異數一直是臺灣的主要工作,這在 COVID 案例中對我們很有幫助。當然,核戰,我們已經談過了。有許多可能的路徑,但我們需要認真對待,對吧?
所以當聲明起草者拿著這個東西來找我時,我想,好吧,也許我們也應該談談其他風險,比如氣候或其他什麼。它並沒有列舉所有風險。
但我非常認真看待大流行病和核戰,我希望全世界知道,我們目前對 AI 風險的實際形狀幾乎一無所知,這就是為什麼我簽署了,某種程度上是為了說這是與其他我們了解得多的兩個風險並列的全球優先事項。
而且「減輕」(mitigating)始於「量測」(measuring)。
嗯,我認為在許多人簽署聲明後,它已成為全球優先事項。我認為我們目前的挑戰不是人們不想減輕風險,而是減輕風險的成本和這類工作帶來的紅利,在許多政策制定者的心中並不是首要任務。
這就像在九一一事件之前。如果人們提倡加強機場安檢、加強駕駛艙門和其他許多措施,總共可能花費數百萬甚至數十億。但之後每年的成功指標是,引號,「什麼事都沒發生」。以政治人物的角度來說,這不是一個很持久的政策立場。所以隨著時間推移,人們會逐漸減少投資。
而在臺灣我們試圖做的是說:「好吧,通過投資於協作、測量、群眾外包的安全,我們也可以獲得紅利,」就像我提到的,減少極化。人們彼此仇恨減少了。我們可以圍繞核能或大流行病等其他風險進行協調,而且也能產生更好的經濟政策,因為國家在兩三種意識形態之間的搖擺減少了。
所以它在此過程中支付了真正的政治紅利,並作為副作用減輕了滅絕風險,我認為這更具可持續性。
沒錯。它更在地化、更受控。
對。「超信念」是一種自我實現的預言。如果人們如此強烈地相信某事,以至於人們開始集體表現得好像那是真實的,那麼就會實現那個結局,對吧?
所以,如果每個人都覺得他們註定要毀滅,並停止投入精力去實際改善情況,那我們就真的毀滅了。所以集體相信高 P(Doom) 實際上會帶來高 P(Doom)。
嗯,當然。所以可能存在一個生產力的高原。就像血液中咖啡因的理想比例一樣。可能需要靜脈注射來保持穩定,並確保它是可引導的,這樣才能有意義地將其引導到人們可以以較低變異數、更窄、更有信心的預測來計算 P(Doom) 的地方。
所以「超級預測」(superforecasting),所有這些都有幫助。但你不希望人們在我們甚至無法可靠測量之前,即使變異數非常非常高的時候,就去相信一個平均點,因為當人們圍繞那個平均點(像謝林點 Schelling point)收斂時,通常不是一個好點。
嗯,這取決於情況,對吧?就像我提到的,如果你談論超級說服力、資訊脈絡崩塌、過度依賴、合成親密感,我會說臺灣人可能處於最佳警覺狀態,因為我們一直在這類地震的最前線。
但在其他地方,人們只是說:「噢,這只是一台機器,它做不到超人類說服,它是隨機鸚鵡(stochastic parrot)等等,」那我會說這可能低於最佳水準。
那太好了。那太好了,作為一個「販賣希望者」(hopemonger),我支持這一點。
所以你需要有最佳數量的恐懼,希望才會浮現。
當然。多元宇宙是一套技術設計準則,主張與其設計技術讓 AI 迴圈中的人類表現得像倉鼠在滾輪上一樣——倉鼠可能感覺很棒,上癮等等,在運動,但倉鼠對滾輪的去向零控制權。實際上,滾輪哪裡也沒去。
因此,與其製造剝奪社群權力的技術,我們應該製造能夠連接社群的技術,儘管或者正因為他們的差異,並將這些差異引起的衝突視為能量。
所以將人類從 AI 迴圈中移出,並將 AI 放入人類的迴圈中。把這些想成這種倉鼠滾輪。我們基本上是在跟其他人打影子拳,而不是形成連結。
多元宇宙是說:「好,這種奇點(singularity)觀點,即人們集體失去對倉鼠滾輪的控制,是壞結局,而我們想要好結局,即 AI 系統像營火、篝火,人們聚集在周圍,照亮我們的臉龐,讓我們能更清楚地看到彼此等等。」
但這也讓社群更容易形成紐帶,並在社群之間建立橋樑,所以不是切斷人際聯繫的野火,而是連接人們的篝火。
當然。一個對手是這種「最大化作業系統」(maximization operating system, max OS),不惜一切代價優化某個數字,比如參與度,無論手段如何。
這正是目前社交媒體上推薦引擎中未對齊系統的行為表現,對吧?我沒有訂閱這個內容,但它無論如何都推播給我。
現在,我在心理上對這些免疫,因為我的手機和電腦是灰階的,所以我不會獲得那麼多多巴胺衝擊,所以我沒有上癮,但很多人上癮了。
為了讓人們沉迷於他們沒有訂閱的短影音,這就是對手,對吧?這實際上是將人們從有意義的關係吸引到「關係垃圾食物」(relational junk food)中,它的關係營養為零,但人們卻偏好它,即使他們「偏好不要偏好它」(prefer not to prefer it),這就是多元宇宙立場的對照。
嗯,我正在與一個團隊合作建立所謂的「Green Earth」基礎設施。我們首先與 Bluesky 合作,這就是為什麼它叫 Green Earth。
但這做的是將你的顯性偏好,例如,你可以直接跟 Green Earth 說:「我想看到更多不同陣營的 AI 研究人員之間有意義的對話,」它可以將其轉化為語言模型嵌入(embedding),然後用它來重新排序你所有訂閱和推薦的動態。
然後將最具橋接性(即匯聚各種觀點)、最平衡、最好的論點(不是稻草人論證),從雙方排序到你的動態頂部。
所以這變成了利社會(pro-social)動態,因為你參與得越多,你就越能將你的立場傳達給另一方,反之亦然。所以它是橋接的,它是連接的,這就是利社會媒體。我們有一篇論文就叫《利社會媒體》(Pro-Social Media),正是關於如何實現這一點。
對。所以這個想法是我們應該設定我們的服務條款,對吧?目前的情況是你可以一直告訴 TikTok 或其他任何社交媒體:「我不喜歡這個。我不喜歡這個,」但同樣,沒有可解釋性。它可能會向你展示其他東西,但它從不解釋為什麼它向你展示其他東西。
微劑量。是啊。嗯,我的意思是,伊隆(Elon)確實說過你很快就能透過 Grok 做到這一點,我們看看有多快。