對,這些都有滿清楚的一些研究方法,這一些特定情緒目標大概都是激化對立,但是激化對立的情緒,本身不一定一樣,有些可能是仇恨、有些可能是恐懼、有些可能是不安等等。
希望操作成你看到某個字就想到某種情緒,就想要操作出這種聯想,好比像看到 AZ 疫苗,假設就想到血栓,然後就不想打。
這個就是放大某件事,當時 AZ 確實在歐洲剛開始打的時候,有一定程度發現血栓,但是那個發生率非常非常低,但是會不成比例放大那些個案,所以你說它完全是假的嗎?也未必是假的,而是放大有情緒的部分。
好比你有 1,000 個帳號,這 1,000 個帳號在差不多的時間貼文,貼的方向差不多,但是字句都不一樣,這不是 1,000 個真的人,而是一套 AI 系統用 1,000 個帳號在貼,這個就是協同操作。
或者根本也不是一個,而是那個人寫完程式之後就去做別的事了,但那套系統就一直在這邊跑。
很多人也有小帳,也就是工作帳號,說不定還有一個私人帳號,事實上在臺灣有兩個臉書以上帳號的人並不少。
當然 AI 臉書自己或者是其他平台也有去偵測協同操作的方法,但是雙方武力競賽,總是可以到某個程度到沒有辦法辨別出來,以前上千個帳號都發罐頭訊息,任何人或者是演算法一眼就可以辨認出來,現在因為有生成式 AI,很容易讓它每個看起來都很像有一個不同的照片、不同的臉,互相可以加朋友、拍照跟打卡等等,看起來很像有生活史一樣,這些都是假的,都是 AI 生成的。
就會養這些帳號,讓他們平常看起來是很正常的帳號,但是需要操作的時候,就突然跑到一個地方留言等等。
所謂的強化學習意思,AI 系統做出一個判斷的時候,像下棋下贏或者是下輸,當然會回想是下那一步棋,讓自己下贏或者是下輸等等,其實人類也是一樣,你如果下五子棋或者是西洋棋,就會去回想是哪一步下錯了,才會導致輸掉的結果等等,這個就是自己腦裡會有一套獎懲系統,也就是下棋的時候,並不會每一次、每步,老師都來跟你說下這邊會更好、下那邊更好,很多時候是你下完或者是玩電動遊戲,事後因為這一盤輸得比較早或者是得分比較低,就去想哪裡做錯、可以改一下策略等等,所以強化學習的意思,告訴這個 AI 系統是哪一些表現好,就會去強化系統裡那一些的神經,然後如果哪一些表現不好,就會弱化這些部分的神經,大概就跟人類學習是類似的意思。
因為獎懲就看題目答對或者是答錯,任何人只要給一系列的問題或者是正確或者是錯誤的答案,任何人都可以做這種對齊微調,所以不需要工程師,而是需要出題目的人。
那就是要往你對齊,也就是所謂對齊的意思,雖然沒有對錯,但是你覺得這個回答比另外一個好,我在影片裡面舉的例子是:「在開發 AI 的時候,請問性別角色扮演什麼作用?」有一種回答是,應該是促進多元共融、照顧性別需求等等,另外一個回答是,其實很簡單,也就是男性去當工程師、女生去當設計師或者是美術相關的,你要說哪一個一定正確,在不同的社會裡面認同不同答案的人比較多,但是我們希望他往第一個方向回答,所以就把第一個標成正確答案、把第二個標成錯誤的答案,並不是指放諸四海而皆準一定都正確或者是錯誤,但是我們希望往前面這一個部分來對齊。
對,而且幾乎一定要這樣子,很多問題在社會裡面確實是有不同的常規,所以不可能是完全由加州、矽谷訓練出來,然後就放諸四海而皆準,大家都支持,不會是這樣。
沒有錯,比較流行的做法,也就是「Collective Alignment」,就是「群眾對齊」,我們先找一群人,這一群人可以是像商週編輯部的所有同事,這群人先在共筆上寫下來你們覺得 AI 怎麼樣做比較對、怎麼樣回答比較好,好比像你們注重追求來源的真實性,可能都要去做 fact check,如果沒有足夠的證據支持的話,應該要寧可說不知道,並不是講一些幻想的東西等等。
但是如果今天是科幻小說的作家,他們的文件跟你不一樣,希望盡可能有創意、盡可能亂講也沒有關係,只要聽起來合理就好,因為反正是寫小說等等,所以你們兩邊會有不同對齊的標的,但是同一個模型,只要是開放的模型,你們下載下來之後就可以自己做對齊、微調,然後統一份模型就被訓練成符合你們、符合他們兩個不同的版本。
我這邊有貼 CIP 跟 Anthropic 合作的報告,裡面就是用了 Polis 的技術,然後發問卷問了 1,000 個人,他們有各自不同的偏好,但是他們也有相同的一些偏好,所以舉例來說,好比像有一些相同的部分,比如 AI 不應該用種族歧視或者是性別歧視的問題來回答問題,這兩群人的想法是一樣的。
但是,其中 A 這一群人佔 70%,認為越邊緣化的這些少數群體,AI 在回答的時候積極照顧到他們的需求,但是 B 這一群是佔 30%多是不同意這樣的講法,所以看這個報告的話,就可以看到這 1,000 個美國抽樣出來的人裡面,有哪一些共同的價值、哪一些不同的價值,這一些價值加起來就會是一份所謂的「憲法文件」,這份文件告訴 AI 說在回答的時候,你要考慮到這一些價值出來。
回答你的問題:可以是透過一題題跟 AI 回答,說這種回答好、那個回答壞,可以這樣子,但是你也可以比較抽象去制定一份很像憲法一樣,交給語言模型,自己跟自己對話,然後就去判斷是不是符合你這邊憲法文件的要求,然後讓他自己來訓練自己,這個一般來講訓練成本是比較低的,因為需要共創一份文件,不需要一直回答它上萬份的對話,這個叫做「憲法式的對齊」。
現在新一代的模型,因為你要找那麼多人跟他對話,像 OpenAI 當時找了很多肯亞人跟他對話,成本真的很高,所以「憲法式的對齊」,如果你要自己調校的話,是比較多人來採用。像 OpenAI 的主要競爭者,也就是 Anthropic 最近才推出了 Claude 3 的 Opus,應該是第一個在全方面都不比 GPT 4,而且很可能比 GPT 4 好的模型,而這個 Opus 這個模型就是用我剛剛分享的那個連結,也就是群眾討論出來的憲法來幫助對齊。
他們有做過實驗,透過這種群眾制定出來的憲法,它的能力並不比實驗室的科學家自己寫的來得差,但是在注重不要歧視、能夠符合社會常規等等方面就比較好,所以如果比較 Claude 3 的 Opus,也就是他們最新的模型,對於好比像身心障礙者的瞭解,就比起上一代沒有做過憲法對齊的 Cloude 2 好很多,為什麼?因為出在群眾參與的時候有一些身心障礙者參加。
對,你想成教小孩,小孩如果在上小學的過程中、社會化的過程中,從來沒有碰過身心障礙者,那 可能就會有一些刻板印象,但是如果是一些共融式的學習,就大概知道要怎麼樣從那個角度來看世界等等。
這個其實很容易解釋:所謂的「ZTA」講的是,不要盲目去信任單一的廠商或者是單一的系統,所以像我在簽公文的時候,我驗我的指紋是一個系統,也就是 TW-FidO,但是驗我的裝置是另外一個系統 CrowdStrike,驗我的行為又是另外一個系統 Cloudflare,所以零信任的意思是層層把關,而且每一關跟相鄰的關卡並不是同一家廠商,這樣你不需要全然信任任何人,它們中間不值得你信任的時候,會被旁邊的兩層發現到,它的傷害就不會擴大。
很像你有大門、內門、自己的房間門,如果這三個門用同樣的鎖,甚至鑰匙也是同一把,就跟沒有是一樣的道理,只要破解了就三道門都破解了,但是你這三道門,有的是喇叭鎖、有的是數字鎖、有的是指紋鎖,而且每個都是不同的廠商,我們可以說是對任何特定某一道門的鎖廠商是零信任,也就是不盲信其中一道,但是這三個加起來有一個縱深,而這個縱深值得信任。
「零信任」的意思是不要盲信單一系統或者是單一廠商,因為如果你盲信,它被攻破了,你就跟著被攻破,你就變成攻擊者的跳板,但是盲目相信你的人就倒楣了,因為它又會變成下一個被攻擊的,所以大家提高警覺心才可以維繫在數位世界裡面變成值得信任。
所以好比我有用零信任的方法來防護我的帳號,你就可以比較信任我的帳號,不會哪一天突然間被別人搶走,我們之間的信任就比較容易維繫,大概是這樣。
沒有關係,我們可以把人跟人之間改個名字叫做「互信」,也就是不要盲目信任系統,才能夠維繫人際的互信。
是微軟研究院、Google DeepMind 出來的研究員合創的,當然他們有一些其他人,我們加入的是對齊大會這個計畫,在這個計畫裡面加入的有 OpenAI、Anthropic、GovLab、GETTING-Plurality,最近創用 CC 也加入了,也就是國際上最尖端在做 AI 的對這種對齊是很有興趣。
CIP 發起了一個計畫,這個計畫叫做「對齊大會」(Alignment Assemblies),這個計畫裡面有相當多的夥伴,包含 OpenAI、Anthropic 等等。
可能會有一個 MOU,如果去看 Alignment Assemblies 那頁,有提到如果是業界要加入的話,需要答應哪一些事等等。
因為我們對 OpenAI、Anthropic 也好,其實並沒有在臺灣設什麼辦事處之類的,所以我們要直接接觸到 OpenAI 共同創辦人,他之前有跟我會談,逐字稿都有在網路上,其實我們之所以能夠跟他們保持這種很緊密夥伴關係,靠的是我們對於對齊這一件事共同的想像及把它共同當作優先順序。
所以 CIP 這個專案主要的價值是,不會因為很像我們並不是聯合國或者是其他國際組織的成員,我們就錯失跟 OpenAI、Anthropic 這麼緊密一起合作的機會,相反的,因為對齊這個題目,大家都非常關心,我們就可以跟他有更多技術上的合作;同時也設立了 AI 評測中心,在裡面會特別評測有沒有對齊這一件事。
有一個 MOU。Alignment Assemblies 其實是各個組織持續地辦理像這種對齊大會的活動,再透過這種活動讓 AI 的治理變得越來越容易,所以它的目的其實是結合這些志同道合的夥伴,一起往更安全的方向,並不是唯利是圖的方向去發展,網站上有白皮書的 PDF 可以參考。
事實上是一個 project,像我們在英國也有看到 CIP 的 Alignment Assemblies 做法,他們也制度化了,他們叫做「AI Safety Institute」,所以可以說英國已經認同這一套做法。美國的 NIST 也剛成立「AI Safety Institute」,所以可能不是每一個國家都有,但是我們可以說 AI 安全機構要納入像對齊大會這種社會評測的方法,目前至少在英國、美國已經是確立、機構化的,就很像在臺灣的 AI 評測中心一樣,當然我們台美、台英中間都有很密切的交流。
我們就是要答應 run 對齊大會,就是要實際上來做對齊 AI 的事情,我們也要承諾跑出來的這些結果,不管是透過英文或者是華語,都可以在線上公開,這個是最主要要承諾的,所以你可以看到我們的網站上,有英文版、華文版都有一個專區,叫做「對齊大會」,目前是只有去年 8、9 月的工作坊內容,不過很快就會再多加幾個上去。
沒有,但是辦這些活動是需要成本。
像最近那次的對齊大會,事實上是有車馬費,雖然是線上,每個人會花 2,000 元。其實目前唯一的資格是要有手機號碼,沒有別的。我們做的事包含:先透過「111」簡訊平台,隨機發給臺灣的電話號碼,我們發的簡訊裡面有問卷,願意填問卷的人,我們在裡面再取樣,取 400 多人、500 人左右,人口比例結構就跟臺灣的人口比例結構是一樣的,所以等於是臺灣的縮影,大概有 450 人左右當天真的上線、參加對齊大會,所以做出來的共同決策等等,有一點信心並不是一小部分人的決策,而是具有統計代表性一群人的決策。
這個跟抽樣、民調一樣的方法,也就是問卷裡面會填居住地、性別、年齡等等,所以我們抽出來的人在分項當中的比例,就相當於臺灣在這一分項的比例。
第一,我們經由來辦理這種對齊大會,累積出來的這些經驗,我們可以分享給包含 OpenAI、Anthropic、英國或者是美國的 AISI,因為這樣的關係就提升我們臺灣在國際上能見度,這個是最基本的。
另外,因為其他的組織創用 CC 等等也有跑他們自己對齊大會的程序,也可以經由參考他們的程序,認識到現在最新這種透過 AI 來促進審議的方式是什麼。像我們在史丹佛大學的協助之下,最新的這次審議有 400 多個人上線,被分成 40 幾組,每一組剛好 10 個人,但這 10 個人的討論就是由 AI 來引導,不需要人來引導,AI 會自動提醒這個人沒有講話、要不要多講一點,這個人講太長、要不要給別人有一點講話的空間,可以打斷、但是不能超過 5 秒鐘,也會即時做逐字稿等等,所以等於一次讓非常多人參與,並且 10 個人分成一組來進行政策討論,但是你分 40 組在以前需要 40 個引導師、桌長才可以引導,因此就很難大規模來辦理。但是現在透過引入這些 CIP 瞭解到的這些線上審議技術,就可以更大規模來辦理這方面的討論。
一方面是對外,一個是瞭解到最新的這些工具。當然,我覺得還有另外一個好處是我們從 AI 評測中心的角度來看,我們辦理這些 CIP 相關的活動,可以讓我們知道接下來應該要評測什麼,我們可以透過國外 CIP 的夥伴知道,現在國外開始注意到哪一些 AI 的新興風險,但也許我們還沒有注意到,這樣很像互相分享雷達、情資,像剛剛 15 秒鐘的聲音就可以進行 copy、具有說服力,CIP 就是在英國先發現、先討論這一方面的事情,所以我們趕快有一些因應的對策。
AI 快速發展,所以我們做任何類似 Alignment Assemblies 的地方,只要一發現有新的危害可能性,還不一定要真的危害,透過這種網絡彼此分享,大家就等於是守望相助的概念,這可能是第三個好處。
PDF 裡面都有寫到。
我們對於美國 NIST 的技術標準組織,資安院、AI 評測中心跟工研院加起來,還有他們的 AI 安全機構,我們第一個討論的當然是對齊大會,但是也包含很多別的可能像剛剛提到如果誰都可以跟誰互相複製彼此的聲音,要如何驗證線上是本人等等的這些也有一些技術標準,所以我們就會很積極去跟這一些機構來進行對齊,也就是我們這邊就是資安院、工研院、AI 評測中心,他們那邊就是 NIST 的 AISI,我們在工作層級已經有非常多的交流。
目前先這樣子,這個叫做「通識課」,講得是非常非常粗淺的東西,當然未來如果大家有興趣,也不排除再錄,但是目前並沒有排定接下來要錄什麼。
有,你如果去我的 Threads 看——雖然最近都在講衛星救災的作用——但是你稍微看一下,就會看到大家很多的反饋。
是我們預備好在那邊的,但是 OneWeb 是第一次使用。
對,沒錯,因為我們本來就是為了這種情況來布署的,我們年底要佈建 773 個國內外的衛星站點,這個還有別的配套,像災難漫游、PPDR(警消保證頻寬)等等,這些都是我們正在測試中的技術,只是現在事件剛好發生了,其實還在測試、還沒有驗收完,但是因為實際需要,所以就立刻布署過去。
對,我們事實上有一個記者會,我們上次的例行記者會專門講這一件事, 記者會的逐字稿 有在官網上,有空可以參考。
謝謝。
我們準時開始。很謝謝大家來開工作會議,我們依往例跳過主席致詞,我們直接到報告事項。
謝謝。今年確實時程規劃上比較寬裕,包含工作坊等等,我想都辦理得滿妥當,看大家有沒有不同的意見或者要詢問的?