這裡面有一點是,一般 1999 是 Q&A,但是我們應該要用 section 的概念,我可能是 5、6 句在服務一個 case。
那 1999 可以收回來的話⋯⋯
對。
對。9 月的核心程式應該也有一些能力了,再把一路的東西做校正,12 月可以 demo 除了一般你問它問題、它跟你對話以外,它真的可以替政府服務人民的角色。
因為前面社群的部分是比較發散,後面是比較 focus。
因為以後就被微軟綁死了。
台北市政府花錢沒有關係,很快讓民眾享受這樣的服務,但是控制能力比較低,他對談出來的東西有一些牴觸,或者是不符合法規,可能要重新叫他們客服再修,我們這邊一開始就可以⋯⋯
我們當時講說臺灣要有自己的一套,其實這個很多業界感興趣,除看到聯發科在講,台達電也在講,其實前兩天玉山銀行的數位長說玉山銀行內部為了這個 ChatGPT 做了黑客松,其實我看起來很簡單,一個使用方式是讓使用者輸入的時候,submit 給 ChatGPT 之前,就把玉山的 regulation 附上去,所以就在那邊做。
他的意思也是如果有臺灣的可以用,最後也不用太擔心這個 data 是被怎麼樣。
我也跟部長提一下,這件事我花了一、兩個月,一開始很大的憂心是,當抖音來臺灣的時候,我們沒有辦法跟民眾溝通叫人家不能用,但當你自己有一套百度的 ChatGPT 出來的時候,你可以說有第二個選項可以使用,我們的用詞比較臺灣風格,所以這是另外一層為何臺灣非做不可的原因。
我相信。這個是文化滲透,讓你使用習慣,所以就是從國安上的需求,還是很希望臺灣能夠有這個。
其實他們講的,我那天聽微軟 demo,他們在講 teams 除了做逐字稿,也可以做摘要,action item 都出來,我都很想用。
所以 Bing 的做法是:我可以回答,但是我給你官網、reference 的東西。
目前沒有特別想這件事,第一個問我的問題是,假設給你 2 億,人家已經花了這麼多錢,憑什麼你覺得可以做?
即使是 ChatGPT,ChatGPT 也燒了非常多錢。
所以我們用 BLOOM 這些來做。第二件事,我們不教你去寫程式、寫數學問題跟講笑話,這並不是期待未來臺灣版 ChatGPT 有的功能,因此我們做的時候會特別列中翻英、英翻中及文字編修跟要點,比大家現在正在玩的 ChatGPT 功能有限縮,但是我們希望做出來的東西,就是未來可能的應用。
我知道你的意思。
目前 ChatGPT 也是幻想。
後面的搜尋引擎其實臺灣有人做,到底要不要把它綁進來,這也是一個機會。
因為臺灣兩個搜尋引擎都死掉了。
看你要不要讓它翻轉?要不要弄個台版的引擎?其實有點像是你 search 的 domain ,不用這麼大、且更新快,沒有像 Google、Bing 這麼難。
其實要弄 search 引擎也不難,現在只是會有 delay,就是這邊的技術,我也沒有把握以臺灣現在的技術可以跟 Bing、Google 來競爭。
目前真的是專注做,我只是說你做出來這些核心的 model,已經讓國網有這種技術上成長、落地的一些應用,因為畢竟拿政府的錢。政府對民眾服務與溝通的這一塊,你可以支持,有這樣自己的⋯⋯
對。我找你有兩個目的:第一個是看跨部會署科發基金,數位部是不是願意合提?因為目前的規劃是國科會主提,應該會委給國研院,數位部合提的部分,像做這些 1999、政府法規,讓一些基層的公務人員去玩一下 ChatGPT、蒐集這些比較有目的性與實用情境來切合民眾需求之資料,然後反饋回來,這個是數位部的角色。
給數位部多少錢?
全部是 2 億,如果是數位部,我算大概是 1,500 萬左右。
那個就編下年度,現在是要跨部會署提嗎?
其實我在推 AI 2.0 的時候,我特別有講說對 AI 產品的驗測,這個很重要。
即使是沒有 ChatGPT 這個 issue。
我知道你的意思,你的意思是這個 AI 驗測實驗室是對任何 AI 的產品,因為先有 regulation,要有一個驗測實驗室,所以這個是不管有沒有 ChatGPT 都要編錢的。
對,不能做槍、販毒的這些事。
是不一樣的。所以那時人家問我 AI 驗測實驗室有很多分支,就像消基會以前是驗食品的,你本來 AI 是很大的領域,但是像無人載具、人臉辨識這些都是不同的選擇。
其實這個影響更大。
無人載具不能等,吳政委認為他超前布署,因為開始談無人載具、資安驗測的時候,那時候我們先談,才有故宮南院的無人機案,他才能說有先規劃。
這有兩塊,一個是紅字寫的 governance、audit,這顯然可以有新的,而且這個是要長期做的。
但是如果以全部 2 億的情況,1,500 萬去蒐集資料,這是比較獨立的。
就不用做了啊!
比較有競爭力。
另外,我看到 ChatGPT 3,不管繁體中文、簡體中文,所占的比例只有 0.09%,大部分是英文的。
所以意思是,今天你從這樣的 model,你大量用我們的中文去練,事實上中文是明顯變好,至少 BLOOM 我們已經看得到效果了。
多的就蓋過去。
有,我們現在大量在蒐集,其實剛剛提到國網,其實國家實驗研究院有一個科政中心,他們有很多資料,而且他們也很知道如何跟人家談授權,所以 data 那一塊就拜託科政中心,然後算力這一塊就是國網中心,然後 model 的 fine tune 就找李宏毅這些人。再來是這些東西的使用情境。
有。
前一陣子台大的語料庫是臺灣授權的。
廖什麼的,另外成大也有一位教授做台語跟中文混雜。
所以 speech to text 是最好介接,至少這個頁面很多人習慣用講的。
他大概不會理你,因為市場太小。