也就是有沒有辦法蓋過法令,或者是作為那個法令的特別法?
所以老師的意思,是透過解釋蓋過去,或者法規本身可以修正?
所以確認一下,所謂的 AI ready,並不是把高價值應用資料,全部每一項都轉成 Hugging Face 相關格式狀態。而是先瞭解到學研界或者是自己公務用到哪一些,剛剛老師的意思是說有個精緻化的,類似平衡計分卡等等,國際標準怎樣,我們就做到怎樣。所以並不是我們要靠 data.gov.tw 來從頭預訓練一個模型,反正沒有那個量,而是把所有各領域用得到的精緻化資料集建立起來。可以這樣理解嗎?
聽起來是這邊的高價值跟 AI 的社群研究是有重疊的,但是說不定也許他們要的有一些還不算我們本來判定為高應用價值。好比有點是要做藝術創作,我們目前並沒有把上次文化部的歸類成高應用價值。但如果那個不會用來回答事實性問題,就比較沒有誠實不誠實的問題,只有符合或不符合本來文化溯源的問題,也許相對好解決的話,那個價值可能就比這個還要高,可以這樣理解嗎?
OK,這樣大概瞭解。請嘉凱。
一邊是 AI 研究社群跟資料提供者,另外一邊是資料管理社群跟我們這邊作為程式碼的提供者,如果沒有對接上的話,等於放出來沒有人用的情況。看有沒有第二個要討論的?如果沒有,是不是請多元司綜合回應?
我想數據公益當然主要是因為有限制用途,所以跟開放資料不一樣,但是隱私強化技術的部分則是完全相關的。因為經過先進的隱私強化之後,確實有可能變成開放資料,所以至少在隱私強化技術的部分,不管是剛剛講的資料匯流的願景,或者是公建計畫利基的隱私強化技術指定用指引等等,我覺得倒是早一點讓委員知道可能會比較好。
剛剛聽到的是,簡報右上角不太瞭解具體要怎麼樣達到,大家今天可以討論,但我覺得滿重要的是,所謂的「資料匯流」是什麼意思?不然大家會用一些形容詞或者是名詞,像「資料大壩」是韓國大壩還是哪裡的大壩,比較容易補上自己的意思,所以我是滿建議看多元司能不能說把隱私強化技術或者是資料經緯的部分整理成比較像願景文件,剛好可以放在這一張兩、三頁的程度,再加上一些基本的說明,會後不只是民間委員,各部會的委員也可以有一些基本討論的依據,之後再商量哪一些指引的時候,也比較有共同的想像。
看大家有沒有其他的追問?
剛剛講到這些指引,很多都是降低風險,也就是風險管理用,最後處理到開放的情況,是不會造成公務員的負擔。你剛剛提到的疲勞是做這件事很累還是沒有誘因?
一方面像剛剛老師說的,如果我們自己訓練出 AI 模型,可以在公務上用得到,這個對需求方是很明確的誘因,但是 CK 有想到什麼提供方的誘因嗎?
這個類似 AI public code 的想法,就是 data 這個平台,上面還沒有提到 AI public code。我們的想法確實一開始大家會架的並不是一整套 data 平台,反而是第 13 頁的工具,那些工具有一些聽起來像結構化的文件等等,但是有大家彼此用開發工具的習慣,我相信很快就會有比較永續性而且可能用得到 AI 工具在上面。
我舉例,好比像 data 平臺上有很多朋友覺得目前只能用關鍵字跟「#」,但是大部分的人不知道怎麼下關鍵字跟「#」,所以如何分類的話,可以用相似的意思搜尋,一次碰到比較多的資料集,像現在 RAG 這種東西,現在在民間是理所當然的事情了,其實我們自己的建置能力未必到那裡,所以意思是這邊 open source 出來之後,說不定找第三方的團隊去做融入 AI 來檢索的工作,但是因為 public code,別的單位也可以來使用。
像這樣的方向,大家覺得怎麼樣?
我們這邊有支援 DCAT 嗎?就是他們 CKAN 彼此間互通的?
所以剛剛講的並不是 CKAN,而是讓我們這個看起來很像 CKAN 一樣,對著大家 CKAN 寫好的工具去對接。
這個做一次,接下來各部會就省很多力氣,這就很像公建的形狀,很多都可以放到公建的形狀裡面來處理。
老師的意思是上面的 ODT 是已經掛在 data 平台上或者不是?
這個我們已經有討論過嗎?
意思是跑完轉檔工具之後,不管是 in put 或者是 out put 都不是開放資料,老師剛剛問的是這個,用來訓練模型或者怎麼樣,我們也不知道,反正就提供這個工具,並不是用了這個工具就必須承諾未來某一天會變成開放資料。
基本上一開始製作的時候,在 ODT 裡面的各種格式是有範本的,這個有點像把範本提取出來的工具,聽起來有點像泛用的,本來是有範本,就把你在範本以外自己寫的東西提出來,大概意思是這樣子。
是全自動工具,並不是決策輔助工具,對不對?意思是這樣子。而且輸出裡面每一個 bit 都可以在輸入裡面找到,並不是生成式的,自己想像出一些東西來,是不是這樣?
所以它是一個全自動,而且並不運用生成式或者什麼資料來源的話,應該效力是穩定的,不會有公務員要承受額外的責任問題。
看大家有沒有其他的建議
如果沒有的話,這個方向就是補上最後的願景文件,補個兩、三頁我們就跟今天的紀錄一起公開。各部會看到這樣的 vision 之後,如果你們缺哪一些工具才可以達到這種願景的話,其實這些工具都可以併在剛剛資料所提到「資料經緯的公共建設」來進行。接下來資料經緯相關的說明會等等的資料,也請盡早提供給院級的開放資料諮詢委員,尤其是隱私強化技術的部分,這個跟開放資料還是有百分之百的相關性,數據公益推到什麼程度再說,至少 PETs 的部分,也要當作開放資料的一部分來討論。如果沒有其他的問題,我們就往下。
謝謝,簡報做得很不錯。各位委員有沒有意見?
我先確認老師的意思,並不是這個資料集或者各項用水統計資料的資料品質有任何問題,而是實際來用的時候,發現兩邊沒有對齊?
不是說不分類,而是這些分類或者是子類別彼此間的關係,可以論述更清楚。剛才再生水的部分,有沒有要回應?
我想如果可以提供資料,或者是再把總統盃黑客松團隊的經驗,結合到未來資料在兩個部門之間的互相價值,這就還在資訊公務員可以處理的部分。
但比這個多的部分,特別是牽涉到像 ppm 水質等等的鑑定,這或許可以變成資料集的一部分,好比對於灌溉用水的要求,這本身也可以是一項資料,所以儘量用資料治理的概念,雙方各有堅持沒有關係,但是在資料當中要看到有各自的堅持。
我想水資源一定都是公開資訊,儘量把這一些變成雙方都可以看到的資料,這一點還是可以做得到的。就請農業部把剛剛委員的關心帶回去給業務單位,看業務單位如何以高應用價值資料清單的範圍,來進行初步的回應。
所以聽起來比較不是傳統價值的資料運用,而是循證指出法規,也就是循證治理的部分,這個大概可以瞭解。這在農業部有沒有一套做法?如果是要做業務單位相關的法規調適,有沒有外部委員可以協助地方?或者是我們在院級這邊有這樣的期望,如果農業部以目前法規調適的程序,以現行的程序來做回覆,這樣會不會勉強?
如果是事實性的,就是依據農田法規調適的可能性等等,之前有評估過的,那就是現成的,請併在這個會議紀錄裡面一起出,因為都是一些超連結,這個是很容易的。
至於,農田水利署進一步的評估及進入法規調適程序之後所需要額外的佐證資料等等,當然是兩個單位的業務,相關資訊也請儘量和朱老師分享。
如果這部分沒有額外的詢問,我們就往下一個報告案。
剛剛講到的是 data 平台上 107506,UAV 的這個資料集,還有沒有其他要詢問的?
下次要發 6,000 元的時候可以用,這個我就可以回答了,其他的部分請內政部。
資料授權沒有問題,現在只是看當初有無核准,聽起來沒有,只是不知道這一點。
聽起來是最小統計區裡面人口結構描繪,有點像之前地方創生的時候去說這個地方人的年齡或者是其他其他的,可以這樣理解嗎?
所以給一個行政區,然後給裡面所有人的模擬資料或者是合成資料,每個人加起來感覺滿像,是這樣的意思嗎?也就是高品質的合成資料當作開放資料用,這也是一種方式。他們的意思是說都是假的,沒有哪個人是真的狀態,這個很有創意用隱私強化技術的例子,就是一次 sample 是 3,000 人,沒有哪個人是真的,但是平均年齡差不多,會變成這樣子。
數政司同時是發 6,000 元的 PM,同時也是網頁無障礙的主管單位。我記得當時視障、輪椅、無障礙都有各自的資料集,這樣對於障礙者來說,不會跑去一個不會用的 ATM,不管是金管會或者是財政部,他們覺得這個值得做。這應該也算是高價值?
同樣是資料脈絡的問題,瞭解,這個很重要,可能要註記上去,像是「由協辦機關自行認定為高價值應用」等等。看大家有沒有其他要詢問的?
有沒有定期更新的打算?
我確認一下你的意思,當然有災害的這種飛,假設什麼災害都沒有發生,明年還是會定期建置新的圖磚嗎?
對。
航遙測飛機的圖磚也會放到平臺上嗎?
所以這個就回答老師的問題,雖然寫「不定期更新」,但是未來會有健康狀況良好的,雖然不是 UAV,但是也可以當圖磚用的資料,這個一定會放在內政部那邊。
看有沒有其他的意見?如果沒有的話,我們就往下。
所以聽起來的意思是,我們可以先看一下四個子類別的量,像普查資料,這個問題就比較小,因為至少取得的方式比較一致,但是當你分一個類,前面都說非常重要,那就跟沒有分類差不多是一樣的意思,所以你剛剛講的這個疑慮,聽起來是社會跟經濟、統計當然目前比較難以去區分,聽起來是這樣子。
多元司很像有準備一個簡報,要做一些分析,請一併當作同一個報告案。