隨著AI技術突飛猛進,各種生成AI模型與智慧助理(AI Agent)開始廣泛評估產業與工程領域,自然也讓許多人對AI評估人文社會領域的未來充滿期待。因為文藝人士近年來參與「AI公共化式」[1]的理念實踐,發展了一些AI評估司法、教育、心理與社工等領域,有與不同領域的人社學者或第一些人員合作、並旁觀察的機會。
筆者從這些交流中感覺到,相較於產業界或理工科系對於 AI 發展有比較明顯樂觀的期待,即使 AI 科技有機會協助人社領域的學者學生或相關工作者提升其效能,但是其整體上還是會對 AI 的發展保持高度懷疑:除了常見的對於「隱私保護」、「智慧財產」、「人權監控」與「產業變化」等疑慮外,人社學者其實對於 AI 科技所強調的「應用效能」本身有更加複雜的思考,也是本文想要著重說明的部分,希望能提升 AI 技術與人社領域之間的對話與溝通。
一、效能的普遍主義: 在幾乎每週都有刷新進步的 AI 效能競賽中,為求評比客觀公平,往往是以撰寫程式 ( 如 HumanEval) 、數學競賽 ( 如 GMS8K , Grade School Math 8K) 、學科測驗 ( 如 MMLU , Massive Multitask Language Understanding) 或科學問題 ( 如 AI2 Reasoning Challenge) 等等作為比較的標準,因為這些試題都是有標準答案而可以量化計算的,並且有相當的普遍性,不受文化、時空或地域的差異性所影響 ( 但的確都是英文試題 ) 。
這種為了達到普遍性的最優解而設計的 AI ,往往卻也正是人文領域所質疑的:如果每個人都有其獨特性,如何可能有個工具適合所有的人?如果某個 AI 對某些人不合適,其「優秀的效能」又有何意義?當然,質疑這種「普遍主義」並不等於要否定其價值,而是代表中間應該要有更多討論對話的空間,讓更多的因素被考慮,而非一昧的以「增進效能」作為持續投資發展的理由。雖然近年來也有一些 AI 設計方法,如『價值敏感設計』( Value-Sensitive Design )等,試圖在技術建構過程中引入倫理與人文的反思,但畢竟仍非 AI 技術領域的主流思考。
二、效能不等於效果: 從技術想像到應用場域的過程,在技術工程常見的思維是:只要目標可以清楚定義,沒有根本上的物理、法規或資源限制,未來更好的技術與更大的算力一定可以逐步實現相關的應用。然而這種思維模式常將「技術做得到的」與「能被有效接納的」兩個概念混淆。因為人社領域的重要問題往往不是只有正確精準與否,而是包含整體的情感連結、互動深度、歷史脈絡、社會文化、多元觀點、或思辨反省等等這類難以量化,但可能更為重要的價值有關。高效能甚至不一定是帶來好效果的必要條件。
(相關報導:
陳家聲觀點:AI,臺灣的機會和威脅
|
更多文章
)
舉例來說,假設 AI 應用於司法判決預測可以得到相當準確的結果,但這樣的 AI 是要給法官使用嗎?還是給訴訟當事人?對前者似乎多此一舉,而後者使用是否可能干擾審判的獨立性?還是應用於法庭外的調解流程會更有意義?但這當然需要搭配調解人員的訓練與訴訟制度的支持。這使得「效果」難以僅以 AI 量化的速度與精度衡量,甚至有時更需要「慢一些」或甚至「有些缺陷」才有機會讓人深入探索,折衝反思,廣納參與,才能帶出更好的效果。
三、效能也強化誤用: 過往科技產品由於不牽涉到智慧能力,大體來說還是可以保持其工具的中立性,讓使用的決策責任落於運作此科技的業者或政府自身,還可以透過法律規範或民主監督來減少誤用。但是自從 ChatGPT 等聊天機器人橫空出世後, AI 的應用端已經落地到幾乎每一個有網路的個人,這使得 AI 效能的強化也必然放大了人性內在的弱點,使之以更為直接卻更難被管理的方式影響人類社會。
例如生成式 AI 大量應用不到兩年,其最多人的使用方式就不再是解決工作上的問題,而是轉向個人性的情感性或隱私性的對話 。根據近年研究,部分使用者在與情感性 AI 對話中產生了移情作用 (transference) ,使得使用者在情緒或心理的脆弱時期會更對 AI 產生情感依賴,有些時候甚至帶來意外。這類互動對人類 ( 特別是年輕世代 ) 心理健康的負面影響 是難以衡量,卻更無法忽視的。
四、研究目標的錯置: AI 效能的重要性其實決定於所設定的目標:只要目標越清晰越具體,就越有機會在 AI 訓練過程中優化相關參數或計算資源,達到比以前更好的成效。此外, AI 是透過統計與機率的複雜模型來處理大量資料,自然傾向選擇以最常見或最安全的說法來回應,才能在各樣的測試中得到最多的認可,這使得它難以真正支援具挑戰性或非主流的價值觀點(註:雖然 AI 技術上可以透過溫度參數的設定、人類回饋的強化式學習 (Reinforcement Learning by Human Feedback) 或控制生成 (Control Generation) 的方式來產生非主流的特殊結果,但是前者只是增加隨機性而後兩者是一種條件機率的強化,都不能算是一種具有人性本體意義的獨特性。 ) 。
但是在許多人文社會領域 ( 包括部分基礎科學 ) 的研究中,許多重要的發現都需要來自研究者或者應用者個人在實踐過程中的探索、質疑、折衷與反省,才能提供出許多豐富的視角。例如心理學界歷來發展出多種理論,例如行為主義、精神分析、人本心理學等等,與其各樣演變延伸的流派。這也使得以「最優」效能為目標的 AI 模型對此僅能給出泛泛的描述,往往很難在實際應用中對其細緻差異處或個人處境給出深度的效果。
五、挫敗反思之必要: 當 AI 的效能提高,也自然代表在訓練或應用的推論過程可以有效地處理或避免了過往路徑的困境,但是這些「負面」經驗也可能是許多人社領域研究過程中所不可少的部分。畢竟當人類在與環境、人際、歷史或資料互動博弈的過程中,困頓於某些「不合理」的結果時,才有機會進行跳躍式的思考,提出過往所沒有的觀點。但是如果這個過程被壓縮成輸入與輸出之間的函數關係讓 AI 模擬,就可能永遠不會看到那些本來在許多反覆試驗、修正與懷疑中才能發現的靈感。
(相關報導:
陳家聲觀點:AI,臺灣的機會和威脅
|
更多文章
)
這個過程的重要性在教育領域特別明顯,畢竟如果 AI 總是給出正確的答案,我們該如何引導學生能發現自己思考的錯誤或知識節點的問題呢?過度依賴 AI 的效能而未考慮人類自身參與的角色,可能讓人誤以為整個過程都不再重要,進而失去對問題本質探究的興趣。或者更準確來說,我們所需要的是建立人類與 AI 合作的新範示,而非粗暴的認為 AI 效能提升必然帶來有價值的結果。
六、有所不為的合作: 另外有些人社領域的工作者對 AI 的應用是滿心期待,以為 AI 可以直接解決他們工作中最困難的部分 ( 如法官以為 AI 可以代為審判、心理師以為 AI 能代為諮商、教師以為 AI 能代為教學互動 ) ,但是往往落得失望收場。事實上,如前所述, AI 應用於人社領域可能最合適的方式是「有所不為的」避開其核心部分,先從其工作中較次要的外圍,卻可能花費最多時間的庶務開始 ( 如查找資料或行政報告等 ) 。當這些大量重複的工作交由 AI 處理,人類專家才能節省出寶貴的時間,專注在真正屬於人性的思考或陪伴。
舉例來說,社工的專業本應是展現在對個案的關懷,並且在不同單位間作資源協調。可是現實的社工往往需要花大量的時間撰寫訪視紀錄或制式報告,形成人力資源的浪費。但是後者卻可能是 AI 應用很好的切入點:若應用 AI 來大量減少紀錄報告的撰寫時間,社工自然更能細心地應用其專業練帶給個案更高品質的服務,也提升社工自己的內在力量。而透過 AI 應用將這些行政資料治理標準化,亦可強化資源調度與趨勢分析的效果,一舉創造多贏的局面。
結語:從實線化成虛線 綜合以上的討論,筆者認為或許可以用附圖來呈現人社領域與 AI 協作的幾個可能模式:當人類獨立完成從「動機」到「目標」的所有過程時,可以說是一條實線將兩者相連 ( 圖 A) ,雖然可能崎嶇蜿蜒,但脈絡清晰可尋。但是如果這個過程完全由高效能的 AI ( 如智慧助理 AI Agent) 取代,則人類的參與就幾乎只有頭尾兩個點 ( 圖 D) ,代表下達指令與驗收評估。而後者往往就是資工領域對於通用 AI 發展所期待的技術目標:只有全自動化的 AI 運作,沒有人類的介入,才能更快、更準也更省錢,充分展現所謂的 AI 效能。
人文社會領域與AI協作的可能模式。
但是如前所述,對人社領域而言,這個從動機到目標的「過程」不應也無法完全被 AI 取代 ( 事實上,可能連目標本身也不見得可以清楚定義 ) 。所以如果大多數過程都由 AI 處理,人類只需要若干決策點介入取捨,就會形成看不太出脈絡結構的點線 ( 如圖 C) ,代表失去人性理解的文化脈絡。但是如果我們僅將中間許多次要的瑣事處理交由 AI 執行,人類仍然參與整個重要決策的形成,寧願多花一點點時間也希望保留這些折衝、探索或甚至跳耀的過程,最後就會形成一條有脈絡的虛線 ( 圖 B) ,讓後人有跡可循,可以繼續啟發後世。
其實這幾種不同 AI 與人類的合作模式並無絕對優劣,所適合的工作領域也有所不同。在強調效能的領域,實線段會稀少,但它所承載的過程經驗與細節也隨之消失,讓彼此間的關係也就變得模糊混亂。畢竟 AI 的運作不是傳統的結構化的流程圖,有其無法解釋的隨機性,所以全自動化後很難掌握其運作的脈絡。因此,當我們反思 AI 的效能時,並不是批判技術的限制,而應開啟一條對話路徑:如何將人文社會領域的核心價值 ── 如多樣性、錯誤的啟發性、文化脈絡的敏感性 ── 嵌入 AI 的設計過程中,創造更好的 AI 與人類合作模式 ( 如圖 B) ,重新定義「什麼才是合適的效能」,讓未來的 AI 能夠成為一種真正支持人類發展的文化工具。