闕志克觀點:ChatGPT與歷史文化保存有甚麼關係?

2023-10-24 05:50
ChatGPT是一種大型語言模型。(AP)
ChatGPT是一種大型語言模型。(AP)

ChatGPT的底層技術叫大型語言模型(LLM: large language model),這種模型骨子裏試圖掌握文字接龍般預測下一個字的能力:給定一段前文,預測下一個字或建立下一個字所形成的機率分布。譬如說,如果前文是「中國大陸最長的河流是什麼?」,它最有可能的下一個字是「長」;如果前文是「中國大陸最長的河流是什麼?長」,則它最有可能的下一個字是「江」。訓練LLM所需的語料無需標註,所以很容易取得。假設前文的長度是一百字,一篇5000字文章可作成約4950組訓練語料:第一組以1-100字為輸入,第101字為輸出;第一組以2-101字為輸入,第102字為輸出,以此類推。

這些語料餵進稱為Transformer的深度神經網路架構,可訓練出大型語言模型。而且,只要語料越豐富,網路架構參數越多,前文長度越長,訓練出來的大型語言模型所具有的自然語言處理能力就越強。目前已知的功能包括摘要、問答、翻譯、分類、情境分析、規劃、設計等;甚至,這些模型還具有舉一反三的能力:只要在提示裡提用幾個例子說明特定的概念,它們就能將例子所隱含的概念應用到後續的回應中。

從知識管理的角度的觀點,大型語言模型已經具備以下三種能力。其一,將一篇文章裡面的重點與關鍵思想摘要出來;再者,從多篇探討相同議題的文章中,抽取它們所提出的觀點或解決方法,並比較其優劣和權衡焦點;最後,根據已經提出的解決提案,藉由內外插的手段產出混搭既有方案的新穎解決方法。這三種能力結合起來,表示大型語言模型已具有將大量專業文章自動內化成可讓用戶以自然語言查詢、探索與腦力激盪的知識庫。當然,儘管以上這些能力在目前最先進的大語言模型都已達一定的水準,但也都還有改進的空間。

歷史文化保存的一大重點是歷代文字的收集、整理與傳播。第一級的歷史文化保存聚焦於實體文物的收集、修復與妥善保管於專業博物館,重點放在盡可能保持歷史文物的原狀。第二級的歷史文化保存進展到數位典藏:首先將歷史文物數位化,再運用現代資料庫技術將其分門別類、建立索引,以便後人易於搜尋、閱覽和欣賞,重點放在以數位方式增進民眾接觸歷史文物的方便性。

上述兩類保存方式都只是被動地保存歷史文物的既有風貌,大型語言模型技術則可將歷史文化保存推向一個前所未有的第三級境界:主動分析消化所有歷史文物的文字內容,積極找出它們在時間與空間軸上的語意關聯性,進而將其所涵歷史資訊組裝成互相援引的關聯網路,最終形成包羅萬象、旁徵博引、交叉勾稽串聯的知識庫,讓後人得以超越個別文本,輕易地進行之前需要皓首窮經、曠日廢時才能作到的跨代、跨領域、跨文本的查詢、連結、比對與推理論證。

這種將歷代文籍整理消化、融會貫通過後的知識庫讓後世可以輕易地對如下的歷史疑問旁敲側擊、追根究底:孔子問過老子什麼問題?老子的回答對後世儒教有何影響?李白有提點過杜甫嗎?杜甫的詩風有因此改變嗎?中國歷史上有名的猶太裔人物為何?他們對猶太教徒逐漸被中國文化同化持什麼態度?徐福到底有沒有到過日本?鄭和的回教徒背景與他能成為七下南洋的世界級航海家有啥關係?也就是說,大型語言模型技術藉由積極梳理所有歷史文字,廣泛連結相關歷史資訊,因而大大豐富擴展了原來歷史典籍的文化深度與廣度。

除了協助解析歷史文物的來龍去脈與文化意涵以外,歷史文化保存的最高境界應是提煉萃取用於製作文化遺產的底層技能(skill),並將這些技能代代傳承下去。譬如說,保存唐詩的最高境界不僅是讓後人能理解它們的寓意或欣賞它們的藝術美感,還可以是進一步主動擷取唐代詩人的各種作詩技巧,進而運用這些技巧創作出格式相同、質地類似,但情境可隨後人任意指定的現代唐詩。只要有足夠的唐詩及其白話文語譯作為語料,現代大型語言模型很有機會藉由精調訓練鍛煉成可以媲美李白杜甫的機器詩人。

同樣的手法也可以應用於其他藝術形式,如李清照的宋詞、關漢卿的元曲,張大千的潑墨畫、顏真卿的書法、朱銘的木雕,甚至莫札特的古典樂等。一旦如上所述的大型語言模型成功開發出來,它們不但將帶給歷史文化保存翻天覆地的變化,也將開創無際藍海的商業新契機! (相關報導: 點教育》真假難分!生成式AI恐致假訊息更猖獗 更多文章

*作者為清華大學合聘教授,本文原刊《奔騰思潮》,授權轉載。

因為你,我們得以前進,你的支持是我們的動力
更多文章
觀點投書:共軍6艘遠海艦隊抗衡美2艘航母戰隊中東軍事部署?
2023霜降節氣到!4生肖勿做1件事避免血光之災,入冬前養生方法與禁忌一次看
觀點投書:以巴衝突「不對稱戰爭」的他山之石
2023霜降節氣將至!命理師曝5生肖逆轉乾坤,第三名人緣運佳、第一名財運與事業都超旺
別忘記刷存摺!10月有勞動部「18大補貼」可以領,哪天發放一次看
觀點投書:台大成立「國際政經學院」,莫蹈清大台北政經學院(TSE)之覆轍
寧願去剝皮也不要當織布工:《穿過了》選摘(3)
趙天麟62字承認婚外情!深夜多張親密照瘋傳 他強調:妻子都知情
不是出軌!狗仔加碼再爆章子怡、汪峰離婚「真正原因」 前女友半年前早預言
重陽節拋「優質長照五帖良藥」 郭台銘:放寬聘僱外籍看護門檻
快訊》地牛翻身!台東21:19發生規模4.8淺層有感地震 最大震度4級
遭對手控「詐取學位」 郭國文提告:我的論文不是選舉提款機
趙少康拋比民調組閣權給國民黨 沈富雄曝恐有嚴重後果:建黨以來從未發生過
「美味法國」食品展盛大登場!餐飲達人示範:時髦法式野餐怎麼吃才對味?
空軍1天內傳2起憾事!新北少尉、花蓮下士接連輕生 陳屍寢室、自小客車內
賴清德民調跌破3成 郭正亮曝2關鍵原因:這種氛圍對他選情不利
唐美雲、唐文華跨界聯手 新編三國 戲說臥龍父子情
左營高鐵科技之心公辦都更案廉政平臺成立 高雄招商會打造半導體產業新門戶
日本福岡縣台援隊訪問高市議會 曾俊傑:見證台日唇齒相依的情感
中鋼獲頒發淨零產業競爭力卓越獎
政府與民間合作贈書充實愛的書庫 募集40箱書箱,汰換虎山國小愛的書庫
高市教育局候用校長快閃壽山動物園 邀親子上街萬聖節大遊行搞怪
永豐銀行力挺雲豹職籃 擬斥資近5000萬助攻豹隊奪冠
富士康為何被查稅?BBC談「中國是否支持郭台銘參選」
公私協力善的循環 媽厝紫葡小書屋入厝啟用
買爆牠! 富基魚市優惠大集合、消費滿額贈萬里蟹
中市物調券第三波10/26-28登場 盧秀燕與經發局同仁合拍宣導影片
新北市文化基金會「聊藝療」成果展開幕 展出高齡長輩共築「心齡露營區」
中國對富士康查稅,恐怕兩敗俱傷?張五岳:最後應該會「輕輕放下」
國輻中心歡慶「光源啟用30週年」 陳建仁:以特有科技力助攻台灣產學研界
保護毛孩健康 中市11、12月狂犬疫苗及晶片巡迴注射11/2開跑
新北攜手臺師大共創支持系統 「全國首創」客製化建立學校指引方案
建構海線魅力觀光廊帶 大安濱海樂園北園10/31起進行設施優化改善
訪問台灣盼開拓科技合作機會 立陶宛國會議長:民主國家應積極合作
跟著金鐘獎夯劇遊新北happy go!揭秘女外科、造浪者、模仿犯取景地點
藝術的道路就像是探索人生 成長的每一步 無法否認的足跡
藝術導入新北候車亭改造 連結地方回憶與故事
2歲女童被狗咬重傷昏迷…中國掀「撲殺流浪犬」亂象!3藝人發聲「請善待動物」疑遭處分
台中父子爆口角!73歲老父認了「拿刀捅兒」失控原因曝 44歲男動刀保一命
庇護與逃亡:尋求庇護者越來越多,德國政府如何應對難民潮?
放棄美國籍郭賴配資格確定 郭台銘支持度上升
Switch、英語戲劇營,憑新北借閱證統統免費!新北市圖萬聖節玩創意閱讀
卡司超強!《開創者》10/24開播 温昇豪預告金鐘評審:先讓我們入圍
【下班經濟學】小資族4招無痛存300萬?勞退自提不划算?這樣做退休金多700萬?
學界首創南北數位射箭對戰,宏國德霖科大穿金戴銀
台北青旅周末2床竟要破萬元!他見房價嚇壞「不如出國玩」,內行人揭背後真相
臺北市第28屆金輪獎頒獎典禮圓滿落幕
兒打破燈罩需賠3萬…家長被要求「先付一半押金才能走人」氣炸!乾杯回應了
不考慮先救人質?以色列最新民調公開:70%公民支持「優先消滅哈瑪斯」
台灣火鍋店超多,為何石二鍋用餐時間幾乎都爆滿?內行人曝4大關鍵優勢,同價位根本沒對手