英文與中文在本質結構非常不一樣,英文是利用音符組成基本道元後再形成複雜的自然語言,而中文則是利用象形標記符號來組成基本道元語詞。英文的道元詞彙意義常是明確而單一的,而中文利用象形符號來組成的道元語詞,則常是隱晦而有多重涵義的。由於中文與英文的組成來源不同也造成在AI的「道元化」過程有極大差異。英文的「道元化」遠較中文來的容易,主要就是在於英文道元是明確且單一。例如英文的自然語言表述"I like to go shopping at weekend",很明顯可以像圖1中分成I,like,to,go,shopping,at,weekend 七個明確的道元標記語詞。中文則因為每個字元本身雖是明確的象形標記,但經過六書造字的指事、象形、形聲、會意、轉注、假借的時代演化,使得中文的道元標記衍生出多種意義,而「道元化」就也相對困難。中文體系的標點符號就像是在做初級的「道元化」,但是仍然因為中文多義化而造成很多解釋困擾。例如眾所皆知的明朝徐文長,在朋友家的『下雨天留客天留我不留』故事,至少就有如圖1中的七種不同「道元化」結果,也因此造成中文與英文的NLP的發展有極大差異。隱藏在中文中的「多義性」是目前「道元化」的主要障礙。
自然語言處理(Natural Language Processing, NLP)探討如何數位處理人類語言,過程中至少有認知與理解的步驟,然後根據需求與目的進行數位處理。自然語言的生成系統則是依據輸入數據,利用電腦生成更多資料後,再重構成各種自然語言。電腦的基本符號是位元,NLP的基礎則建構在「道元」之上,所以NLP的重要工作就是「道元化」,如何有效而快速的將自然語言拆解成AI可以理解的道元後,再利用機器學習生成各種新道元組合是人工智慧的主要工作。「道元化」是把複雜現象以第一原理的歸納法,拆解成AI的大語言模型中的各種道元組合。如圖1,「道元化」後,再將道元轉化為數位輸入資料,AI可以依據輸入資料,快速進行數位處理與生成各種新穎道元。「道元化」愈精確,電腦就能愈快速產生出無數嶄新而有意義的道元組合,大語言模型的「道元化」與生成式人工智慧(generative AI)的生成組合過程,在形式意義上類似人類的理解與推理的思維意識。由於AI在重組道元過程中,引入機率性來加速最佳道元組合的產生,也導致有不可預知與不可重複性,這也類似於人類的個體行為的獨特性與無法預測性。
惠勒(John Archibald Wheeler)在1989年利用位元來解釋宇宙真理,「萬物皆位元(it from bit)」思想的起源是「每一個物理量,每一個真理,都從二進制的位元的『是或否』中展現其最終意義」,這想法類似機器學習的架構,將複雜現象拆解成多層的組織,AI每層內的問題都以『是或否』進行訓練。卡洛·西尼(Carlo Sini)說,語言是人類手上用來分析經驗所得的第一個工具箱。語言不僅將思想轉化為文字,同時人類的思考也是利用語言符號才能有效操作。因為量子物理和相對論的成功,迫使我們必須放棄以常識為起點的學習方式,多數人是因為語言的功能不足導致無法理解真理,嶄新語言的發展是理解宇宙真理的第一步。
科技歷史的發展從畢達哥拉斯的「萬物皆數字」到惠勒的「萬物皆位元」花費了幾千年時間,但位元是否真能完整描述宇宙真理,並沒有人知道。巴伯(Julian Barbour)認為位元訊息只是符號與機率,一旦脫離所代替的事物後,這些符號與機率並無任何實質意義。巴伯認為是「位元由萬物而來(bit from it)」而不是「萬物皆位元」。人類過去主要思想與歷史進展不在於語言符號發展本身,而是在道元符號所對應衍生出的事物抽象思維系統,並進而發展出的內在邏輯哲學。位元只描述了部分『是或否』的真理,而非全部真理,但道元是替代事實與邏輯內容。數位世界之後的量子世界即將進入「萬物皆量子位元」與「萬物皆道元」的量子AI時代,電腦在過去數十年由位元計算,到有大量資訊記憶後,又發展出強大搜尋功能,現在ChatGPT更顯現出初級生成推理機制。未來量子電腦發展更成熟後,創新與完整的生成思維功能也隱然在望。道元解構與生成過程對AI的推理與創新過程有絕對的貢獻,道元在AI 中是一種標記符號,可以被訓練產生,並代表某些特定意義,用來組織無限有意義的思想。宇宙事物都可以道元表達,只要生成一個道元,就可以生成二個,三個以至於無限多個道元。
臺灣港務公司(下稱港務公司)於114年11月7日「2025政府暨教育資訊長高峰會」正式宣布,為積極響應行政院「智慧國家 2.0」及交通部「交通領域AI 推動委員會」政策指導,全面啟動 AI 數位轉型計畫。這項轉型不僅是配合政策聚焦「對外為民服務」、「對內行政服務」與「人才培育訓練」三大核心主軸,更要持續提昇港口安全及精進港務領域知識。港務公司擘劃完整的未來A......