中共的言論審查,可能形塑人工智慧生成內容的未來

2023-03-22 12:00

? 人氣

2023年3月16日,百度創辦人、董事長兼首席執行官李彥宏演示「文心一言」的能力。(美聯社)

2023年3月16日,百度創辦人、董事長兼首席執行官李彥宏演示「文心一言」的能力。(美聯社)

[啟動LINE推播] 每日重大新聞通知

當人工智慧遇上中國政權的資訊控制,足以扭曲國際資訊流通

ChatGPT是以人工智慧驅動的聊天機器人,由美國公司OpenAI製作,才上線數個月,就已經吸引上千萬名用戶;上線之後,這項技術的一個版本,也已經整合進微軟搜尋引擎Bing的有限預覽版中。現在,許多科技作家開始猜測,人工智慧輔助的搜尋引擎,可能會如何影響美國科技巨頭Google和微軟之間的競爭。人們採用ChatGPT之快速,也代表著一個更大的趨勢:雖說人工智慧的工具在近年來已經愈趨熱門,但有人主張,從2023年起,人工智慧將在人們的日常生活中更加醒目。

而任何人若要檢驗人工智慧的設計、運用和影響,就必須認真考慮中國的情況。在中國,人工智慧驅動的工具,已經廣被用於監控與政治有關的內容、審查言論,以及監視大眾。而科技公司在中國共產黨的要求下所開發的各種新作法,隨著全世界進入人工智慧整合的新階段,都可能影響中國以外的網路使用者、政策制定者和各家公司。

在新的一年,以下這幾項關乎人工智慧與中國的情勢,值得特別關注:

1. 關乎在中國「人工智慧生成內容」本身的審查

演算法工具在訓練時使用的資料,會直接影響演算法工具本身;因此,對於政治、社會與宗教議題,中國既然有言論審查,中國的人工智慧生成內容,就幾乎必然會受到這些審查的影響──已有證據顯示,這件事情已經發生了:

中國的資訊既被嚴格審查,又充斥政府宣傳,因此,如果機器學習工具的資訊來源,受限於中國所謂的防火長城,那麼,中國資訊的各種遺漏與偏誤,都將反映在這項工具的產出之上。舉例而言,羅伯茲(Margaret Roberts)和楊(Eddie Yang)在2021年的研究,發現以百度百科條目訓練的自然語言處理演算法,其產出內容的觀點,會不同於以全球性、未經審查的中文維基百科訓練的演算法。以全球資料訓練的演算法,會以正面的方式分析「選舉」、「民主」等詞彙,或者將之與「穩定」等名詞聯結;相對地,以百度百科訓練的演算法,則會正面評估「監控」、「中國共產黨」等詞彙,而「民主」等單詞反而會與「混亂」這樣的負面詞彙連結。

此外,人類也可能在機器產生內容之後再行干預,進而也造成人工智慧系統內含有言論審查。中國科技巨頭百度的文字圖像生成工具ERNIE-ViLG才剛上線,異議藝術家巴丟草和其他用戶就馬上發現當中的錯漏與人為操縱,而一篇九月在《麻省理工科技評論》上發表的研究,則描繪出審查的部分輪廓:沒有關於天安門的圖像,沒有中國的領導人們,也沒有「革命」或「翻牆」(比喻使用反審查工具瀏覽被封鎖的網站)等詞彙。

百度表示ERNIE-ViLG的訓練資料來自全球,並非只使用中國的資訊。這意味著,這項工具目前被觀察到的各種審查與遺漏,起因必然是開發者主動為之,以符合政府管制和公司政策──關於審查,政府和中國共產黨已經有詳盡的規則和指引,而中國的科技與社群媒體公司又各自有專屬的黑名單,以及實際上執行審查的方法。這些不同公司的人工智能工具之間的差異,日後可能會更加明顯。

2. 中國聊天機器人的管理

世界各國的人們試驗著ChatGPT可以如何使用,但在此同時,中國用戶卻不能完整使用該工具。雖然ChatGPT尚未被防火長城封鎖,但註冊時用戶需要提供電話號碼,只有部分國家的電話號碼可以使用,而中國不在其中。因此,中國網路上出現各種不同的變通方法與仿冒品,有些確實有用,有些則不然,而且許多需要付費;而據報,在2月10日前後,騰訊的微信平台和阿里巴巴的淘寶市場上,相關的連結已經停止出現。

在此同時,許多中國本地開發、以人工智慧為基礎的專案,也正在研發當中,預估將於今年提供公眾使用。舉例而言,百度的「文心一言」據報將於下個月上線,而由於百度的搜尋引擎受到相當嚴格的審查,研究又已經發現,其所開發的人工智慧文圖生成工具也有審查的痕跡,因此可以想見,百度聊天機器人所給出的內容,應該也會充斥著言論審查和其他的操縱。ChatYuan則是另一個人工智慧聊天工具人,已經在騰訊的微信系統中運作,是一個小型的程式,而ChatYuan的創辦人已經向記者承認,ChatYuan會「過濾特定關鍵詞」,而且相較於國外的狀況,審查的層次也可能有更多層次。此外,人們已經發現,前文所提及的一些ChatGPT仿冒品,也會迴避在中國被認為政治上敏感的主題。

然而,即使一個聊天機器人在名義上有受到審查,仍然可能產出無法預測的後果。據報導指出,文心一言的訓練資料來自全球,因此,用戶可以注意機器人是否將會「無心失言」,牴觸中共的偏好。有一些假資訊研究者,要求ChatGPT從中共的角度,或者從廣為人知的陰謀論者的角度寫出文章,藉此得到令人不安的產出,用戶可以用類似的方法,嘗試反擊中國的聊天機器人:如果有用戶要文心一言從異議人士或維權律師(比如劉曉波或高智晟)的角度,或者從習近平的黨內敵人如薄熙來的角度,討論民主、中國憲法或習近平,文心一言會如何回答呢?而中國的網路用戶需要實名登記,如果聊天機器人產生的結果違反中國政府的審查規範,公司和用戶可能面臨怎樣的處罰呢?

3. 中國審查對全球人工智慧生成內容的影響

中國是全世界網路使用者最多的國家,也有最多的中文使用者,這帶來了一些重要的問題:中國龐大但又受到嚴格審查的資訊,將如何在全球層次上影響人工智慧生成的內容,尤其是中文的內容?以所有可用的中文內容訓練出的人工智慧工具,是否會隱隱帶著有利於中國的偏誤,並且反映在內容上?

微軟的Bing是第一個將ChatGPT和對話式人工智能整合進搜尋技術的全球性搜尋引擎,但先前,微軟也曾有不良紀錄,讓中國版本內的審查,影響到全球性的搜尋功能。2021年12月,加拿大研究團隊「公民實驗室」(Citizen Lab)測試Bing的自動搜尋建議,發現北美用戶的中文搜尋結果有審查的痕跡,達到統計上顯著,甚至在美國的英文搜尋結果也出現這樣的狀況。我們並不清楚這個現象背後,究竟是由那些因素造成,而微軟也宣稱這背後的錯誤配置已被修復,但公民實驗室發現,截至2022年5月,一些異常現象仍然存在;研究者在報告最後警告:「微軟或任何其他公司,不太可能可以一方面對某群用戶經營有益於言論自由的平台,卻對另一群用戶強力執行政治性審查。」

微軟持續在中國經營審查版的Bing,這使得微軟的狀況確實獨特,但Google和其他全球性的搜尋引擎,仍可能面對北京言論審查的某種外溢效應,甚至受到支持中共的行動者有意操縱。去年,有研究者指出,對於「新疆」等搜尋關鍵詞,以及COVID-19起源的陰謀論,北京方面有能力在Google新聞和YouTube搜尋中,讓中國政府製作的內容聲量更大。在加入人工智能聊天機器人後,搜尋引擎的功能究竟會更容易被操縱,還是更不容易,我們還無從得知。

4. 北京運用人工智慧製造全球性假訊息

在假訊息方面,相較於俄羅斯,中共及其附庸算是後進者,但是,從2018年開始,已經有多起假帳號群體傳播謠言,或刻意為中國政府製作的內容提升聲量。雖然至今為止,這些作為的效果仍然有限,但研究者不斷發現各種證據,指出他們正在從事實驗、加強適應,策略也越趨繁複;我們可以預期,親北京的行動者未來將會能夠運用人工智慧科技,並將其用於在全球散布假訊息。

最近,NewsGuard這間公司的研究者探討了這可能的樣貌,研究者請ChatGPT以中國或中共官員的角度,回應「新疆維吾爾族人被大規模拘禁」或「COVID-19源於美國的陰謀論」等主題,產出的結果與中共的宣傳高度相似,而且語調彷彿權威,但並未引述任何資料來源。研究者指出,一般使用者就這些主題發問時,得到的結果應會更為公允,但這場實驗告訴我們,立意不良的行動者可以運用這項科技「使其力量倍增,在全世界散布有害的虛假故事」。

這項威脅並非只是假想而已,網路安全公司Graphika本月發布報告,指出一項與中國政權有關的假訊息活動,已經運用了由人工智慧生成的假造人像;Graphika指出,這是國家行動者使用這項科技的第一起案例。這波活動使用了虛構的媒體《狼新聞》(Wolf News),主播有男有女,「報導」與中共宣傳敘事相符的新聞,主題包含美國的槍枝暴力問題以及美中關係;這些影片進一步由一些被稱為「垃圾郵件龍」(Spamouflage)的帳號群組轉發,這個群組與中國有關,Graphika已經追蹤多年,已經披露其為親中共假消息的常見來源。Graphika表示,研究者本來以為這些主播是拿錢辦事,但後來追蹤來源,發現來自一個販賣商用人工智慧生成假人像的英國網站,其服務通常是用於廣告。

這些影片的觀賞數偏低,而且英文使用有嚴重錯誤,但Graphika指出,若能結合「假人像影片」與「更好的腳本」,可以帶來更有說服力、更有效的內容,而更好的腳本則可以由ChatGPT這樣的自然語言系統生成。

亟需公開透明

中國的審查體系最大的特色就在於不透明,我們對於審查機器如何運作的理解,多半來自外洩的審查指示、前員工的證言、現任員工向媒體匿名陳述,以及前文引用的那一類外部研究與調查。許多國際科技公司的透明度已經有限,但中國的科技公司,對於其產品和服務(包含人工智慧生成的應用)如何運作、內容又如何受到控管,通常更加不公開,比如,百度的ERNIE-ViLG文圖生成器,並未公開說明內容控管政策,而DALL-E和Stable Diffusion這兩個國際性的文圖生成器則有。

既然人工智慧明顯可能被濫用,向中國科技公司施壓,要求更為公開透明,都將會是對使用者有利的作為;這些公司在國際上的競爭者,在研發和運用新的人工智慧生成工具時,應該將強而有力的人權相關原則納入考量,並且設下透明與可課責性的國際高標準。在此同時,我們也相當需要各種獨立調查和嚴謹測試,來偵測並了解親中共的內容操縱,藉以讓使用者得到相關資訊,並且協助創造對「表達自由」和「訊息多元性」的保護機制。

而這些努力,也很可能仰賴人工智慧科技的協助──這或許告訴我們,時代真的不一樣了。

薩拉・庫克是自由之家中國、香港和台灣的資深研究員

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章