發表會不見「GPT-5」,OpenAI為何仍穩坐AI龍頭?世人見到了真正的「聊天機器人」:GPT-4o

2024-05-14 14:32

? 人氣

OpenAI技術長穆拉提(Mira Murati)發表「GPT-4o」。(翻攝Youtube)

OpenAI技術長穆拉提(Mira Murati)發表「GPT-4o」。(翻攝Youtube)

OpenAI技術長穆拉提13日主持了一場26分鐘的簡短發布會,發表GPT-4的升級版「GPT-4o」。儘管不是GPT-5或者其他備受期待的新模型,但「GPT-4o」能在單一介面解釋語音、影片、影像和程式碼,語音輸入與回應的延遲時間大幅降低,讓使用者感覺更像在跟真人在做即時對話,所謂「聊天機器人」也更名符其實,甚至有網友打趣「沒想到新AI讓口譯(而非筆譯)更快陣亡」。

穆拉提在這場產品發佈會中表示,GPT-4o(o代表o​​mni,有全面、全能之意)擁有GPT4等級的人工智慧,而且速度更快、更夠接受文字、音訊和圖像的任意組合作為輸入,還能產生文字、音訊和圖像的任意組合輸出。預計未來幾周之內,OpenAI就會提供包括免費用戶在內的所有人使用。GPT-4o最叫人驚艷之處,就是讓人機協作的未來變得更自然、更輕鬆,GPT-4o在與使用者對話時可以包容背景噪音,也能理解對話中的各種細微的語氣與聲音表示,對話的延遲狀況更是大為改善。

[啟動LINE推播] 每日重大新聞通知

在穆拉提當眾演示了GPT-4o的即時語音翻譯之後,翻譯工具Duolingo的股價很快就跌掉5%。因為這種能在最短232毫秒(或者說0.232秒、平均0.32秒)回應語音輸入的人工智慧,已經做到跟人類對話的程度相去無幾。加上使用者可以自由採用文字、語音或影像輸入,彼此之間更可以直接生成。這意味著跟AI說話更像跟人聊天對話,跟AI互動更接近人與人之間的自然交流—除了能即時口譯、辨識語氣跟表情,隨時可以打斷AI的回應(當然也可以隨時插嘴)再接著聊,還可以透過相機即時拍下的畫面進行分析、撰寫程式。

值得注意的是,OpenAI選在谷歌年度開發者大會的前一天發布GPT-4o,顯然讓科技巨頭之間的AI對決更加白熱化。不過穆拉提宣稱,她的團隊「不知道谷歌在做什麼」,這次發佈會的時間「只是巧合」。但穆拉提宣告GPT-4o將向所有用戶開放,未來幾週內則會先對ChatGPT Plus的用戶推送,顯然是將了谷歌一軍。

在13日的發布會現場,GPT-4o被要求即席編個故事,被要求幫忙解開3X+1=4這個式子(負責演示與溝通的工程師將題目用筆寫在紙上,然後「拿給GPT-4o看」)時,它也能一步一步引導使用者解題,最後給出正確答案。GPT-4o還被要求解釋程式語言、甚至即席口譯,這個OpenAI的旗艦級生成式AI都一一對答如流。

在發表會現場,GPT-4o曾一度將攝影機拍攝的人臉「誤認為」桌子,後來大家才發現這是因為相機最初開啟的前置鏡頭瞄準的就是桌子,然後GPT-4o也順利辨認出自拍臉部的情緒,他也看懂了主持人畫在紙上的「謝謝GPT」。當穆拉提將GPT-4o的重點擺在免費和新模式,她也不忘提醒「我們將很快‘向您通報我們在下一件大事上的最新進展」,沒人知道這會不會是GPT-5,但光是GPT-4o就讓人如此驚豔了,GPT-5又會進展到什麼地步呢?

在OpenAI發布會前夕,輝達(Nvidia)的高級研究經理暨Embodied AI負責人范麟熙(Jim Fan)其實就在X上透露了OpenAI的底牌—即時語音助理。范麟熙也解釋了為什麼過去的生成式人工智慧即便再聰明,為何感覺還是有些「遲鈍」(或者說回應延遲)。范麟熙分析,幾乎所有的AI語音都要經歷三個階段: 1.語音辨識(ASR),也就是從語音轉換為文字;2.利用大型語言模型(LLM)運算出接下來的回應;3.利用語音合成(TTS)把文字轉換成語音輸出。

范麟熙表示,就是這三個階段讓AI的語音輸入與回應出現難以忍受的延遲。畢竟如果每次溝通都要等上5秒鐘,AI才會開始慢吞吞地說話,使用者體驗當然就會跌落懸崖。就算語音合成聽起來很真實,使用AI的沉浸感也會大打折扣,甚至讓人感覺AI毫無生氣,因為自然對話本來就不是這樣的。人類在彼此對話時,總是一邊聽一邊想一邊說,還會在適當的時候表示「是、嗯、呵呵」,更會預測對方什麼時候說到一個段落,立刻接上話,也能在不冒犯對方的情況談論對方,最後妥適地結束話題。

范麟熙認為,要把語音AI做好,不是把三個階段分別變快那麼簡單,而是要讓三個程序同時進行,他感嘆蘋果的Siri還是像一年半以前一樣糟糕,也期待OpenAI能把語音AI推進到什麼地步。在OpenAI發表GPT-4o之後,范麟熙推測OpenAI可能開發了自己的神經網路串流視訊編解碼器,讓通訊協定與神經網路推理共同優化,才能把語音模型處理的這麼好。范麟熙認為OpenAI就是為了Google I/O 大會提前上菜,把尚未完成的GPT-5早期版本端出來,甚至認為蘋果可以考慮拋棄進展有限的Siri,直接與OpenAI的GPT-4o合作。

至於GPT-4o究竟有多厲害,雖然OpenAI現在還沒有完全開放給所有人使用,從官方的宣傳影片與展示會的分段說明,也可先讓有興趣的朋友逐一「聞香」,這些官方的示範功能包括了:

》即時交談,並且建議使用者深呼吸緩解緊張

》閱讀程式碼、理解圖表

》兩個AI相互交談、唱歌

》兩個AI唱歌和聲
 

》教三角函數
 

》協助視障者理解世界

》即時口譯
 

》讓GPT-4o參加多人視訊會議

喜歡這篇文章嗎?

國際中心喝杯咖啡,

告訴我這篇文章寫得真棒!

來自贊助者的話
關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章