語音AI模型「Voice Engine」問世！「錄音15秒」就能生成擬真人聲音　OpenAI曝應用、隱憂

美國人工智慧開發公司OpenAI於29日發表語音AI模型「Voice Engine」，該模型只需使用文字輸入和15秒的說話聲音樣本，就能產生與原說話者相似的語音，而該語音是帶有情感且逼真。

OpenAI在其官網說明，OpenAI致力於開發安全且讓大眾受益的AI技術，近期他們公開名為「Voice Engine（語音引擎）」AI模型，使用者只要輸入文字還有15秒的音訊樣本，該模型便會自動生成與原說話者相似的語音，而且是帶有豐富情感的，相當逼真。

「Voice Engine」早期應用

為了瞭解這項技術用途，OpenAI私底下和一群夥伴進行測試，他們將此語音AI模型應用於以下情境：

1.透過自然流暢、情感豐富的聲音，為不識字者及兒童提供閱讀輔助2.直接翻譯影片和podcast內容。像是在演講時，直接將講者的聲音翻譯成多種語言，使全球觀眾同時收看、不再受語言隔閡。3.幫助患有突發性或退化性言語疾病的患者恢復聲音。

事實上，OpenAI公司也意識到該AI技術存在嚴重風險，尤其是「選舉年」，若被有心人士生成虛假訊息、仇恨訊息，後果不堪設想。

因此OpenAI也設立了「使用政策」，該政策禁止在未經同意或合法權利的情況下冒充其他個人或組織，原說話者必須知情且同意允許AI模型使用其聲音；而使用者也應明確地向觀眾揭露該聲音為「AI生成」。另外，他們設立一套安全措施，像是添加「浮水印」以追蹤Voice Engine生成音訊來源並主動監控其使用方式。（相關報導：圖靈獎得主堅稱「Sora根本不懂物理世界」一文看懂「4大技術步驟」如何做到3D一致性！核心研發團隊全員曝｜更多文章）

OpenAI表示，目前不打算公開讓大眾使用這項技術，反而是希望透過讓大眾知曉這技術，了解AI的潛力、增強抵禦能力，以應對生成模型所帶來的挑戰，像是逐步淘汰線上銀行帳戶的聲紋認證、初步探索保護AI使用個人聲音的政策、教育大眾AI的能力和侷限性並清楚AI詐騙的可能性、加速開發相關語音技術。