《暢銷書密碼》選摘：電腦如何讀小說？ | 雲夢千里

電腦當然不會閱讀，至少和你閱讀的方式很不一樣。不過電腦可以用處理程式語言的方法讀書，它們先「看書」（也就是先接收資料），再把資料區分為人類所謂的意義單元，像是字母、標點、字詞、句子和章節等。所以電腦的確能模仿人類閱讀，而且訓練過程愈嚴謹，理解程度就愈擬真。而人類讀者和機器讀者的差別在於，人類知道他們閱讀的內容有意義。

話雖如此，電腦的閱讀方法卻能讓我們更接近小說描繪的細節，就連閱書無數的文評也甘拜下風。那是因為電腦擅長辨識模式，而且可以大規模處理模式和細節，但人類卻沒有辦法做到。

大家想想我們的研究初衷：暢銷書到底能不能預測？想做預測，就要先剖析過去重複發生的模式。除非你會占卜，否則預測未來靠的是熟悉歷史。一般來說，在字裡行間尋找有意義的模式是文評或學者的工作。著有《千面英雄》的神話學者坎伯，傾其一生研讀世界各地的故事，還刻意訓練他的眼睛去辨識這些故事的相似之處。他可是辨認模式的大師，儘管如此，一個人一輩子能做的終究有限，不論是閱讀的數量或觀察的細膩程度。辨認模式既要看微觀的細節，也要看宏觀的趨勢，而人類在這兩個面向都有規模上的限制。

但幾部經過訓練的電腦，可以在一天之內就讀完數千本小說，消化完數千筆資料，而且絲毫不放過人類可能會忽略或習以為常的各種細節。

舉個例子吧。我們在閱讀的時候，尤其是受過訓練、擅長捕捉細節的讀者，都會注意到作者使用了哪些形容詞。但我們大概不會注意到名詞和形容詞之間的比例，這個比例代表了作者有多常使用形容詞去描述一個名詞。電腦可以輕易找出這種資訊，讓我們更清楚作者的敘事方式與風格。電腦不僅可以縝密搜索，還可以比較這本書和另外上千本書的差異。如果電腦發現暢銷書裡形容詞與名詞的比例偏高或偏低，那這個寫作特徵就很重要了。

下次你找書來看的時候，不妨做個實驗，別管朋友的推薦也不要執著於熟悉的作者和類型，試著連續一週都只看《紐約時報》暢銷榜上的書。如果你讀得夠仔細，你就會變得有點像我們的電腦，不論是文學作品或大眾讀物、男性書籍或女性書籍、明星作家的小說或普立茲獎得獎作品，你都能開始看出各種書籍之間意外的共同模式。

有些模式可能會讓你很驚訝，譬如說，你會納悶為什麼女主角通常都是二十八歲。這重要嗎？你可能會問自己：如果一本小說長達400頁，作者是不是刻意把第一場床戲安排在第200頁？如果全書只有220頁，那第一場床戲則會落在第110頁。如果真是這樣，為什麼？你可能會和朋友討論，小說若有一個吸引人的開頭卻沒有一個讓人滿意的結局，銷量會不會受到影響？搞不好你還會覺得這些分屬不同類型的暢銷書有太多潛在的共同點了，根本可以自成一派。（相關報導：「講平凡事物的書，其實很迷人！」比爾蓋茲最愛不釋手的5本書，你看過幾本？｜更多文章）

《暢銷書密碼》的兩位作者。（雲夢千里出版提供）

有趣的是，讀者在不知不覺中對這些模式很有感覺。「文學神經科學」是一門新興的研究領域，學者利用核磁共振來掃描測試對象在閱讀時的腦部活動。這項認知心理學的研究是為了瞭解讀者閱讀的時候都在注意什麼。儘管這和我們的方法差很多，但兩種方法都認為，人類對讀物的反應來自於哪些字、用哪種方式排列、出現在哪些句子裡。是字句的組合觸發了讀者的反應。

因此，讓電腦閱讀小說的技術一點也不反傳統，並沒有違背我們慣用的文評方法。事實上，電腦可以「觀察入微」，對各種寫作特徵進行擷取分析，這和傳統研究所使用的方法大同小異。只不過，電腦讓我們有機會從文本當中挖掘出前所未見的深入洞見。

教電腦閱讀與擷取資訊的方法很多。我們寫了各種程式和演算法，可以從書裡擷取詳細資訊，包括每一本書的風格、主題、人物、情緒起伏、場景設定，還有各式各樣看似無關緊要又難以歸類的語言資訊。

寫作書和小說課都經常到小說的幾個重要元素，如主題、情節、寫作風格等，若要從這些面向來分析暢銷書，電腦就需要數百種原始資料，比方說，作者用了多少次的「a」、「the」、「in」和「she」？句號和驚嘆號出現的頻率為何？作者多常用到副詞，使用得是否準確？這些微小細節其實對讀者影響頗大。想想夏綠蒂．勃朗特在《簡愛》裡的這句話，就可以看出代名詞有多重要：

讀者，我嫁給他了。

電腦偵測到「他」這個字，也注意到「他」和敘事者「我」在句子裡靠得很近。此外，電腦也發現「我」和「他」在愈來愈多句子裡同時出現，而且彼此間的距離愈來愈近。當然，讀者也會注意到這件事。許多故事的重點不就是要讓「我」和「他」在一起嗎？要把兩者連在一起的最佳動詞不就是「嫁給」嗎？往往，這就是讓我們一頁又一頁不停讀下去的理由。

問號和驚嘆號也提供我們很多資訊。但你可能記得高中老師教過，驚嘆號用得愈少愈好。如果每個句子都在尖叫（我的天！），或每句對話都是命令（不准動！），或嘶喊（啊！），或一直發現夜裡不寧靜（砰！），那你的讀者可能會心臟無力。驚嘆號的使用可以讓我們看出一本小說的聳動程度以及作者的寫作功力。同樣道理，出現問號常常表示有對話發生，如果一連串的敘述文字好幾頁都沒有出現問號，會讓讀者閱讀的速度和興致都降下來。

我們剛開始研究的時候，擷取了超過20,000種寫作特徵，驚嘆號和「他」只是其中的兩個。我們每一種都認真研究，有些特徵讓我們看出風格，有些讓我們更理解情節和故事設定，還有一些讓我們瞭解小說的題材。

但並非所有特徵都可以用來判斷小說的暢銷指數。我們發現，數字的使用不太會影響銷售成績，例如911、1984、867-5309、$1,000,000。作者在小說裡有沒有用到數字，或使用數字的頻率高低，都不會造成影響。同樣地，我們花了很多時間，訓練電腦準確判斷《穿著Prada的惡魔》場景設在紐約，《控制》則是從紐約開始，最後到了密蘇里。但其實地理場景設定對銷量的影響也不大。

到最後，我們去蕪存菁，從20,000種寫作特徵中篩選出2,800種，這些特徵對於小說暢銷程度有較顯著的影響。我們在訓練電腦閱讀並擷取寫作特徵之後，又用另一套電腦程式來分析暢銷小說潛在的共通模式。我們在分析階段所使用的方法稱做「機器學習」。在文字探勘的領域裡，我們往往利用文本之間的相似處來做分類。舉例來說，我們想分辨垃圾郵件和一般郵件，而通常垃圾郵件都有些共同點，像錯別字、商品名稱不斷出現等，我們便可依此寫出一套程式來檢測一封電子郵件是不是垃圾信。

我們將小說分類的方法其實和過濾電子郵件很類似。假設我們想預測一本沒有看過的新書會不會暢銷，而我們已經握有很多暢銷書（非垃圾郵件）和冷門書（垃圾郵件），我們就可以把這些書都匯入電腦，並訓練電腦根據顯著的寫作特徵去辨識這兩種書籍。我們在做的就是這些事。我們用了三種不同的分類方法，最後把結果平均起來，發現電腦不但可以預測一本新書能否暢銷，準確度還高達八成。（相關報導：「講平凡事物的書，其實很迷人！」比爾蓋茲最愛不釋手的5本書，你看過幾本？｜更多文章）

《暢銷書密碼》告訴你大數據找得出暢銷書基因的秘訣。(雲夢千里提供 )