但並非所有特徵都可以用來判斷小說的暢銷指數。我們發現,數字的使用不太會影響銷售成績,例如911、1984、867-5309、$1,000,000。作者在小說裡有沒有用到數字,或使用數字的頻率高低,都不會造成影響。同樣地,我們花了很多時間,訓練電腦準確判斷《穿著Prada的惡魔》場景設在紐約,《控制》則是從紐約開始,最後到了密蘇里。但其實地理場景設定對銷量的影響也不大。
到最後,我們去蕪存菁,從20,000種寫作特徵中篩選出2,800種,這些特徵對於小說暢銷程度有較顯著的影響。我們在訓練電腦閱讀並擷取寫作特徵之後,又用另一套電腦程式來分析暢銷小說潛在的共通模式。我們在分析階段所使用的方法稱做「機器學習」。在文字探勘的領域裡,我們往往利用文本之間的相似處來做分類。舉例來說,我們想分辨垃圾郵件和一般郵件,而通常垃圾郵件都有些共同點,像錯別字、商品名稱不斷出現等,我們便可依此寫出一套程式來檢測一封電子郵件是不是垃圾信。
我們將小說分類的方法其實和過濾電子郵件很類似。假設我們想預測一本沒有看過的新書會不會暢銷,而我們已經握有很多暢銷書(非垃圾郵件)和冷門書(垃圾郵件),我們就可以把這些書都匯入電腦,並訓練電腦根據顯著的寫作特徵去辨識這兩種書籍。我們在做的就是這些事。我們用了三種不同的分類方法,最後把結果平均起來,發現電腦不但可以預測一本新書能否暢銷,準確度還高達八成。