《暢銷書密碼》選摘：電腦如何讀小說？-風傳媒

《暢銷書密碼》選摘：電腦如何讀小說？

但並非所有特徵都可以用來判斷小說的暢銷指數。我們發現，數字的使用不太會影響銷售成績，例如911、1984、867-5309、$1,000,000。作者在小說裡有沒有用到數字，或使用數字的頻率高低，都不會造成影響。同樣地，我們花了很多時間，訓練電腦準確判斷《穿著Prada的惡魔》場景設在紐約，《控制》則是從紐約開始，最後到了密蘇里。但其實地理場景設定對銷量的影響也不大。

[啟動LINE推播] 每日重大新聞通知

到最後，我們去蕪存菁，從20,000種寫作特徵中篩選出2,800種，這些特徵對於小說暢銷程度有較顯著的影響。我們在訓練電腦閱讀並擷取寫作特徵之後，又用另一套電腦程式來分析暢銷小說潛在的共通模式。我們在分析階段所使用的方法稱做「機器學習」。在文字探勘的領域裡，我們往往利用文本之間的相似處來做分類。舉例來說，我們想分辨垃圾郵件和一般郵件，而通常垃圾郵件都有些共同點，像錯別字、商品名稱不斷出現等，我們便可依此寫出一套程式來檢測一封電子郵件是不是垃圾信。

我們將小說分類的方法其實和過濾電子郵件很類似。假設我們想預測一本沒有看過的新書會不會暢銷，而我們已經握有很多暢銷書（非垃圾郵件）和冷門書（垃圾郵件），我們就可以把這些書都匯入電腦，並訓練電腦根據顯著的寫作特徵去辨識這兩種書籍。我們在做的就是這些事。我們用了三種不同的分類方法，最後把結果平均起來，發現電腦不但可以預測一本新書能否暢銷，準確度還高達八成。

《暢銷書密碼》告訴你大數據找得出暢銷書基因的秘訣。(雲夢千里提供 )

1 2 3 全文閱讀

《暢銷書密碼》選摘：電腦如何讀小說？

「講平凡事物的書，其實很迷人！」比爾蓋茲最愛不釋手的5本書，你看過幾本？

胡又天專欄：不好的作品也要閱讀

只要6分鐘就能減輕68%的壓力！當你感到煩躁、沮喪時，請拿起這14本紓壓好書

榮登全球最有影響力排行榜！靠閱讀熬過罹癌低潮，李開復的13本台灣人必讀書單

舉家北上苦掙錢只為供他追夢，農村子弟三度闖金馬！名導演楊力州10本必讀書單