《暢銷書密碼》選摘:電腦如何讀小說?

2016-12-23 05:40

? 人氣

但並非所有特徵都可以用來判斷小說的暢銷指數。我們發現,數字的使用不太會影響銷售成績,例如911、1984、867-5309、$1,000,000。作者在小說裡有沒有用到數字,或使用數字的頻率高低,都不會造成影響。同樣地,我們花了很多時間,訓練電腦準確判斷《穿著Prada的惡魔》場景設在紐約,《控制》則是從紐約開始,最後到了密蘇里。但其實地理場景設定對銷量的影響也不大。

[啟動LINE推播] 每日重大新聞通知

到最後,我們去蕪存菁,從20,000種寫作特徵中篩選出2,800種,這些特徵對於小說暢銷程度有較顯著的影響。我們在訓練電腦閱讀並擷取寫作特徵之後,又用另一套電腦程式來分析暢銷小說潛在的共通模式。我們在分析階段所使用的方法稱做「機器學習」。在文字探勘的領域裡,我們往往利用文本之間的相似處來做分類。舉例來說,我們想分辨垃圾郵件和一般郵件,而通常垃圾郵件都有些共同點,像錯別字、商品名稱不斷出現等,我們便可依此寫出一套程式來檢測一封電子郵件是不是垃圾信。

我們將小說分類的方法其實和過濾電子郵件很類似。假設我們想預測一本沒有看過的新書會不會暢銷,而我們已經握有很多暢銷書(非垃圾郵件)和冷門書(垃圾郵件),我們就可以把這些書都匯入電腦,並訓練電腦根據顯著的寫作特徵去辨識這兩種書籍。我們在做的就是這些事。我們用了三種不同的分類方法,最後把結果平均起來,發現電腦不但可以預測一本新書能否暢銷,準確度還高達八成。

雲夢千里《暢銷書密碼》立體書封 (雲夢千里提供 ).jpg
《暢銷書密碼》告訴你大數據找得出暢銷書基因的秘訣。(雲夢千里提供 )

 

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章