圓州率
🌐

Feature Image

文字探勘的可能性──《文學大數據》

資料科學, 文字探勘, 心得, 閱讀心得
從統計觀點解讀1500本經典文學,用數據回答出隱藏在文字中祕密。

引言

封面是 Bing 繪製的「文學大數據」。

在碩論中用上了 text mining 的技術,有工具與資源,缺的就是如何把工具發揮到極致,因此閱讀《文學大數據》從中獲取靈感。

文字指紋

文字如同指紋,破解出《聯邦論》作者謎團的方式就是以文字指紋分析的,以往分析文章的主張、想法、理念卻遲遲沒有進展,然而計算 enough、while、whlist、upon 等字詞的頻率,再與候選作者撰寫過的文章比對,就能發現用字如同指紋,有些人的常用字卻是其他人的罕用字。

作者推理問題 (Inference in an Authorship Problem) 中用了一個大膽的假設,作者筆下使用詞彙的頻率相同,雖著撰寫主題與年紀增長可能會導致用詞改變,但使用 an、any、may 等一般詞彙的使用頻率卻是隱藏不住的。

紅學 的其中一個議題是 紅樓夢的作者問題,一般認為前80回是曹雪芹撰寫,後40回是高鶚撰寫,在此我們能看到跳脫劇情分析,以用字分析作為依據的方式

  1. 台大的 利用文本採礦探討《紅樓夢》的後 40 回作者爭議
  2. 政治大學的 統計在紅樓夢的應用

相較於劇情分析的一人一套結論,文字分析能提供穩定證據式的分析。

特徵

循著「指紋」的想法,這些特徵本質上是差異,例如某字的使用頻率特別高就可以說是寫作特徵。對於可以被量化的特徵如字詞使用頻率、文句長短,可以透過統計方式回答以下問題

  1. 英國作家 VS 美國作家,筆下的差異?
  2. 暢銷作家最愛用的字。
  3. 開場白要越短越好嗎?

試著從量化數據中發現特徵

評估

評估問題的指標,書中有段在探討「提出寫作建議的作家們,真的也遵循的自己的意見了嗎?」,例如:

  1. 別用太多!或?
  2. 別用否定字

對於非量化問題,如本書探討的幾個議題:

  1. 暢銷書越來越笨了嗎?易讀性測試 Flesch–Kincaid readability tests
  2. 美國作家比較吵?史丹佛大學的小說音量評估 Loudness in the Novel

把量化數據轉換成能被建構的指標;也就是所謂的定義這件事。

可能性

我以往的數據建模只用其中的數據型資料,文本型資料幾乎沒應用上,然而文本型資料才是最有資訊的,只是要提取與應用卻是困難的。就如同之前做的 Netflix 推薦系統,僅用上標籤型資料 (tags),這些標籤像大賣場的走道告示牌,告訴你個走道是生鮮食材,另一個走道是雜貨五金,這些標籤是個好的開始,能帶你到對的地方;但也僅僅是個開始,要做一個好的推薦系統,文本資料才是真正適合深掘的地方。

群覽當今文本型資料的應用

  1. 文本分類:垃圾郵件過濾、新聞分類
  2. 主題建模:從文本中發現隱含的主題
  3. 翻譯:多語言交換模型
  4. 搜尋引擎:文本搜尋技術
  5. 生成式模型:文本摘要、自動文本生成

我認為「消歧異」或者「近意字整合」仍有發展空間,例如搜索「圖片」與「圖像」會給不同的搜索結果,然而這兩項東西本質上是一樣的。

後記

1982年出版的《The Umbrella Man and Other Stories》其中一則故事 The Great Automatic Grammatizator,主角認為文法能像數學一樣明確,因此他發明了一台能自動產出高品質文章的機器,他因此獲得財富但最終卻深陷無情商業化和原創性的泥沼中。

生成式 AI 的問世如同 The Great Automatic Grammatizator,現如今不只文章、音樂、繪圖,連程式都能被自動化的產出。我們正進入一個新的紀元,只是這對人類究竟是進化還是退化 (devolution)

推動所有有機生物進化的一條法則是繁衍。適者生存,不適者淘汰。最終,一個物種可能會變得自滿。在那時,退化可能會發生。這是一個向下的螺旋,預示著該生命形式的終結。
One general law leading to the advancement of all organic beings is multiply. Therein, let the strongest live, and the weakest die. Eventually, a species can become complacent. At that point, a de-evolution can occur. A spiral downwards, signaling an end for that lifeform.

參考資料

  1. 文學大數據 (Nabokov’s Favorite Word Is Mauve)