數據與文學（郭德偉） – Data & AI Literacy Association

本文作者郭德偉（Andy Kwok），為數據素養協會資深創會會員兼 OpenCertHub 創辦人及行政總裁，為《EJTech》撰寫專欄

每當我們談及數據時，話題總離不開商業或⼯作應⽤上，不如今次換個⾓度，講解如何利⽤數據幫助我們對文學作品的深入理解。⼤家有沒有想過，文字本⾝也是⼀種數據，在⼤數據的領域中，所有文字、語⾳或圖象訊息均可歸類為「非結構化數據 (unstructured data)」。運⽤⼤數據模型進⾏分析，能夠揭⽰出新的⾒解。在文學研究中，數據的應⽤不僅增強了我們的閱讀體驗，還促進了對經典作品的理解。

文字本⾝也是⼀種數據，可⽤來作情緒分析 (sentiment analysis)

由於我從⼩就熱愛東洋文化，中學時期對⽇本文學作品特別情有獨鍾，尤以夏⽬漱⽯為我最喜愛的作家。或許有些讀者對這位作家的名字不甚熟悉，但我相信如果你是⽇本旅遊的常客的話，你對他的肖像可能感覺並不陌⽣。何解？這是因為⽇本政府為紀念夏⽬漱⽯這位文學巨匠，⾃ 1984 年（昭和 59 年）11 ⽉ 1 ⽇⾄ 2007 年（平成 19年）4 ⽉ 2 ⽇期間，將其肖像印刷於⼀千⽇圓的鈔票上。⽽我作為他的粉絲，當然也收藏了⼀張以作紀念。

⽇本政府為紀念夏⽬⽽印刷的⼀千⽇圓鈔票

就以夏⽬漱⽯的其中⼀部經典⼩說《我是貓》（⽇語：吾輩は猫である）為例，借助有趣的數據和分析⾓度，嘗試深入理解這部文學作品。⾸先我為⼤家簡單介紹⼀下，《我是貓》是夏⽬老師於 1905 年出版的⼩說，這部作品被認為是⽇本文學中的經典之⼀。故事以透過⼀隻貓的視⾓為題，觀察⼈類的⽣活與社會的各種現象，展現了豐富的⼈性和社會批判。

透過⼤數據模型去研究文學作品，可以從以下幾⽅⾯分析找出新亮點：

詞頻分析

利⽤關鍵詞作統計，分析文中經常出現的詞彙，例如「貓」、「⼈」、「孤獨」、「觀察」等。這些詞的出現頻率可以反映出作品的核⼼主題。⾼比例的「⼈」詞彙可能表明夏⽬對⼈類社會的批評或反思，⽽「貓」的頻繁出現則強調了貓的獨特視⾓和思維。另外透過詞彙變化，隨著故事情節的發展，特定詞彙的出現頻率是否有所變化，這可以揭⽰⾓⾊⼼理的變化或情節的轉折。

⾓⾊分析

利⽤⾓⾊出現的頻率，統計各個⾓⾊在⼩說中的出現次數，了解哪些⾓⾊的重要性，以及他們的互動模式。透過分析⾓⾊在不同情況下表達的情感，了解他們的情感傾向。例如貓對⼈類的看法是積極還是消極，這樣可以幫助讀者對⾓⾊的理解。

文本結構分析

利⽤章節⻑度統計，分析各章節的字數，了解作者在不同情節中所花費的篇幅，有助反映出重要情節的強調。透過分析語句⻑度，測量句⼦的⻑度和結構，了解漱⽯的寫作風格和語⾔特點。掌握這些數據不僅能夠幫助讀者更深入地理解《我是貓》這部作品，還能增加閱讀文學的趣味性，讓作品的分析變得更為豐富和立體，促進讀者之間的交流。

數據在我們⽇常⽣活中已廣泛地應⽤，掌握數據素養有助提⾼我們的⽣活質素及⼯作效率。下次我會尋找⼀些有趣的數據主題，再與⼤家分享和學習。

夏⽬漱⽯的的作品中，筆者特別喜歡《我是貓》

Visit here to read the article: 數據與文學（郭德偉） – EJ Tech

Andy Kwok

+ posts

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30