專案文本分析系統

專案文本分析系統

Fellows
簡毅慧、蘇彥庭、李俊穎、江泓德
Mentor
陳潔寧
Project Partner
不當黨產處理委員會

早期史料多以紙本或影像檔案儲存,造成史料研究難以有效整合有關聯的資訊。委員會的研究員們指出既有的史料雖然有豐富的文字訊息,但是在文章間的關聯性探索仍然得仰賴研究員們各自閱讀後的經驗積累,這使得研究成果不易橫向串連或者傳承。然而,文字探勘技術在這樣的手寫歷史文件分析中仍屬不易,我們將重心擺在已經轉為文字檔的史料故事,建立搜尋優化的支援系統、對外呈現友善簡潔的知識視窗,包含:文章推薦系統、社會網絡分析與數位專題等應用呈現。

首先,我們利用中央研究院中文詞知識庫小組(Chinese Knowledge and Information Processing, CKIP)的實體辨識技術進行文章斷詞與詞性的辨別,並且與研究員們合作,建立專屬不當黨產委員會的字典,這本字典有助於辨別文章內字詞的精準度,同時,我們也開放字典的增添,保留後續新增文章時的彈性調整。有賴於前述的基礎,我們建構文章間的字詞詞向量矩陣,並計算文章間的相關性,提供以文找文的文章推薦系統。

其次,文章內提及的人、機構也蘊含著一定的關聯性,但是在既有的探索中,未能系統性地釐清人物之間或者機構之間在特定主題下的關係結構。社會網絡分析(Social Network Analysis, SNA)既是一種以關係為核心的分析技術也是一種資料視覺化的工具。我們利用前述的字典建立人物與機構清單,爬梳這些名單在文章庫中出現的情況,共同出現在同一篇文章即視為有關係/連結,藉此繪製出社會網絡圖。此外,我們將節點進行分群,使得圖形大小得以反應該節點的重要性;而連結的強弱也利用關係線的粗細進行呈現,這些使得資料視覺化的過程中富含充裕的資訊。為了使網絡分析與文章庫有效地結合,我們也提供節點、連結對應的文章清單,讓研究員們在探索網絡關係時得以便捷地閱讀相關文章。

針對對外的友善簡潔知識視窗,我們採用數位專題呈現研究員們的史料研究成果,將數筆主題性的歷史文件轉化為生動且具互動的閱讀頁面。在與研究員們的討論過程中,我們自身也更加認識當時的歷史,而為了推廣這些知識,在專題頁面中圖、文併呈,使得故事深刻地被記憶而不乏味,我們也使用地圖跟時間軸呈現不當黨產的歷史變化與所有權流向,同時也結合委員會的紀錄影片讓讀者有不同層次的閱聽經驗。

完整的 專案成果簡報檔

___

延伸資料:

  • 透過時間、空間、詞頻分析、史料間關係等面向出發建構數位化工具,協助研究員能夠更快速地從史料文章中,分析出人或組織之間的關係。
    安裝說明:https://github.com/SuYenTing/d4sg_cipas_project

 

 

資料英雄

李俊穎

李俊穎

中央研究院社會學研究所
研究助理

收到合作的邀約很意外也很開心,能有機會將曾經學過的概念技術應用於不當黨產的史料分析。在合作過程中,深刻體會到多方溝通與分工合作的樂趣,很感謝不當黨產委員會的研究員提供寶貴的歷史資料、建構資料分析的基礎,也很謝謝一同參與的英雄們在這次的專案中皆發揮各自的專業,能成為一員相當榮幸。社會網絡分析既是一種分析技術也是一種資料視覺化的工具,儘管過去有些學習經驗,但實際使用時才知道Python的多元性大大地增加了應用工具的豐富度,讓我學習到許多。最後,感謝智庫驅動的邀請,謝謝 Ning, Leo 與 CK。
擅長工具:Python, Stata

蘇彥庭

蘇彥庭

化工業
資料科學家

感謝D4SG提供資料英雄專案計畫,讓我有機會能夠貢獻自己的專業幫國家做事。在三個月的專案期間內,大家撥空在週末的時間一起開會討論,彼此腦力激盪,釐清業務需求痛點,找出專案的發展方向,並提出解決方案。我很榮幸能夠和優秀的團隊夥伴及黨產會同仁們,一同互相學習與合作完成此次專案。期許有更多優秀人才和政府及非營利組織,能夠一同加入D4SG資料英雄計畫,為社會帶來更多正向影響力。
擅長工具:Python, R, SQL, Power BI

簡毅慧

簡毅慧

中央通訊社
數位編輯

非常榮幸這次可以和黨產會合作,和專員們一起討論資訊設計,把台灣過去半世紀以來艱澀複雜的黨國歷史、法律文獻轉化成生動活潑的樣子,讓這塊土地曾發生的故事走進更多人的視野。 也非常高興有機會和厲害的資料英雄夥伴俊穎、彥庭、Aaron合作,觀察他們如何將一筆筆文字資料結構化、建立資料庫,進而推進台灣黨國歷史研究,我覺得是非常有意義的事。 最後感謝智庫驅動團隊,期待D4SG計畫可以繼續陪伴台灣社會成長、茁壯 <3
擅長工具:Python, Gsheet, Flourish, Figma

江泓德

江泓德

智庫驅動
資料分析師

文字探勘研究的品質好壞取決於「領域詞庫」的建立,在這次的專案中最耗時的也確實是該部分,但也因為大家的團隊合作與互相協助,使得「領域詞庫」的建立相當成功。在整個專案過程中,非常享受大家的熱絡討論與付出的精神,讓即便是只有短短三個月的專案依舊能有一定水準的成果產出!
擅長工具:R, SQL

Related Posts