文字雲輸出畫面:
立法委員與官員質詢內容關鍵字
從 unsplash 下載 台灣相關圖片做遮罩
https://unsplash.com/s/photos/taiwan
國民法官法關鍵字:
109國防預算案關鍵字:
中華民國108年度 中央政府總預算案
中華民國109年度 中央政府總預算案
引用文字來源:
https://www.dgbas.gov.tw/ct.asp?xItem=26269&CtNode=5389&mp=1
文字雲主題: 社會公共議題核心內容及趨勢
對照版:
可以發現 109 跟 108 其實差異並不大
109 總預算最高頻率用詞:
'基金': 307次
'經濟': 155,
'建設': 152,
'億': 1033,
'前瞻': 35,
大概了解到財政預算案的核心是
以基金,建設經濟為主大多以“億”為單位計算
蠻意外前瞻計劃沒有提太多次,可能用別的詞替換了
所以,來對比二十年前的預算案
可惜最早的檔案 83年度左右皆為翻攝檔案,無法快速擷取文字
所以挑了 88年剛出生那年的總預算表
可以推估經費有使用到 萬元居多
補助、支出等字詞 明顯大於收入字詞
再透過其他資料分析可得知 1997年 亞洲金融風暴後
李登輝時期台灣的應對政策與成效
個人想法:
即時更新公共議題相關討論內容,並以視覺化呈現關鍵字
透過爬蟲解析文字斷詞來判別哪個議題最常被討論,
官員質詢中常常說出的語句,除非是他的口頭禪
否則透過質詢內容萃取關鍵字,可得知該部長所著重之議題
以及政府編列之 財政 國防 教育 交通 總預算內容
判斷該時期政府核心內容,其歷屆變化及未來趨勢
另外查到各政黨選舉相關紀錄
可以分析選區各黨派當選次數紀錄
可應用於政黨佈局策略
理論基礎架構:https://www.dgbas.gov.tw/public/Data/839113538OM2RMIO7.pdf
立法院開放 API
委員及法案議題相關數據資料庫
最新公佈法律:
https://lis.ly.gov.tw/lglawc/lglawkm
參考資料 :
https://github.com/amueller/word_cloud
https://yanwei-liu.medium.com/python自然語言處理-三-word-cloud文字雲
有些格式是 PDF 若要及時取得線上資料要另外載 PDF PYTHON 套件
Google 新聞關鍵字製作文字雲
自動爬取文章內容製作文字雲:
這邊 👉 : Python-爬取新聞製作文字雲