人工智慧課程 Python-爬蟲應用
想法:根據使用者輸入的關鍵字進行爬蟲相關新聞,擷取文章文字內容,內文以 jieba 分析字詞出現頻率,以文字雲
呈現,理論上可快速理解現今時事議題,把資料收集後,還可以做輿情分析,以及比對各家媒體對於事件報導的立場偏好。
使用套件 : Google News, jieba, wordcloud
實際應用展示:
(適逢疫情燈會取消)
2021-01-27 關鍵字:燈會
第一篇文章內文斷詞結果:
(刪去一些常見標點符號)
articleAll.replace('[^\w\s]','').replace('/',"").replace('《','').replace('》','').replace(',','').replace('。','').replace('「',''
2021-05-14 關鍵字: 以色列
(結果現在(2023)真的打起來了...)
2021-05-15 關鍵字:疫情 新聞列表
(取其中一篇文章內文)斷詞結果:
產生關鍵字文字雲:
2021-05-10 關鍵字:covid-19 國外新聞熱門關鍵字
目前實際運作的應用:
衛生福利部疾病管制署--自動化輿情監測系統與非結構性資料分析模式建置
https://www.cdc.gov.tw/uploads/files/b56d6c59-4994-4a13-9ec2-3d84e5361b31.pdf
可以借鑑的地方是有些疾病有通用講法
還有一些同義詞可以視為一樣的關鍵字
(新冠肺炎,武漢肺炎,covid-19,等等)
https://www.cdc.gov.tw/Category/Page/vleOMKqwuEbIMgqaTeXG8A
中研院詞庫小組--輿情分析系統
https://ckip.iis.sinica.edu.tw/project/opinion
- 文字雲文字來源取自 Google news ,圖片遮罩取自 Unsplash
完整檔案:https://github.com/wastu01/Python-WordCloud