Python 爬取 Google 新聞


Posted by 大學生 on 2021-05-15

人工智慧課程 Python-爬蟲應用

想法:根據使用者輸入的關鍵字進行爬蟲相關新聞,擷取文章文字內容,內文以 jieba 分析字詞出現頻率,以文字雲呈現,理論上可快速理解現今時事議題,把資料收集後,還可以做輿情分析,以及比對各家媒體對於事件報導的立場偏好。

使用套件 : Google News, jieba, wordcloud

實際應用展示:
(適逢疫情燈會取消)
2021-01-27 關鍵字:燈會

第一篇文章內文斷詞結果:
(刪去一些常見標點符號)

articleAll.replace('[^\w\s]','').replace('/',"").replace('《','').replace('》','').replace(',','').replace('。','').replace('「',''

2021-05-14 關鍵字: 以色列

(結果現在(2023)真的打起來了...)

2021-05-15 關鍵字:疫情 新聞列表


(取其中一篇文章內文)斷詞結果:

產生關鍵字文字雲:

2021-05-10 關鍵字:covid-19 國外新聞熱門關鍵字


目前實際運作的應用:

衛生福利部疾病管制署--自動化輿情監測系統與非結構性資料分析模式建置
https://www.cdc.gov.tw/uploads/files/b56d6c59-4994-4a13-9ec2-3d84e5361b31.pdf

可以借鑑的地方是有些疾病有通用講法
還有一些同義詞可以視為一樣的關鍵字
(新冠肺炎,武漢肺炎,covid-19,等等)
https://www.cdc.gov.tw/Category/Page/vleOMKqwuEbIMgqaTeXG8A

中研院詞庫小組--輿情分析系統
https://ckip.iis.sinica.edu.tw/project/opinion


  • 文字雲文字來源取自 Google news ,圖片遮罩取自 Unsplash

完整檔案:https://github.com/wastu01/Python-WordCloud



#Python #關鍵字 #爬蟲 #文字雲







Related Posts

淺談 Redux 的特性與資料流

淺談 Redux 的特性與資料流

迴圈 for ..in

迴圈 for ..in

人性較量Day07~共存共榮

人性較量Day07~共存共榮


Comments