Python jieba 中文斷詞套件


Posted by 大學生 on 2020-10-25

jieba中文斷詞套件

结巴中文分词

https://github.com/fxsjy/jieba

jieba-tw 結巴(jieba)斷詞台灣繁體 特化版本

https://github.com/APCLab/jieba-tw

繁體中文詞典
https://raw.githubusercontent.com/APCLab/jieba-tw/master/jieba/dict.txt

程式執行畫面


https://repl.it/join/nwbygksi-wastu01

jieba 中文斷詞

jieba 文中關鍵字

筆記整理

  • 精確模式

句子最精確的切開,文本分析

  • 全模式

句子可以成詞的詞語切出,速度快。

  • 搜索引擎模式

精確模式的基礎上,將長的詞語再切分

import jieba

documents = ['我來自台中教育大學', '疫情趕快遠離台灣', '我想出國旅行']
# 精確模式
for sentence in documents:
    seg_list = jieba.cut(sentence)
    print('/'.join(seg_list))

print('---------------')

# 全模式
for sentence in documents:
    seg_list = jieba.cut(sentence, cut_all=True)
    print('/'.join(seg_list))

print('---------------')

# 搜索引擎模式
for sentence in documents:
    seg_list = jieba.cut_for_search(sentence)
    print('/'.join(seg_list))

自定義詞典

創立 user_dict.txt 自行增加

文中關鍵字

import jieba.analyse
news = '中央流行疫情指揮中心今日宣布,國內新增2例武漢肺炎(新型冠狀病毒病,COVID-19)境外移入,分別為分別自菲律賓及美國入境。指揮中心發言人莊人祥表示,案549為20多歲菲律賓籍女性,因工作於今年9月30日入境台灣,搭機前3日內檢驗陰性,入境時至集中檢疫期滿均無症狀,10月13日檢疫期滿前採檢結果為陰性,檢疫期滿後由仲介安排至隔離宿舍進行自主健康管理,並於10月22由仲介安排至醫院自費檢驗,於今日確診,目前住院隔離中。'
tags = jieba.analyse.extract_tags(news, topK=5, withWeight=True)

# 引用文字來源 :https://news.ltn.com.tw/news/life/breakingnews/3331012

for tag in tags:
    print('word:', tag[0], 'tf-idf:', tag[1])
# 程式參考來源: https://blog.kennycoder.io/categories/Python/

單純要繳交作業的
線上版本斷詞出圖: https://www.wordclouds.com/gallery/


#jieba #Python #斷詞 #詞頻 #結巴







Related Posts

[Day-1] 拿好藏寶圖,準備出航

[Day-1] 拿好藏寶圖,準備出航

讓專案使用 Gulp 自動化編譯

讓專案使用 Gulp 自動化編譯

APIFlask 初始化專案

APIFlask 初始化專案


Comments