[R] jiebaR - 結巴分詞

在進行文字探勘時,
需要把句子切成詞彙。
R裡面我有用到的library是tmcn跟jiebar。
jiebar很直覺,
先用 cutter=worker() 產生一個切詞器,
便可以用cutter來切割句子。
我們還可以使用new_user_word來將新詞彙加入詞庫,
而當使用cutter=worker("tag")除了可以切割出詞彙之外,
還會提供詞彙的詞性,
使用者就可以抓出想要詞性的詞彙出來。
範例如下:


沒有留言:

張貼留言