0 [R] jiebaR - 結巴分詞 在進行文字探勘時, 需要把句子切成詞彙。 R裡面我有用到的library是tmcn跟jiebar。 jiebar很直覺, 先用 cutter=worker() 產生一個切詞器, 便可以用cutter來切割句子。 我們還可以使用new_user_word來將新詞彙加入詞庫, 而當使用cutter=worker("tag")除了可以切割出詞彙之外, 還會提供詞彙的詞性, 使用者就可以抓出想要詞性的詞彙出來。 範例如下: 沒有留言: 張貼留言 Popular Posts [R] Data Frame 資料集合併(merge, join) [R] 數值不要以科學記號(scientific notation)呈現 [R] 將多個 col 轉成一個 col 以利處理資料(melt 與 dcast) [R] 當數值型轉Factor再轉回數字型資料時需注意之事項 [R] 去除字串前後空格 [R] 各種常用讀取Excel檔案的範例 [R] 使用rvest進行網路爬蟲 (二) [R] 使用rvest進行網路爬蟲 [R] 利用R下載網頁上的檔案 [玩玩小數據] 從人力銀行職缺看資料分析師需要些什麼技能(R? Python? ...?) Blog Archive ► 2021 (1) ► 1月 (1) ► 2018 (3) ► 12月 (1) ► 10月 (2) ▼ 2016 (31) ► 12月 (1) ► 11月 (1) ► 10月 (3) ► 9月 (5) ► 8月 (4) ► 7月 (6) ▼ 6月 (5) [Ubuntu] 設定固定IP [R] 發生錯誤 : "Error: invalid multibyte character in ... [R] jiebaR - 結巴分詞 [R] 將值賦予給文字以及全域變數宣告 [R] 使用R進行樞紐分析 ► 5月 (3) ► 4月 (3) Categories R (28) data.table (4) Python (3) Rstudio (3) dplyr (3) rvest (3) 網路爬蟲 (3) Error (2) Web Crawler (2) grepl (2) jupyter (2) plyr (2) ubuntu (2) 教學 (2) .Last.value (1) Big Data (1) Console (1) IEEE程式語言排行 (1) PuTTY (1) Rprofile.site (1) Rselenium (1) XLConnect (1) assign (1) bar chart (1) cat (1) conflict (1) coord_flip (1) data.frame (1) dcast (1) download.file (1) evalWithTimeout (1) excel_sheets (1) factor (1) file.rename (1) fread (1) ggplot2 (1) global variable (1) group_by (1) gsub (1) invalid multibyte character (1) jiebaR (1) join (1) jupyter_contrib_nbextensions (1) jupyterthemes (1) loading (1) melt (1) merge (1) mutate (1) numeric (1) print (1) rbind (1) read.csv (1) read_csv (1) read_excel (1) readr (1) readxl (1) scientific notation (1) scipen (1) separate_rows (1) setDF (1) setDT (1) sqldf (1) static IP address (1) str_count (1) stringr (1) table (1) tidyr (1) timeout (1) trim (1) txtProgressBar (1) unique (1) zip (1) 人力銀行 (1) 參考資源 (1) 技能 (1) 文字探勘 (1) 橫條圖 (1) 玩玩小數據 (1) 結巴分詞 (1) 能力 (1) 資料分析 (1) 資料分析師 (1) 長條圖 (1) 搜尋此網誌
沒有留言:
張貼留言