[R] 設定逾時判斷

最近爬蟲偶爾遇到爬某網站時就卡住, 因此想說可否設定當讀取超過多少秒時, 則判斷為錯誤, 然後跳到下一個。 後來發現  R.utils 的   evalWithTimeout , 他可以設定當某個指令或 function 跑多少秒以上就丟出 TimeoutExcep...

Read more

[R] 將Col值依照符號切開後轉成新的Row

有時候一個Col中的每個Row可能含有多個值(如範例中alphabet欄位), 想把這些值切開產生新的Row作分析的話, 可以參考 此篇 , 其中使用 tidyr 中的 separate_rows() 相對較直覺, separate_rows() 中第一個參數為 d...

Read more

[R] 計算文字在句子中出現次數

一般判斷句子中是否出現文字常用的是 grepl, 不過 grepl 是回傳 TRUE 或 FALSE, 而要計算文字在句中出現次數的話, 就要使用 stringr 套件中的 str_count , 其回傳值為出現次數(數值), 下面範例可以試試看, 會比較好理解。...

Read more

[R] dplyr 轉換為 data.table 在處理速度上具有差異

最近在作些一般分析時, 發現當資料量大的時候, dplyr  跟  data.table  處理會差很多(個人處理到200萬筆資料時速度上就有明顯差異)。 此篇文章有 data.table 的介紹: 連結 , 詳細內容可以看上述文章, 下面舉三個例子(有的文章內沒有)...

Read more

[R] 更改檔案名稱及壓縮檔案 (rename, zip)

最近發現比較有趣的功能, R也可以結合迴圈等語法修改以及壓縮大量檔案。 修改檔名是用 file.rename , 下面範例中 from 帶入的是原本的檔案名稱, to 則是修改後的名稱。 壓縮檔案是用  zip , zipfile 是帶入壓縮檔的名稱, files...

Read more
[R] Data Frame 資料集合併(merge, join)

[R] Data Frame 資料集合併(merge, join)

資料集的合併常用的大致為Inner Join、Full Join、Left Join、Right Join。 這些方式的差異主要為最後留下的key(依照哪個欄位來合併)是什麼。 下圖整理了大致上差異為何。 下面依照網路資源, 修正整理了四大類join方法, 分別...

Read more
[R] 將多個 col 轉成一個 col 以利處理資料(melt 與 dcast)

[R] 將多個 col 轉成一個 col 以利處理資料(melt 與 dcast)

有時候在資料篩選處理或繪圖上, 需要將多個col轉換成一個col。 類似以下這張圖。 例如當要篩選出多個col的值>0的資料, 轉換成右方格式即能很快的處理。 這部分真的還是要自己去實作比較能感受到實際狀況。 下面為範例, melt  為左圖格式轉...

Read more

[R] .Last.value 與 賦予值給物件時加入引號

最近看到滿有趣的幾個用法。 第一個是 .Last.value , 他會等於是最新剛剛宣告的物件。 另一個是當原本在賦予值給物件時, 是不會顯示物件的值為何, 不過用引號包起來的話, 賦予值時, 也會顯示其值為何, 就不需要再打一次物件名稱來觀察其值。...

Read more

[R] 錯誤處理方式:Error in n() : This function should not be called directly

有時在用  dplyr  時, 會發現有些函數失效, 或是出現錯誤, 有一個可能是除了有載入  dplyr  之外, 也載入了  plyr  , 導致產生衝突(兩個library都有此函數,如  summarize  )。 解決辦法很簡單, 假設我要使用  sum...

Read more

[R] R與RStudio清空Console快捷鍵

有時需要清空Console, 其快捷鍵很簡單, 就是按下 Ctrl + L , 即可清空Console。

Read more