最近爬蟲偶爾遇到爬某網站時就卡住, 因此想說可否設定當讀取超過多少秒時, 則判斷為錯誤, 然後跳到下一個。 後來發現 R.utils 的 evalWithTimeout , 他可以設定當某個指令或 function 跑多少秒以上就丟出 TimeoutExcep...
有時候一個Col中的每個Row可能含有多個值(如範例中alphabet欄位), 想把這些值切開產生新的Row作分析的話, 可以參考 此篇 , 其中使用 tidyr 中的 separate_rows() 相對較直覺, separate_rows() 中第一個參數為 d...
一般判斷句子中是否出現文字常用的是 grepl, 不過 grepl 是回傳 TRUE 或 FALSE, 而要計算文字在句中出現次數的話, 就要使用 stringr 套件中的 str_count , 其回傳值為出現次數(數值), 下面範例可以試試看, 會比較好理解。...
最近在作些一般分析時, 發現當資料量大的時候, dplyr 跟 data.table 處理會差很多(個人處理到200萬筆資料時速度上就有明顯差異)。 此篇文章有 data.table 的介紹: 連結 , 詳細內容可以看上述文章, 下面舉三個例子(有的文章內沒有)...
最近發現比較有趣的功能, R也可以結合迴圈等語法修改以及壓縮大量檔案。 修改檔名是用 file.rename , 下面範例中 from 帶入的是原本的檔案名稱, to 則是修改後的名稱。 壓縮檔案是用 zip , zipfile 是帶入壓縮檔的名稱, files...
![[R] Data Frame 資料集合併(merge, join)](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEigvf2ugokMjePNjol9HQ98rki1-QG5bk6Q293CcOoJGDKeLQRkXESH12qS0NyDazbRO13xtEqX6r8uHbG2m8krI2FWgvE75SpGXPhK6_3JDOh4NtgQCPHPdHailu1GMaPgn1um2g7FFuo/s72-c/%25E7%25B0%25A1%25E5%25A0%25B12.png)
資料集的合併常用的大致為Inner Join、Full Join、Left Join、Right Join。 這些方式的差異主要為最後留下的key(依照哪個欄位來合併)是什麼。 下圖整理了大致上差異為何。 下面依照網路資源, 修正整理了四大類join方法, 分別...
![[R] 將多個 col 轉成一個 col 以利處理資料(melt 與 dcast)](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhN40gzB32JWyIx0173MJmyfDh9MSbxUEuMphMeuVXuYRz1dJXldL_eYhXeHbQP50Bg2l7LPahSqXCz5ogd8gmCsEq7SY8tXBFQlDAPx4saq99SxjztvT0Efh5g6ShUl7tPRL5efrYnv_M/s72-c/melt.png)
有時候在資料篩選處理或繪圖上, 需要將多個col轉換成一個col。 類似以下這張圖。 例如當要篩選出多個col的值>0的資料, 轉換成右方格式即能很快的處理。 這部分真的還是要自己去實作比較能感受到實際狀況。 下面為範例, melt 為左圖格式轉...
最近看到滿有趣的幾個用法。 第一個是 .Last.value , 他會等於是最新剛剛宣告的物件。 另一個是當原本在賦予值給物件時, 是不會顯示物件的值為何, 不過用引號包起來的話, 賦予值時, 也會顯示其值為何, 就不需要再打一次物件名稱來觀察其值。...
有時在用 dplyr 時, 會發現有些函數失效, 或是出現錯誤, 有一個可能是除了有載入 dplyr 之外, 也載入了 plyr , 導致產生衝突(兩個library都有此函數,如 summarize )。 解決辦法很簡單, 假設我要使用 sum...