一直以來都希望使用高CP值的東西,原本是用QCY與Avantree的耳機,不過慢慢對音質與舒適度有些需求,便開始找尋不錯的耳機。 查了很多文,以及試聽過Anker其他耳機相當滿意,但因價格遲遲沒下手,結果剛好看到智選家在預購Anker Soundcore Life Dot 2就...
最近看到 這篇文章(Bringing the best out of Jupyter Notebooks for Data Science) ,主要有提到一些擴充套件,讓我們在使用Jupyter時更加方便。其中jupyter_contrib_nbextensions有許多功能相當...
因為朋友也想走資料科學這領域,問說到底該學R還是Python(想當年因為很擔心怕學錯,還趁演講後去問陳昇瑋博士,答案是都可)。 這篇文章 有提到大概趨勢。簡單來說,列在人力銀行的技能需求上,Python大於R,而且近年來Python是成長的,R則是向下的趨勢。 台灣我自己之前...
在用其他IDE時,像是Rstudio,習慣性換將白白的佈景改為深色的,對眼睛來說比較舒服。 用了一陣子Jupyter Notebook以後,才想到Jupyter Notebook應該也可以改成深色佈景。 查了一下,發現有個套件叫 jupyterthemes ,裡面有內建一些佈...
最近爬蟲偶爾遇到爬某網站時就卡住, 因此想說可否設定當讀取超過多少秒時, 則判斷為錯誤, 然後跳到下一個。 後來發現 R.utils 的 evalWithTimeout , 他可以設定當某個指令或 function 跑多少秒以上就丟出 TimeoutExcep...
有時候一個Col中的每個Row可能含有多個值(如範例中alphabet欄位), 想把這些值切開產生新的Row作分析的話, 可以參考 此篇 , 其中使用 tidyr 中的 separate_rows() 相對較直覺, separate_rows() 中第一個參數為 d...
一般判斷句子中是否出現文字常用的是 grepl, 不過 grepl 是回傳 TRUE 或 FALSE, 而要計算文字在句中出現次數的話, 就要使用 stringr 套件中的 str_count , 其回傳值為出現次數(數值), 下面範例可以試試看, 會比較好理解。
最近在作些一般分析時, 發現當資料量大的時候, dplyr 跟 data.table 處理會差很多(個人處理到200萬筆資料時速度上就有明顯差異)。 此篇文章有 data.table 的介紹: 連結 , 詳細內容可以看上述文章, 下面舉三個例子(有的文章內沒有)...
最近發現比較有趣的功能, R也可以結合迴圈等語法修改以及壓縮大量檔案。 修改檔名是用 file.rename , 下面範例中 from 帶入的是原本的檔案名稱, to 則是修改後的名稱。 壓縮檔案是用 zip , zipfile 是帶入壓縮檔的名稱, files...
資料集的合併常用的大致為Inner Join、Full Join、Left Join、Right Join。 這些方式的差異主要為最後留下的key(依照哪個欄位來合併)是什麼。 下圖整理了大致上差異為何。 下面依照網路資源, 修正整理了四大類join方法, 分別...