在職缺需求方面,IEEE結果顯示則如下圖所示,Python在第3名,依然名列前茅。R則在第12名(IEEE程式語言排行不限於資料分析,Python可以做的方向有很多!)。
另一份資料則是在Linkedin社團中看到別人的分析,其分析「資料分析相關職缺」所使用的分析軟體,顯示Python為第3名,R則為第5名。
看完國際上的分析結果,接下來來分析看看國內的資料。這次分析的資料,為利用網路爬蟲抓取了378個人力銀行職缺資料,而後利用文字探勘取出相關能力(如下範例:「工作說明」與「附加條件」),並進行包含該能力的職缺數計算。
最後結果顯示,需要Python能力的職缺有113個,R則為88個。其他如Java、SQL、Hadoop、Spark、SPSS、SAS等等也有在前10名。
其他詳細數據如下表:
Terms
|
Freq
|
PYTHON
|
113
|
JAVA
|
104
|
SQL
|
103
|
R
|
88
|
SAS
|
70
|
HADOOP
|
59
|
LINUX
|
52
|
SPSS
|
50
|
C++
|
49
|
SPARK
|
40
|
C
|
39
|
EXCEL
|
35
|
NOSQL
|
32
|
MATLAB
|
25
|
HIVE
|
25
|
C#
|
25
|
SCALA
|
23
|
UNIX
|
20
|
JAVASCRIPT
|
19
|
SHELL
|
16
|
HBASE
|
16
|
MONGODB
|
15
|
TABLEAU
|
14
|
這次小數據來看,Python在台灣資料分析界看似還是更勝R。不過因為目前人力銀行還沒有明確對資料分析師做出分類,因此搜尋相關結果可能容易參雜其他非資料分析的職缺。另外職缺只有378筆,且台灣資料分析剛興起不久,有些公司需要什麼樣的人也正在摸索。可以說是個玩玩的小分析~僅供參考。
想請問事大概用什麼想法及方向能一次爬蟲資料分析類別的全部資料,剛入門RVEST,正在摸索中,只會爬一個頁面的資料~若版主有空閒時間想請板主指引一些方向 謝謝您 感激不盡
回覆刪除用迴圈來跑,
刪除例如"https://www.ptt.cc/bbs/marvel/index1657.html",
1657是頁數,
假設我想爬1650到1657頁,
就用 for(i in 1650:1657) 的迴圈去跑,
不過每次迴圈中最好加入休息時間(Sys.sleep),
讓迴圈暫停一下,
免得過於頻繁access別人的網站,
可能會暫時阻擋導致無法進去。
在此請教
回覆刪除1. 請問有做中文斷詞嗎? how?
2. 若此分析運用到各大類的職缺, 能否造福更廣大的求職者?
謝謝!
1. 可使用JiebaR作斷詞
刪除2. 之前有思考過是否用到其他類的職務,不過並非每種職務都有明確專業技能,所以就暫緩了。
mao大大您好:
回覆刪除我想請問網路爬蟲以蘋果新聞為例,他的class是rtddt,那我該如何觀察出其他網站的class呢?(例如中時新聞等等...)
謝謝您撥空回復!
可以參考這篇
刪除http://tech-marsw.logdown.com/blog/2016/01/10/crawler-tips-mining-chrome
主要是可以用"右鍵->檢查" 或是使用CHROME套件InfoLite