在使用網路爬蟲時,有些時候網頁的url並不一定具有規則(例如PTT),那我們可以先從其列表中抓取個網站的url(PTT的每一頁列表的url具有規則),再利用這些爬到的url去做網路爬蟲。
例如我要爬marvel版第1657頁的所有文章,我就需要讀取.title底下的a tag的 href屬性,跟上一篇的架構上差不多,差別在要使用 html_attr('href')來取得連結,取得連結後再用這些連結去做爬文章內容即可。如果你要爬marvel版的多個頁面的文章,就用for迴圈處理即可。
下方有範例程式碼。
When crawling web pages, urls do not always have rules, so we can use html_attr('href') to get a web page's url from its main page, and use the urls we get to crawl its content. The related codes are as follows:
(另一篇寫在Github範例(其中有 Code Example): Simple way to scrape website by rvest)
Related article: [R] 使用rvest進行網路爬蟲
Popular Posts
Blog Archive
Categories
R
(28)
data.table
(4)
Python
(3)
Rstudio
(3)
dplyr
(3)
rvest
(3)
網路爬蟲
(3)
Error
(2)
Web Crawler
(2)
grepl
(2)
jupyter
(2)
plyr
(2)
ubuntu
(2)
教學
(2)
.Last.value
(1)
Big Data
(1)
Console
(1)
IEEE程式語言排行
(1)
PuTTY
(1)
Rprofile.site
(1)
Rselenium
(1)
XLConnect
(1)
assign
(1)
bar chart
(1)
cat
(1)
conflict
(1)
coord_flip
(1)
data.frame
(1)
dcast
(1)
download.file
(1)
evalWithTimeout
(1)
excel_sheets
(1)
factor
(1)
file.rename
(1)
fread
(1)
ggplot2
(1)
global variable
(1)
group_by
(1)
gsub
(1)
invalid multibyte character
(1)
jiebaR
(1)
join
(1)
jupyter_contrib_nbextensions
(1)
jupyterthemes
(1)
loading
(1)
melt
(1)
merge
(1)
mutate
(1)
numeric
(1)
print
(1)
rbind
(1)
read.csv
(1)
read_csv
(1)
read_excel
(1)
readr
(1)
readxl
(1)
scientific notation
(1)
scipen
(1)
separate_rows
(1)
setDF
(1)
setDT
(1)
sqldf
(1)
static IP address
(1)
str_count
(1)
stringr
(1)
table
(1)
tidyr
(1)
timeout
(1)
trim
(1)
txtProgressBar
(1)
unique
(1)
zip
(1)
人力銀行
(1)
參考資源
(1)
技能
(1)
文字探勘
(1)
橫條圖
(1)
玩玩小數據
(1)
結巴分詞
(1)
能力
(1)
資料分析
(1)
資料分析師
(1)
長條圖
(1)
受益良多
回覆刪除