剛剛看到2012年R 與自行車(單車熱已退!?)這篇文章,透過R抓取討論區的文章,分析其發文年份,用來估算台灣的單車熱潮,因此也跟著練習了一下資料挖礦和正規表示法的使用。在程式還在跑的時候(503頁,每頁格1秒)想說來紀錄一下語法,也看一下2012~2016年單車熱是否有所變化。
這兩行語法要做修正
txt <- grep="" p="" txt="">20", txt)]->
由於Mobile01的網頁語法有所更動,要做以上的修改才抓的到資料,而503則是目前單車討論版的頁數,會隨時間增加。詳細的解釋請參考原網站。
barplot(table(txt[, 1]))
barplot(table(txt[, 2]))
chisq.test(table(txt[, 2]))
Chi-squared test for given probabilities
data:table(txt[, 2])
X-squared = 272.29, df = 11, p-value < 2.2e-16
barplot(table(txt[, 4]))
barplot(table(apply(txt[, 1:2], 1, function(x) paste(x[1], "-", x[2]))))
沒有留言:
張貼留言