2016年8月9日

R data mining 練習 - Mobile01 的單車討論版

剛剛看到2012年R 與自行車(單車熱已退!?)這篇文章,透過R抓取討論區的文章,分析其發文年份,用來估算台灣的單車熱潮,因此也跟著練習了一下資料挖礦和正規表示法的使用。在程式還在跑的時候(503頁,每頁格1秒)想說來紀錄一下語法,也看一下2012~2016年單車熱是否有所變化。



這兩行語法要做修正

txt <- grep="" p="" txt="">20", txt)]

由於Mobile01的網頁語法有所更動,要做以上的修改才抓的到資料,而503則是目前單車討論版的頁數,會隨時間增加。詳細的解釋請參考原網站。

barplot(table(txt[, 1]))


 barplot(table(txt[, 2]))
chisq.test(table(txt[, 2]))
Chi-squared test for given probabilities data:table(txt[, 2])
 X-squared = 272.29, df = 11, p-value < 2.2e-16

 barplot(table(txt[, 4]))

 barplot(table(apply(txt[, 1:2], 1, function(x) paste(x[1], "-", x[2]))))

沒有留言:

張貼留言