所在分类:  Amazon 所属圈子: Amazon Review Amazon

抓取review很简单,但是表格怎么分析,有人能提出建议吗?

发帖39次 被置顶2次 被推荐1次 质量分1星 回帖互动1317次 历史交流热度1.76% 历史交流深度0%
如题所示,昨天研究了一下爬虫/插件,终于搞定了一个 ,能够很快地将目标ASIN的所有review给抓取下来。现在就是分析这个表格没有谱,谁能提出一些建议?
可以用排序把差评单独弄出来,也可以把评论里话放到字频分析的网站看哪些单词出现的频率高,从中获得一些关键词,我目前想到的还只有这些。
已邀请:

拉风老年 - 人外有人,天外有天

赞同来自: 小小少年强

一般爬虫工程师将所需数据爬取下来后,有专门的数据分析包(numpy/pandas),将清洗后的数据进行统计分析(绘制成图表)。爬虫爬取数据大概流程及所需技术如下:
分析url - 发送请求 - 爬取数据 - 清洗数据 - 存储数据 - 数据分析
1、发送请求:浏览器+抓包工具
2、爬取数据:requests、urllib
3、清洗数据:lxml(个人喜爱),还有美丽汤(beautifulsoup)模块
3、存储数据:mysql、excel
4、数据分析:numpy、pandas
 
爬虫是个很复杂的东西、里面涉及的知识点很多。如果你想知道更多关于爬虫方面的知识,可以加我好友!
最后声明:自己并不是什么大神,目前只会爬些简单数据!

要回复问题请先登录注册

x 点击咨询