如何用爬虫软件(如牛蚁写作)完整地爬取亚马逊商品评论的数据?

来源:未知

点击:

  说起亚马逊采集,我算实战经验非常丰富的老司机了,总体来说,想要完整、大量、精准的、稳定的采集亚马逊数据,其实并不容易,当然,这取决于你选择什么方式,工欲善其事必先利其器,好在我们有“大(八)杀(爪)器(鱼)”。

  国内很多在亚马逊做外贸的企业对此类数据都很感兴趣,可以用来做市场研究、爆款分析、产品评论分析、竞品分析等等。

  亚马逊数据按照区域划分:1. 中文站()

  2. 国际站()

  不管是中文站还是英文站,核心的高价值数据主要有三类:1. 店铺数据

  2. 商品数据

  3. 评论数据

  先来看几张采集效果图,看看牛蚁写作能做到什么程度,其实这是废话,好吧,其实就是牛蚁写作全部都能采集。

  1. 采集亚马逊海外图书商品信息(样本数据截图)

  2. 采集亚马逊法国服装产品数据(样本数据截图)

  3. 楼主关心的亚马逊评论数据我多来几个不同的哈(样本截图)

  为什么来几个不同的呢,其,实每个人关心的数据不一样,或者说每个人采集下来的数据都想按照自己想要的格式和字段保存,在牛蚁写作中,不仅字段和表格格式用户可以自定义,其他的也都可以,比如采集范围:按照关键词搜索采集,按照商品列表采集,按照店铺采集等;采集频率:可以立即采集、或者定时每小时、每天、每周、甚至实时采集(间隔几分钟持续采集);采集去重:可以只采集新数据、或者采集变化的数据;导出格式:导出Excel2003、2007、各种数据库、CSV、TXT、HTML、还有自动定时导出工具、API导出接口,哦,不好意思,有点扯远了。还是继续说亚马逊采集。

  看了图,效果还不错,我们再来看看怎么做,最简单的方式呢,就是使用别人做好的采集规则,忘了说什么是采集规则了,你可以理解成“采集模板”,或者别人设置好的采集亚马逊数据的一个东西、有了它,你也就能采集同样的数据了,就跟别人给你一个ppt模板,你把标题和文字换掉就能改成自己的东西,里面的动画效果和配图,背景都可以套用别人的一样,拿到别人给你的采集规则呢,你改一下采集的商品URL(就是从浏览器地址栏复制出来的链接,如果你懂就当我废话,不懂问度娘),就可以采集你自己想采集的商品的数据了,当然任何地方都可以改,比如采集的字段等等。

  先别着急下载,看完这几句下载必读:

  1. 因亚马逊网站可能会发生变化,下载的规则以后可能过时采集不到数据,如果你发现这几个规则过时了可以给我留言或者私信,我可以给你分享新的规则。

  2. 知乎不支持传文件,我只能百度网站了。

  3. 最重要,采集规则文件格式为.otd文件,这是牛蚁写作专用的规则文件格式,下载后,还需下载安装牛蚁写作,然后就能打开.otd文件,或者导入到牛蚁写作中。

  下载链接终于来了(我放了5个,后续再发几个,今天有点晚了):运行这些规则文件的牛蚁写作下载地址地址:牛蚁写作 - 最好用的网页免费文章采集器,没这个打不开上面的文件的哦。

  看到这里的人我相信不仅仅想下载别人设定的规则,肯定想要自己做,希望我前面说的亚马逊不好采集的事情没有打击到你,其实真的稍微花点时间学习确实很容易,但是想要1分钟就能搞定的只能下载别人的规则。要想很容易就学会,最重要的是要掌握工具的工作原理,牛蚁写作可以理解成一个能模拟人上网行为的机器人,也就是你上网看数据的时候所做的所有操作,牛蚁写作都可以自动的做,也就是它能代替你上网看数据,同时它看数据的时候跟你不一样的是,你看了就看了,除非拿个本子把数据记下来,或者拿个excel把数据复制保存在表格,它会自动的把数据提取出来。并且按照你想要的格式保存起来,理解了这个就容易了,我们无非是要告诉牛蚁写作,或者设置它按照我看数据的方式去采集数据。掌握这条秘籍,你就能通关了,从明天开始整个互联网的数据都可以搬到你家数据库中了。

  这个过程很简单。以我们采集某商品评论数据为例:

  这个图是亚马逊中国的一个书籍的商品评论,绿色部分是一条评论,红色部分是个翻页按钮,我们要做的就是设置牛蚁写作先对第一页的每个评论都采集同样的几个字段如作者、星级、评论内容等,然后再点下一页,然后重复上面的动作直到最后一页。

  我按照这个思路做了一个采集规则,给大家看看:

  全部鼠标点击操作,2分钟就做完了,红色框的流程图就是按照我上面说的思路做的,绿色框展示了采集的字段,系统会自动用红色细线和背景色标出来采集的字段。下面是评论页面。

  然后点击上面的保存并启动按钮,49秒内,你就会看到数据唰唰唰的采集下来了,每次我都很喜欢看着数据唰唰唰,

  这个采集规则我也分享给大家吧,现做的还热乎哈哈:从开始打开亚马逊复制这个商品的链接到采集完成数据绝对5分钟之内。我不是大神,你也可以的。除非你想学习编程、否则我不建议搞什么网页源代码分析,js脚本分析、网络抓包分析、正则表达式截取、都太low了。这下知道工欲善其事必先利其器不是骗人的吧,老祖宗教导我们要听的哈。

  先这样吧,有啥问题大家留言,我后续再完善答案吧。

  看了有用记得点个赞哦,长的帅的漂亮的都点了

下一篇:没有了