所在分类:  ChatGPT 所属圈子: ChatGPT Amazon

如何用ChatGPT 和Python Web抓取亚马逊产品数据做竞品分析

发帖10次 被置顶3次 被推荐2次 质量分0星 回帖互动43次 历史交流热度6.67% 历史交流深度0%
  我们在做跨境电商的时候 有一个非常重要的工作就是做竞品分析,必须要抓取大量的产品数据。但是目前亚马逊网站上他是禁止爬虫去抓取数据的,所以今天我教大家利用chatgpt和Python Web做竞品分析

https://assert.wearesellers.com/questions/20230327/1451d53af77adc59c6c64bbdabba10ce.png https://assert.wearesellers.com/questions/20230327/779d511f5cf8d0a45512b8cc83ab6590.png
 
先到亚马逊网站找到我们要分析产品的类目,我们需要获取的数据是图片,品名,评价,价格。以厨房用品为例

https://assert.wearesellers.com/questions/20230327/e08f21280caf5d8ce8a84a9b4644cdcd.png https://assert.wearesellers.com/questions/20230327/92ff35ddab7506da60b8f19adcb4a258.png
 
总共有120个结果。就是这个细分产品下面有120个产品.
右键点击这个产品页,检查

https://assert.wearesellers.com/questions/20230327/89a28c276f7ab4d47519c2a360e37af1.png https://assert.wearesellers.com/questions/20230327/9975ba3e019c2aa2cede1af9c374c560.png
 
当我们鼠标放到这个Div上面的话,左边这里有一块是变灰了,右边手指的这块Div,对应的就是这个变灰的产品

https://assert.wearesellers.com/questions/20230327/2602223f5ed5c224ee45ecf64f771b61.png
 
如果另外换一个Div的话是这个产品

https://assert.wearesellers.com/questions/20230327/fe45939745c53e04e34f474aedf17b5b.png
 
在不同的div里面这里的class name都是一样的。我们把这个拷贝下来。

https://assert.wearesellers.com/questions/20230327/54de8874f26c599886447b654a685fb1.png
https://assert.wearesellers.com/questions/20230327/2e0ea2231e07169f181ca455842e3a5a.png
 
在前面加上div

https://assert.wearesellers.com/questions/20230327/923941e6a8f9a42d34d87d4844173e34.png
 
接下来继续回到产品页。把鼠标放在图片上面,右键点击。还是选择检查。把这个class的名字也拷贝下来

https://assert.wearesellers.com/questions/20230327/37ca573d1752c3c38471a7c42fba59c5.png
https://assert.wearesellers.com/questions/20230327/9d7e565b461bb4a418f8df2a953a89cb.png
 
前面加上image。把鼠标放在这个标题上面

https://assert.wearesellers.com/questions/20230327/294f7c0e467cfdce4ce3a86519e0408d.png
 
右键点击,再检查把这个span的这个class也拷贝下来。前面加span。继续鼠标放到评价上面,右键点击,把这里span class这里也拷贝下来

最后右边点击价格,也是把这个span class记录下来。

https://assert.wearesellers.com/questions/20230327/3ab8f6d1b0b4f5eaa40fdf1c02ef6e6b.png
 
这五个做完以后,我们CTRL键+s键把我们这个网页保存下来。

https://assert.wearesellers.com/questions/20230327/4b729ca8a1d5c7f4c865a38cb7c65c77.png
 
根据刚才找到的五个元素。我们给chat gpt发出指令让他做三件事。
第一个使用PYTHON给我们编写代码,

https://assert.wearesellers.com/questions/20230327/65b165edcda5722a73b2d2f2a508521b.png
 
第二个读取我们刚才保存下来的亚马逊的产品页。
第三个在这个页面里面一一对应这5个元素,最后把这些匹配的数据保存到一个json文件

https://assert.wearesellers.com/questions/20230327/6e1edb119d57c80d208ed5eb63972dbd.png
 
运行一下
现在运行一下然后看到左边多了一个json的文件
 
https://assert.wearesellers.com/questions/20230327/88739b91636a8b89d0b5ca2414d2b9b3.png
https://assert.wearesellers.com/questions/20230327/a6ee3b05142566e4bfab94047ab20f63.png
 
我们打开看一下。这里数据已经有了。这个是评级和价格。

https://assert.wearesellers.com/questions/20230327/583cfbce2a402e2429b077b51a3b0b0d.png
 
这个代码是可以复用的,转到第二页

https://assert.wearesellers.com/questions/20230327/a861c905b79a8eaef1d9bccac88634b0.png

同样我们把第二页保存下来

https://assert.wearesellers.com/questions/20230327/419600961c575dd18a672a7dcd2c69d9.png
 
然后在这里把我们这个文件换一下,这个是2

https://assert.wearesellers.com/questions/20230327/82644d6361389d24a458b5bf4cb58adf.png
 
这里输出的文件我把名字改成data2.新输出了一份文件

https://assert.wearesellers.com/questions/20230327/57979318ae07170201e136f04c5562aa.png
 
最后让chatgpt帮我们把两个json文件合并成一个csv文件

https://assert.wearesellers.com/questions/20230327/5874339ccdf319e7f5c53284b379ca09.png
 
合并成功格式是csv

https://assert.wearesellers.com/questions/20230327/f021074bb407de27f6a1db0e6b8e9a31.png
 
这边如果有不懂的,欢迎大家交流。
已邀请:


  我们在做跨境电商的时候 有一个非常重要的工作就是做竞品分析,必须要抓取大量的产品数据。但是目前亚马逊网站上他是禁止爬虫去抓取数据的,所以今天我教大家利用chatgpt和Python Web做竞品分析


 
但凡有点前置知识也不至于说出这种鬼话,这篇文章的前提就错了,亚马逊压根不禁止你爬商品页面,只是禁止高频率请求而已,不然你以为谷歌怎么搜得出商品页面
亚马逊自己写的robot.txt:
https://www.amazon.com/robots.txt
 
像亚马逊这种,简简单单request,加个等待时间就能自动批量下网页内容了,十年前知乎怎么爬亚马逊的,现在你也能爬

要回复问题请先登录注册

x 点击咨询