本文档旨在爬取美国亚马逊官网的用户评论,以做用户体验数据分析,但近期因美国官网已被墙故而需要翻墙才能访问,请知悉。
1.代码及文件配置说明:
- Amazon.py:网页爬取和页面缓存(download)
- Amazon_review.py:页面解析和数据输出(analysis)
- Id.xlsx:储存亚马逊产品的唯一编号ASIN码,实现自动输入
- newUA.txt:储存cookie和IP池,实现随机变换IP反爬虫
输出文件csv说明:
| 字段 | 说明 |
|---|---|
| Product_ASIN | 产品编码 |
| review_date | 评论日期(美) |
| date_format | 评论标准日期 |
| total_review | 总评论数 |
| average_star | 平均星评 |
| Title | 评论标题 |
| review_content | 评论文本 |
| Star | 星评 |
| star_class | 星评分类 |
| reply_num | 评论回复数 |
| agree_num | 评论点赞数 |
| User | 评论者 |
| VP | 认证购买 |
| link_id | 评论链接 |
| record_date | 采集日期 |