如果你需要 高效、低成本、快速 地采集 Amazon 数据(商品、关键词搜索、评论、榜单、类目/利基指标),这个项目提供一个“可复制命令、可审计请求、可落盘输出”的开源 CLI:直接调用 Pangolinfo 的官方接口,输出 高度定制化、实时化、AI 友好的 JSON / Markdown,用于:
- Amazon 竞品监控、关键词排名追踪、评论分析、类目研究
- Agent(Tool Calling / MCP / OpenClaw)所需的实时结构化数据输入
- RAG / 数据管道(JSON 便于结构化,Markdown 便于切块检索)
你将解决:
- 反爬与 DOM 变更带来的高维护成本:用 API/Skill 获取稳定结构化输出
- 数据不够实时导致的误判:用实时数据驱动选品、竞品监控与 Agent 决策
- 数据不够“AI 友好”导致的不可用:优先 JSON/Markdown 作为 AI 输入格式
核心观点:Agent 是否靠谱,首先取决于输入是否靠谱;而“靠谱输入”通常意味着 实时、可验证、结构化。
官网| 控制台|获取 API Key| 文档| Scrape API| Amazon Niche Data API| AI SERP API| Amazon Scraper Skill| AI SERP Skill
免费试用:前往控制台注册并生成 API Key,新用户可获得免费测试积分,用于验证接口效果与数据准确性。
python3 main.py product --asin B0DYTF8L2W --site amz_us --zipcode 10041 --out product.json
python3 main.py keyword --q "coffee maker" --site amz_us --out keyword.json
python3 main.py reviews --asin B076CLQDR4 --site amz_us --page-count 1 --sort-by recent --out reviews.json- 开源 Pangolinfo 亚马逊爬虫 CLI
- 爬取亚马逊数据的挑战
- 解决方案:Pangolinfo 实时 Scrape API + Skill + Niche Data API
- Pangolinfo API 实践
- 认证(Bearer Token)
- Amazon Scrape API:通用参数
- Amazon Review API:通用参数
- General Scrape API:通用参数
- Amazon Niche Data API:通用参数
- 商品详情(amzProductDetail)
- 关键词搜索(amzKeyword)
- 评论(amzReviewV2)
- 按卖家抓取商品(amzProductOfSeller)
- 按类目抓取商品(amzProductOfCategory)
- 畅销榜(amzBestSellers)
- 新品榜(amzNewReleases)
- 类目树(Category Tree API)
- 类目搜索(Search Categories API)
- 类目路径(Batch Category Paths API)
- 类目过滤(Category Filter API)
- 利基过滤(Niche Filter API)
- Dry-run(不确定时用它,不猜)
- 给 AI Agent 的数据建议(JSON / Markdown)
- 🎉 立即开始
这个 CLI 的目标不是“模拟浏览器爬网页”,而是把 Pangolinfo 的实时数据能力封装成更适合开发者与 Agent 的交互方式:参数可控、输出可控、且完全对齐官方文档。
- Python 3.9 或更高版本
- 有 Pangolinfo 的长期 Token(或用 email+password 通过 Auth API 换取)
- 安装依赖
python3 -m pip install -r requirements.txt- 配置 Token(推荐:环境变量)
export PANGOLINFO_TOKEN="YOUR_TOKEN"- 查看命令帮助
python3 main.py --help这个仓库支持两类输出:
- JSON:适合 Agent 做结构化推理与可验证引用
- Markdown:适合 RAG 切块、检索、摘要与引用(来自 General Scrape API)
典型命令(更多见下方“Pangolinfo API 实践”):
python3 main.py product --asin B0DYTF8L2W --site amz_us --zipcode 10041 --out product.json
python3 main.py keyword --q "coffee maker" --site amz_us --out keyword.json
python3 main.py reviews --asin B076CLQDR4 --page-count 2 --out reviews.json
python3 main.py universal --url "https://www.amazon.com/dp/B0B41YH9B6" --format markdown --mode content --out page.md默认输出文件会写到当前目录(--out 可自定义)。
- JSON:完整保留 Pangolinfo 响应,便于审计与回放
- CSV:仅导出常用字段(不丢原始 JSON;你仍可输出 JSON 作为来源记录)
- Markdown:可直接喂给 Agent/RAG(
universal --mode content)
CSV 列(本仓库导出列基于官方字段名):
keyword --out-format csv:asin,title,price,star,rating,image,sales,rank,sponsored,spRank,badge,deliveryreviews --out-format csv:date,country,star,reviewLink,author,authorId,title,content,purchased,vineVoice,helpful,reviewIdproduct --out-format csv:asin,title,price,star,rating,badge,sales,brand,seller,shipper,inStock,category_id,category_name,parentAsin,image
“能打开网页”不等于“能稳定拿到数据”。真实业务里常见的难点包括:
- 反爬与挑战页面:CAPTCHA、行为检测、频繁的人机校验会让自建爬虫不稳定。
- 页面结构频繁变动:DOM 变动意味着解析逻辑需要持续维护。
- Agent 的数据要求更苛刻:Agent 不仅要“看见内容”,还要 可验证、可复用、可抽取的结构化结果。
- 实时性:排名、广告位、评论、类目指标都是强时效信号;过期数据会让 Agent 产生“看似合理、实际错误”的推理。
Pangolinfo 把“反爬 + 解析模板 + 实时输出”封装成 API/Skill,开发侧的重点回到:选择 parser、定义你要的字段、把结果喂给 Agent。
如果你已经在用 Agent(OpenClaw / MCP / Tool Calling),可以优先考虑直接安装官方 Skill:
Clawhub 一键安装(来自官方 Skills 页):
openclaw skills install pangolinfo-amazon-scraper这个仓库适合以下场景:
- 你需要“可审计”的 API 请求/响应落盘(debug、对账、回放)
- 你要把 Pangolinfo API 接入自有服务或自定义 Agent 工具层(而不是只装 Skill)
Niche Data 用于类目/利基维度的结构化指标,适合做选品与“市场情报”的 Agent 推理输入。
Clawhub 一键安装(来自官方 Skills 页):
openclaw skills install pangolinfo-amazon-niche本节按“参考项目”的细致程度,把每个接口/用例拆成:关键参数、命令示例、以及(必要时)cURL 示例。
Auth 文档:https://docs.pangolinfo.com/en-api-reference/authApi/authApi
请求:
- URL:
POST https://scrapeapi.pangolinfo.com/api/v1/auth - Body:
{"email":"...","password":"..."}
CLI(从环境变量读账号密码,输出 token):
export PANGOLINFO_EMAIL="you@example.com"
export PANGOLINFO_PASSWORD="your-password"
python3 main.py auth文档:https://docs.pangolinfo.com/en-api-reference/amazonApi/amazonScrapeAPI
请求:
- URL:
POST https://scrapeapi.pangolinfo.com/api/v1/scrape - Headers:
Authorization: Bearer <token>、Content-Type: application/json
接口说明:
Amazon Scrape API 可动态兼容 Amazon 等电商页面结构变化,通过解析模板(parserName)自动提取结构化字段(标题、价格、库存、评分、评论等)。你只需要提供 URL 或 site + content,即可获得适合程序与 AI Agent 使用的实时 JSON 输出。
关键参数(按官方文档描述):
| 参数 | 必填 | 类型 | 说明 |
|---|---|---|---|
| url | 是(或用 site+content) | string | 目标 URL;不传时需要 site 与 content |
| parserName | 是 | string | amzProductDetail / amzKeyword / amzProductOfCategory / amzProductOfSeller / amzBestSellers / amzNewReleases |
| site | 是(url 传了也可传) | string | 站点信息(示例:amz_us) |
| content | 是(或 url) | string | 随 parserName 而变:ASIN / keyword / category node id / seller id 等 |
| format | 是 | string | json |
| bizContext | 是 | object | 业务上下文(例如 zipcode) |
content 与 parserName 的对应关系:
| parserName | content 应填什么 |
|---|---|
| amzProductDetail | ASIN |
| amzKeyword | 关键词(keyword) |
| amzProductOfCategory | 类目 Node ID |
| amzProductOfSeller | 卖家/店铺 ID(Seller ID) |
| amzBestSellers | 热卖榜类目关键词 |
| amzNewReleases | 新品榜类目关键词 |
返回结构(核心路径):
code/message/data- 主要结果通常在:
data.json[0].data.results
点击展开:Amazon Scrape API 字段说明(按解析器)
| 字段 | 说明 |
|---|---|
| asin | ASIN 码 |
| title | 商品标题 |
| image | 主图链接 |
| price | 商品价格 |
| strikethroughPrice | 划线价格 |
| star | 商品评分 |
| rating | 评分数 |
| badge | 徽章 |
| acBadge | 是否 AC 标识 |
| sales | 商品销量 |
| images | 图片集 |
| seller | 卖家 |
| shipper | 发货方 |
| inStock | 库存 |
| merchant_id | 卖家 ID |
| color | 颜色 |
| size | 尺寸 |
| brand | 品牌 |
| has_cart | 是否有购物车 |
| followSeller | 跟卖信息 |
| features | 五点描述 |
| coupon | 优惠券 |
| ratingDistribution | 评分分布 |
| otherAsins | 关联 ASIN |
| deliveryTime | 发货时间 |
| category_id | 类目 ID |
| category_name | 类目名称 |
| pkg_dims | 包裹尺寸 |
| pkg_weight | 包裹重量 |
| product_dims | 商品尺寸 |
| product_weight | 商品重量 |
| first_date | 上市时间 |
| bestSellersRank | 热卖排名 |
| productDescription | 商品描述 |
| highResolutionImages | 高清图 |
| galleryThumbnails | 缩略图 |
| aiReviewsSummary | AI 总结 |
| reviews | 客户评论 |
| attributes | 商品属性 |
| productOverview | 产品概述 |
| variantDetails | 变体详情 |
| parentAsin | 父级 ASIN |
| 字段 | 说明 |
|---|---|
| asin | ASIN 码 |
| title | 商品标题 |
| price | 商品价格 |
| star | 商品评分 |
| rating | 评分数 |
| image | 图片链接 |
| sales | 商品销量 |
| rank | 自然排名 |
| sponsored | 是否 SP 广告 |
| spRank | SP 广告排名 |
| badge | 徽章 |
| delivery | 发货时间 |
| 字段 | 说明 |
|---|---|
| asin | ASIN 码 |
| title | 商品标题 |
| price | 商品价格 |
| star | 商品评分 |
| rating | 评分数 |
| image | 图片链接 |
| 字段 | 说明 |
|---|---|
| asin | ASIN 码 |
| title | 商品标题 |
| price | 商品价格 |
| star | 商品评分 |
| rating | 评分数 |
| image | 图片链接 |
| 字段 | 说明 |
|---|---|
| asin | ASIN 码 |
| rank | 榜单排名 |
| title | 商品标题 |
| price | 商品价格 |
| star | 商品评分 |
| rating | 评分数 |
| image | 图片链接 |
| 字段 | 说明 |
|---|---|
| asin | ASIN 码 |
| rank | 榜单排名 |
| title | 商品标题 |
| price | 商品价格 |
| star | 商品评分 |
| rating | 评分数 |
| image | 图片链接 |
文档:https://docs.pangolinfo.com/en-api-reference/amazonReviewAPI/submit
请求同样走 POST /api/v1/scrape,但参数结构不同:
| 参数 | 必填 | 类型 | 说明 |
|---|---|---|---|
| url | 是 | string | 默认 https://www.amazon.com(见官方示例) |
| site | 是 | string | amz_us / amz_de / amz_uk / amz_jp / amz_fr / amz_it / amz_es / amz_ca |
| format | 是 | string | json |
| formatType | 是 | string | all_formats / current_format |
| mediaType | 是 | string | all_contents / media_reviews_only |
| parserName | 是 | string | amzReviewV2 |
| bizContext | 是 | object | bizKey/pageCount/asin/filterByStar/sortBy |
文档:https://docs.pangolinfo.com/en-api-reference/universalApi/universalApi
- URL:
POST https://scrapeapi.pangolinfo.com/api/v1/scrape/batch - 参数:
urls[]、format (rawHtml|markdown)、可选timeout(毫秒)
本仓库实现的 Niche Data 端点全部来自官方 Playground:
- Category Tree API
- Search Categories API
- Batch Category Paths API
- Category Filter API
- Niche Filter API
CLI:
python3 main.py product --asin B0DYTF8L2W --site amz_us --zipcode 10041 --out product.jsoncURL(基于官方示例结构):
curl -X POST "https://scrapeapi.pangolinfo.com/api/v1/scrape" \
-H "Authorization: Bearer <token>" \
-H "Content-Type: application/json" \
-d '{
"url": "https://www.amazon.com/dp/B0DYTF8L2W",
"parserName": "amzProductDetail",
"site": "amz_us",
"content": "",
"format": "json",
"bizContext": {
"zipcode": "10041"
}
}'CLI:
python3 main.py keyword --q "coffee maker" --site amz_us --out keyword.jsonCLI:
python3 main.py reviews --asin B076CLQDR4 --site amz_us --page-count 1 --sort-by recent --out reviews.json
python3 main.py reviews --asin B076CLQDR4 --out reviews.csv --out-format csvcURL(来自官方 Playground 示例):
curl --request POST \
--url https://scrapeapi.pangolinfo.com/api/v1/scrape \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '{
"url": "https://www.amazon.com",
"site": "amz_us",
"format": "json",
"formatType": "all_formats",
"mediaType": "all_contents",
"parserName": "amzReviewV2",
"bizContext": {
"bizKey": "review",
"pageCount": 1,
"asin": "B076CLQDR4",
"filterByStar": "all_stars",
"sortBy": "recent"
}
}'说明:content 为 Seller ID(来自 Amazon Scrape API 文档的 parser 说明)。
CLI:
python3 main.py seller --seller-id "<seller_id>" --site amz_us --out seller.json
python3 main.py seller --seller-id "<seller_id>" --out seller.csv --out-format csvCLI:
python3 main.py category --node-id "<category_node_id>" --site amz_us --out category.jsonCLI:
python3 main.py best-sellers --keyword "<best_sellers_category_keyword>" --site amz_us --out best_sellers.jsonCLI:
python3 main.py new-releases --keyword "<new_releases_category_keyword>" --site amz_us --out new_releases.jsonCLI(对应官方 POST /api/v1/amzscope/categories/children):
python3 main.py niche category-children --parent-path 2619526011 --page 1 --size 10 --out children.jsonCLI(对应官方 POST /api/v1/amzscope/categories/search):
python3 main.py niche category-search --keyword headphones --page 1 --size 10 --out category_search.jsonCLI(对应官方 POST /api/v1/amzscope/categories/paths):
python3 main.py niche category-paths --category-id 2619526011 --category-id 172282 --out category_paths.json文档示例请求体包含:
| 参数 | 必填 | 说明 |
|---|---|---|
| marketplaceId | 是 | 当前文档可选项包含 US |
| timeRange | 是 | l7d/l30d/l90d/l12m |
| sampleScope | 是 | all_asin/new_successful/top_grossing |
| categoryId | 否 | 指定则返回该类目记录 |
| page/size | 是 | 分页;size 最大 10 |
| sortField/sortOrder | 否 | sortField 支持任意返回字段名 |
CLI:
python3 main.py niche category-filter --marketplace-id US --time-range l7d --sample-scope all_asin --category-id 979832011 --page 1 --size 10 --out category_filter.jsonCLI:
python3 main.py niche filter --marketplace-id US --niche-title "iphone 16 wallet case" --page 1 --size 10 --out niche_filter.json所有命令都支持 --dry-run:只打印请求 JSON,不发请求。
python3 main.py --dry-run keyword --q "coffee maker" --site amz_us
python3 main.py --dry-run niche category-filter --marketplace-id US --time-range l7d --sample-scope all_asin --category-id 979832011这部分是“如何用数据喂 Agent”的工程建议,不是接口字段规范:
- 优先用 JSON 做 Agent 的主输入(可验证字段、可控 schema、可做差异对比)
- Markdown 适合做 RAG(切块、检索、引用),建议只用
universal --mode content输出的干净文本,而不是 HTML - 做“高度定制化”时,建议先用
--dry-run固化请求体,再基于你要的字段做裁剪与标准化输出
不要犹豫,立即获取您的免费资源!
- ⭐ 给项目点个 Star
- 📱 添加微信:Pangolin-Scraper(备注:GitHub 免费测试)
- 💬 WhatsApp(备注:GitHub 免费测试)
微信:Pangolin-Scraper |
WhatsApp:GitHub 免费测试 |
- � 开始您的数据采集之旅
让数据采集变得简单,让开源精神传递! 🌟






