プリズムストーンリスト (http://www.prettyrhythm.jp/list/index.php) のストーンの情報を、インターネットアーカイブからスクレイピングするコード。プリズムストーンリストのページが壊れてしまっているので(2018/01/09現在)、正しく検索できるページを作るための準備として作りました。
2020年12月13日に確認したら、ウェブサイトのプリズムストーンリストのページが消されてしまっているみたいでした。画像のURLにもアクセスできなくなってしまったので、Google Cloud StorageのURLを使用したリストを作成しました。
- 閲覧用: prismstone_with_brand_gcs.md
- GitHub Pages hosted JSON: https://sakuramochi0.github.io/prettyrhythm-prismstone-scrapy/prismstone_with_brand_gcs.json
- You can also use the image mirror storage created for the archive: https://storage.googleapis.com/prettyrhythm-prismstone-album/
ただし、プリズムストーンのデータ *.json
と *.md
を除く。
- Python3 をインストールする。
$ pip install -r requirements.txt
$ scrapy runspider main.py -o prismstone.json
$ scrapy runspider brand.py -o brand.json
- Node.js をインストールする。
$ npm install
$ npm run convert
- 同じアイテムを重複して取得してしまう問題があります。リポジトリにあるデータは、重複を手動で取り除いたものになっています。