Skip to the content.
フリーランス(2023/04〜)職歴詳細
商品情報スクレイピング (2023/04-2023/05)
概要
- 2 つの商品サイトからそれぞれ 10 万件の商品情報をスクレイピング
- 収集した情報を記載した Excel シートを成果物として納品
採用技術
- Python
- Scrapy
- SQLAlchemy
- alembic
- flake8
- mypy
- line-bot-sdk
- MySQL
課題
- 商品数が多くスクレイピングに時間がかかる
- 負荷をかけないよう設定していたため、1 つの商品サイトにつき 1 日で 1 万件程度のスクレイピングだった
- 2 サイトを並列でスクレイピングすることで、2 週間程度でスクレイピングを完了した
- クライアントへも負荷をかけないよう時間をかけて進めていることを伝え、調整しながら作業を進めた
取り組んだ内容
- 要件定義
- 工数、費用見積もり
- 2 つの商品サイトからそれぞれ 10 万件の商品情報をスクレイピング
- Scrapy を使い、スクレイピングプログラムを実装
- SQLAlchemy を使い、取得した商品情報を MySQL に永続化
- line-bot-sdk でスクレイピング状況の通知用 LINE Bot を実装
- MySQL からデータをダンプし、Excel シートを整形、成果物として納品