Skip to content

press (news) release scraper for specific company

Notifications You must be signed in to change notification settings

hisashi-ito/pr-scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

67 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

1. はじめに

本リポジトリは「特定の企業のプレスリリースおよび、ニュースリリース」情報をスクレイプにより抽出し、表示するCGIを管理するリポジトリとする。 本プログラムは、プレスリリース情報をWebから抽出するスクレイピングツールとそれをWebブラウザでプレスリリース情報を確認するCGIツールの2つに大別される。 以下に機能毎に説明する。

2. スクレイピング・ツール

スクレイピングツールは、主要IT企業のプレスリリースを企業毎に抽出し、tsv形式のファイルを出力する機能を提供する。

  • 利用方法

    $ cd bin
    $ ruby ./pr_scraper.rb -s softbank -o softbank_pr.tsv -f 20200401 -t 20200630
  • 引数一覧

    • s: サイト名を指定
    • o: 出力ファイル名
    • f: 取得対象の開始時間(YYYYMMDD)
    • t: 取得対象の終了期間(YYYYMMDD)

    今回は PR抽出 対応企業の企業名(括弧内の企業名)を入れることで抽出できる。

  • 出力形式

    # 日付<TAB>タイトル<TAB>URL<TAB>本文
    20020年4月7日    テレメタリングプランを除くPHS向け料金プランなどの提供終了の延期について https://www.softbank.jp/corp/news/press/sbkk/2020/20200417_01/  テレメタリングプランを除くPHS向け料金プランなどの提供終了の延期について2020年4月17日ソフトバンク株式会社株式会社ウィルコム沖縄ソフトバンク株式会社および株式会社ウィルコム沖縄は、2020年7月31日に予定していたテレメタリングプランを除く&ldquo;ワイモバイル&rdquo;のPHS向け料金プランなどの提供の終了を、2021年1月31日まで延期します。今回の延期は、新型コロナウイルスの感染拡大の影響により携帯電話への移行手続きが困難になっている事情などを受けて、全国の医療機関をはじめとするお客さまから延期のご要望を多くいただいている状況に鑑みて決定したものです。対象となるお客さまには、個別にご案内します。提供の終了を延期する主な料金プランなどの詳細は、こちらをご覧ください。なお、&ldquo;ワイモバイル&rdquo;のテレメタリングプランは、2023年3月末をもって提供を終了します。ソフトバンク株式会社および株式会社ウィルコム沖縄は、今後もお客さまやビジネスパートナーの皆さま、社員の安全と安心を最優先として、社会情勢に応じた対応を行っていきます。SoftBankおよびソフトバンクの名称、ロゴは、日本国およびその他の国におけるソフトバンクグループ株式会社の登録商標または商標です。その他、このプレスリリースに記載されている会社名および製品・サービス名は、各社の登録商標または商標です。
  • PR抽出 対応企業

3. Web Application

web application を作成するためには抽出したPressReleases情報からDBを作成する。DBはsqlite3を利用する。作成方法は以下のように作成する。 ここでは、事前にsqlite3が事前にインストールされていることを想定とする。Macでは事前にインストールされている。

DBの構築

  • tableの作成
    $ sqlite3 ./pr_table.sqlite3 < ./pr_table.sql
  • データの登録
    $ cd cgi/db
    # DBを作成する
    $ ./mk_table.sh
    # Dataを登録する
    $ sqlite3 ./pr_table.sqlite3
    sqlite> .separator "\t"
    sqlite> .import pr.tsv pr_table

Web Applicationの起動

web application の構築にはsinatra を利用している。application の起動は

$ cd cgi
$ ruby ./pr_viewer.rb
[2020-08-10 20:14:39] INFO  WEBrick 1.4.2
[2020-08-10 20:14:39] INFO  ruby 2.6.3 (2019-04-16) [universal.x86_64-darwin19]
== Sinatra (v2.0.8.1) has taken the stage on 4567 for development with backup from WEBrick
[2020-08-10 20:14:39] INFO  WEBrick::HTTPServer#start: pid=46630 port=4567

デフォルトではlocalhost:4567/prでアプリケーションへアクセスできる。