機械学習を行う際に利用可能なデータセットについてまとめています。
- MNIST
- 言わずと知れた手書き文字のデータ
- CIFAR-10
- 言わずと知れた10クラス(airplane, automobileなど)にラベル付された画像集。CIFAR-100というより詳細なラベル付けがされたものもある
- The Oxford-IIIT Pet Dataset
- CIFAR-10と同様、ラベル付きのデータ。その名の通り動物系
- Fashion-MNIST
- ファッション画像のMNIST、を表したデータセット。クラス数はMNISTと同様10クラスで、画像は28x28(グレースケール)、学習:評価データ数は60,000:10,000。
- MNISTは簡単すぎる、濫用されているといった問題を克服するという側面も意識されている。
- rois-codh/kmnist
- 日本語の崩し文字のMNIST(Kuzushiji-MNIST)。
- ひらがな全てを含むKuzushiji-49、漢字のデータセットであるKuzushiji-Kanjiも併せて公開されている。
- 論文中では、単純に認識だけでなくVAEを使った現代字への復元といった使い方も紹介されている。
- Open Images dataset
- Googleが公開した900万、ImageNetをこえる6000カテゴリのアノテーション済みデータ。こちらから利用可能。中身はURL+ラベルになっているので、怖がらずにcloneして大丈夫。
- リリース後に更新が行われており、2017/11/16にリリースされたV3では370万のバウンディングボックス、970万のラベル付き画像のデータセット(training data)に拡大している。
- 2017/7/20にbounding boxのデータが追加された。総計約200万で、学習データ中の120万は半自動で付与(人が確認済み)、validationデータ中の80万は人がアノテーションを行なっている。クラス数は600で一部にはラベルもついている。
- 2018/4/30にv4がリリースし、公式ページも一新された。バウンディングボックスが1540万/600クラス、総計1900万画像に拡大。
- iNaturalist
- CVPR2018のワークショップFGVC5の開催に伴い公開されたデータセット。元データは、iNaturalistという観察した生き物の写真を撮って記録するアプリから提供されている。
- 現実に近い状況での画像分類を行うことを目的としており、様々な状況での撮影、似たような種別、カテゴリ間のデータ数の偏りなどが特徴。
- ラベル数は8,000、総画像数は45万。
- HDR+ Burst Photography Dataset
- HDR+の写真のデータセット。写真の品質を上げるためのフレーム単位の画像(bursts)とそのマージ結果、最終的な処理結果の3つの種類の画像が包含される。
- これらの写真は実際のAndroidの機種に搭載されているカメラで撮影したもので、現実に近いデータになっている。
- データセット全体では3,640 bursts(28,461画像)で765GBもあるので、最初はサブセット(153 bursts, それでも37GBあるが)で試すことが推奨されている。
- Google-Landmarks: A New Dataset and Challenge for Landmark Recognition
- 世界各国のランドマークのデータセット。ランドマーク数は3万、写真総数は200万という規模。
- 画像の局所特徴量を抽出するDELFも併せて公開されている。
- 2019/5/3にv2が公開された。データ数が500万へと拡張された。
- Food-101
- 食品の画像データセット。カテゴリ数は101、画像数は101,000と小粋に数字がそろっている。
- 各食品は250のテストデータと750の学習用データを持っており、双方人が確認している。画像サイズは全て512pxにリスケールされている
- Columbia University Image Library (COIL-20)
- 物体を一軸回転させて撮影したデータセット。
- 20種類の物体を5度刻みで時計回りに回転。画像サイズは128x128。
- Vehicle Make and Model Recognition Dataset (VMMRdb)
- 1950年から2016年までに製造・発売された自動車の画像が、メーカ・モデル・年式の3階層で分類されている。画像数は291,752、クラス数9,170。
- 様々なユーザーが撮影した画像のため、画像サイズや撮影条件にバラツキがある。
- 3036クラスを使った学習済ResNet-50も公開されている。
- TASKONOMY Disentangling Task Transfer Learning
- 全26の画像関連タスクについて、相互の転移しやすさを調べた研究で使用されたデータセット。
- この検証には当然1画像について全タスク分のアノテーションが必要だが、それが行われている。屋内の画像で、約400万画像が提供されている。
- The Art Institute of Chicago THE COLLECTION
- シカゴ美術館のコレクションをダウンロードできるサイト。52,000枚の歴史的なアート作品をダウンロードできる。
- Tencent ML-Images
- Tencentが大規模な画像データセットを公開。画像数は1700万、カテゴリ数は11000ほど。
- ImageNetとOpen Imagesの画像から構成され、カテゴリはWordNetをベースに階層構造が付与されている。
- Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples
- Meta-Dataset: メタラーニングの性能を測るために、様々なデータセットを組み合わせたデータセット。
- ImageNet/Omniglotなど計10種のデータセットがミックスされている。
- Large-scale Fashion (DeepFashion) Database
- ファッションの画像を集めたデータセット。画像数は80万、カテゴリ数は50で、これに加え1000の属性(同じ服でも、素材が皮かツイードかなど)が付与されている。
- これに加え、衣服のキーポイントをかなり細かくアノテーションしたDeepFashion2がリリースされている。
- YouTube-8M
- Googleが公開した800万にも上る動画のデータセット。コンピューター資源が少ない環境でも活用できるように、動画フレームからInception-V3で特徴抽出済みのデータも公開。これがあればTensorFlow(GPU(single))で1日で学習できるらしい。
- YouTube-BoundingBoxes
- 物体認識/トラッキングのための大規模なデータセット。YouTubeの動画データを基にしており、時間的に連続した画像に対し物体領域(とクラス)のアノテーションがされている
- Moments in Time Dataset
- 3秒間の動画に、何をしているのかがアノテートされたデータセット(文字を書いている、ダイビングをしている、など)。
- データ数は100万、ラベル数は339で複数付けられる場合もある(歩きながら話している場合、walking+speakingなど)。1ラベルは必ず1000の動画を持つようにしてあり、平均は1757。
- Kinetics
- 人の動作を検出するためのデータセット。400種類の人間の動作に該当する動画(YouTubeから取得したもの)が、各クラス最低400動画含まれるように構成されている。総件数は30万。
- Atomic Visual Actions (AVA)
- Googleが公開した人の動作を認識するためのデータセット。YouTubeからの抜粋で作成されており、長さは3秒にそろえられている。
- 動作ラベルは80、57000の動画に21万件のラベルが付与されている(人単位の付与で人物数は約9万)
- AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
- STAIR Actions
- 100種類の人の日常動作を収録したデータセット。各カテゴリは、900
1200の動画を持ち、長さは56秒ほど。 - 動画はYouTubeから取得されている。
- 100種類の人の日常動作を収録したデータセット。各カテゴリは、900
- 20BN-JESTER/ 20BN-SOMETHING-SOMETHING
- 20BN-JESTERはハンドジェスチャーの、20BN-SOMETHINGは日常のデバイス操作(コンセント入れたり冷蔵庫のドア閉めたりなど)のデータセットが公開。それぞれ15万、10万と計25万件というボリューム。
- Moments in Time Dataset
- 3秒の動画に、その動画で何をしているのか(action)のラベルを付与したデータセット。データ数は、100万ほど
- 人間だけでなく、動物や自然の動きについてもアノテーションされている
- TRECVID datasets
- TRECの動画を対象とした情報検索(Video Retrieval)の評価用データセット。
- 動画中のショット単位(Shot Boundary Detection)、シーン単位(Semantic Indexing)の認識や物体追跡(Instance Search)のためのデータセットが公開されている。
- UCF101
- 人の動作を検出するためのデータセット。101のクラスを持ち、13,320クリップ、27時間分のデータがある。
- YouTube のデータを元にしている
- Playing for Benchmarks
- Intel Vision Labが公開している高画質のゲーム動画に対してCVの各種手法のベンチマークを測定できるデータセット
- 総数25万枚、全フレームに対してGTがアノテーションされており、 semantic segmentation、semantic instance segmentation、3D scene layout、visual odometry、optical flowのベンチマークが測定可能
- SALSA Dataset
- ACMMM15で公開された人物間の会話を解析するためのデータセット。18人のスタンディングディスカッションの動画、近接センサー,etc.のマルチモーダルなデータが提供されている。
- BDD100K: A Large-scale Diverse Driving Video Database
- 運転中の画像を収録したデータセット。名前の通り10万の動画から構成される。
- 各動画は40秒程度・アメリカの各地で撮影されており、様々な天候や時間帯なども加味されている。
- 動画中のキーフレームにはセグメンテーション/バウンディングボックスなどのアノテーションが施されており、総画像数は1億を超える。
- SceneNet RGB-D
- 物理シミュレーターでシーン(部屋の中にものが散らばった環境)を作り、そこでカメラの軌跡を設定し映像を作製、その映像のRGB+Depthをデータ化、という感じで生成
- SceneNet RGB-D: 5M Photorealistic Images of Synthetic Indoor Trajectories with Ground Truth
- ADE20K
- 物体認識のためのデータセット。MITのScene Parsing Challengeで使用されている。20,000のセグメンテーション、またさらにその中のパーツといった細かいデータも提供されている。
- Semantic Understanding of Scenes through the ADE20K Dataset
- Places365
- KITTI
- 自動運転車のためのデータセット。ドイツの中規模都市であるカールスルーエ周辺~高速道路での運転から得られた画像が提供されている。画像は、最大15台の車と30人の歩行者が映っている。
- 同様のデータセットに、ISPRS、MOT、Cityscapes等がある。自動運転は画像認識の複合的なタスクなので、画像でデータがないと思ったら一度目を通してみるといいかもしれない。
- Apollo Scape
- Baiduが公開した自動運転車用のデータセット。なお、Baiduは自動運転車用プラットフォームであるApolloも公開している。
- RGBの映像とそれに対するセグメンテーション、また3Dのレベルでも映像・セグメンテーションが提供されている。
- 画像数は20万でセグメンテーションクラス数は車や自転車、人など25種類。
- Mapillary Vistas Dataset
- 自動運転のための、路上画像のデータセット。25,000のアノテーション済みの高解像度データを提供。現在も増え続けており、しかも世界各国の画像が含まれている(日本の道路の画像もある)。
- 2018/7/30に、道路標識などについてより細かく定義した30クラスが追加された(ただ「標識」ではなくスピード制限なのか方向指示なのかなど)。また、アノテーションの精緻化も行われている。
- SUN database
- 物体認識・シーン認識のタスクにおいてベースラインとなるようなデータセットを提供している。
- SUN397: 397のシーンでタグ付けされたデータセット
- SUN2012: (おそらく2012の)タグ付けがされたデータセット
- PASCAL-Context Dataset
- 物体検出のデータセットであるPASCAL VOC 2010にセグメンテーションのアノテーションを行ったもの。
- 400以上のオブジェクトが対象で、学習用に10,103、テスト用に9637枚の画像が用意されている。
- DAVIS: Densely Annotated VIdeo Segmentation
- 動画中の物体検知を行うためのデータセット。ビデオシーケンス中の各フレームについて、ピクセル単位のオブジェクトマスクがアノテートされている。
- DAVIS 2016, 2017と規模を増やしており、DAVIS 2017では学習/検証/テストデータセットでそれぞれ60, 30, 30のシーケンス(シーケンス中のフレーム数は平均69.8、物体数の平均は2.56)が用意されている。
- Youtube-Objects dataset
- 10のオブジェクトクラスの名前でYouTubeの動画を検索し、それに対しオブジェクトのバウンディングボックス、また動作領域(Tubes)をアノテートしたデータセット。
- 1オブジェクト当たりの動画数は9
24本で、動画の時間は30秒3分とばらつきがある。
- Team MC^2 : ARC RGB-D Dataset 2017
- 棚の中におさめられたオブジェクトをロボットに認識、ピッキングさせるAmazon Robotics Challengeのために作られたデータセット。
- 画像はRGB画像と深度画像の2種類。これに加え、3Dモデルも提供されている
- アノテーションとして、アイテムごとに色付けしたセグメンテーション画像と、アイテムの四隅の位置(バウンディングボックス)を記録したテキストファイルが提供されている
- 学習用データは全400シーンx各2回撮影した800枚+アイテム一つのみ棚に入れた画像(アイテム数40x各10回撮影で400枚、だが公式サイトでは410となっているので何も入っていない棚の画像がある可能性あり)
- テスト用データは棚にアイテムを入れた全100シーンx各2回撮影の計200枚
- Matterport3D: Learning from RGB-D Data in Indoor Environments
- 大規模なシーン認識のためのデータセット。90の建物から抽出された10800のパノラマビューに対してオブジェクト/セグメントがアノテーションされている。画像(RGB-D)数は約20万。
- データセットを扱うためのコードも公開されている(niessner/Matterport)。ここには、ベンチマークも含まれる。
- Describable Textures Dataset (DTD)
- 画像の認識において、単に映っているものを認識するだけでなく、質感などの情報も重要なはず、ということで様々なテクスチャを収集しタグ付したデータセット
- 全5640画像で、47のカテゴリがアノテーションされている
- 3D_Street_View
- Googleのストリートビューから作成したデータセット。同じ地点をカメラ位置を変えて複数回撮影した画像が収録されており、カメラ位置推定や特徴点一致などのタスクに利用できる(118セットで、総画像数は約2500万)。
- また、都市全体の3Dモデルも提供されている。
- The German Traffic Sign Detection Benchmark
- 道路標識を検知するモデルを学習させるためのデータセット。
- 認識する道路標識のサイズは16x16から128x128までと幅広く、また様々な光の状態(朝昼夜など)が加味されている。
- 学習用に900枚、1.6Gというボリューム。またオンラインでのモデル評価システムも完備されている。
- Road Damage Dataset
- 道路の損傷(ひび割れや白線の掠れなど)の検知を学習するためのデータセット。
- 9,053の画像が収録されており、総計15,435の損傷がバウンディングボックスでアノテートされている。また、損傷の分類も行われている。
- なお、データは日本発で7つの自治体と掛け合い作成したとのこと。
- Road Damage Detection Using Deep Neural Networks with Images Captured Through a Smartphone
- SUNCG: A Large 3D Model Repository for Indoor Scenes
- 実物に近いよう家具などがレイアウトされた、屋内のモデルのデータセット。45,000の異なるシーンが収録されている。
- シミュレーター?画像だけでなく、実物に近い形にレンダリングした画像も提供されている。また、すべての画像にオブジェクトのラベルが付与されている。
- InteriorNet
- 2000万にも上る屋内家具レイアウトのデータセット。家具の3Dモデリング、そのレイアウトはプロが担当しており、配置した家具の画像を様々な光源から撮影。
- インタラクティブなシミュレーション環境も提供している。
- AlibabaのパートナーであるKujialeという、VRで家具配置を行う会社から提供を受けているよう。ライセンスはGPLv3
- DeepDrive
- Berkleyの公開した自動運転車のためのデータセット。様々な天候や都市、時間帯を収録した10万のHD動画(計1100時間!)から構成される。
- 画像フレーム10万についてはバウンディングボックス(人、バスなど計10クラス)、運転可能領域、白線(走行可能なレーンや横断歩道)がアノテーションされている。
- 1万についてはピクセルレベルのセグメンテーションがアノテーションされている。
- HowTo100M
- キャプション付きの動画データセット。特定の意図を持って行う様々な動作(料理や工作など)について、撮影者が解説している動画を集めている。
- 動画本数は120万、行動数は23,000にのぼる。
- ScanNet
- 1500以上のスキャンで得られた250万もの3D(RGB-D)画像のデータセット。カメラ位置・サーフェス・セグメンテーションなどのアノテーションがされている。
- ShapeNet
- 3Dモデルのデータセット。家具から飛行機までと、色々な種類のモデルがそろっている。
- メジャーなカテゴリを集めたCore55もある
- ModelNet
- シーン/オブジェクト認識のデータセットであるSUN databaseからメジャーなオブジェクトを抜き出して、そのCADイメージを収集したもの。
- カテゴリ数10のModelNet10と、40のModelNet40がある。
- SHREC 2014
- 既存の3Dモデルのデータセットから、ベンチマークになるような新たなデータセットを構築したもの。
- PSB/SHREC12GTB/TSB/CCCC/WMB/MSB/BAB/ESBの計8つのデータセットが統合されている(詳細はリンク先のTable1参照)。
- 最終的には、171クラス8,987モデルのデータセットとなっている。
- Yobi3D
- フリーの3Dモデル検索エンジン。3Dデータ自体は様々なところから収集されている。データセットという形でまとまってはいないが、用途に合わせて検索し、モデルデータのリンク先を得ることができる。
- MIRO
- オブジェクトを様々な角度から撮影したデータセット。
- カテゴリ数は12で、1カテゴリ10種類の物体が含まれる(コップなら、様々なコップが10種類含まれる)。各物体は、様々なアングルから撮影された160の画像を持つ。
- RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised Viewpoints
- Disney Animation Dataset
- ディズニーが公開しているアニメーションのデータセット
- 雲のデータセットと、「モアナと伝説の海」の舞台となるモトヌイ島(架空の島)のレンダリングに必要なデータが公開されている。
- SpaceNet
- 衛星写真のデータセット。建物の領域などがラベル付けされている
- データを提供しているリポジトリで、可視化のためのツールなども提供されている
- ABCD (AIST Building Change Detection) dataset
- 津波の被害を受けた建物について、無事だったもの(surviving)と洗い流されたもの(washed-away)それぞれについて津波前後の衛星画像を収めたデータセット。
- 画像は東日本大震災での被害が対象となっており、建物のダメージの判定は震災後の国土交通省の調査に基づいている。
- Dublin LiDAR dataset
- ダブリンの上空からLiDARセンサーで取得した点群のデータセット。300点/m2の密度で、上空以外にも垂直面の情報も提供されているので、3Dモデルを作ることも可能。
- ダウンロードは範囲ごとになっており、各範囲のページに遷移すると右側の「Tools」の中に「All Downloads」が表示されているので、そこからダウンロードできる。
- Cars Overhead With Context (COWC) dataset
- 車を映した衛星写真のデータセット。解像度は15cm=1pixel単位で、カナダ・ニュージーランド・ドイツなど各国の画像が収録されている。
- 32,716の車がアノテーションされており、58,247の車ではない物体を含む。
- Tellus Data Catalog
- 衛星データプラットフォームであるTellusで公開されているデータセットの一覧。
- 衛星画像はもちろん、標高、地表面温度、降雨量、また携帯電話の基地局アクセスを元にした人口統計情報など興味深いデータが多く公開されている。
- CelebA Dataset
- 20万件の顔画像データと、それに撮影場所や40の特性(笑っているとか、ヒゲがあるとか)がセットになったデータ。また一万件程度は身元のデータがある(有名人などの画像)。
- MegaFace and MF2: Million-Scale Face Recognition
- 約500万の画像からなる顔のデータセット。70万人分あり、一人当たり平均7画像が用意されている(最小3、最大2500近くとばらつきは結構大きい)
- 顔を囲ったBounding Boxのデータも併せて提供されている。
- VGGFace2
- 約300万の画像からなる顔のデータセット。9131人分あり、一人当たり平均362.6画像が用意されている。
- 画像はGoogle Image Searchから取得されたもので、ポーズや年齢、人種など多様な人の画像が含まれる。
- IMDb-Face
- IMDbに掲載されている映画のスクリーンショットやポスターから抽出した画像に、人手でアノテーションしたデータセット。
- 既存のデータセット(MegaFace/MS-Celeb-1Mなど)はラベルのノイズが多く、実際は20~30%の量で同等のパフォーマンスが出せる、とした研究で作成された(The Devil of Face Recognition is in the Noise)。
- DiF: Diversity in Faces Dataset
- 件数100万件という、大規模な人の顔のデータセット。
- 顔だけでなく、顔の特徴のアノテーションも行われている(顔の長さ、鼻の長さなど)。
- Flickr-Faces-HQ Dataset (FFHQ)
- GANでの使用を想定した顔のデータセット。1024x1024という高解像度の画像が70,000枚収録されている。
- 画像は名前の通りFlickrから取得されており、メガネや帽子など様々なバリエーションが用意されている。
- 11k Hands
- 様々な年代・性別・肌の色の「手」を集めたデータセット(特に年代は18~75歳と幅広い)。
- 画像は指を開いたもの/閉じたもの/左右/表裏でそれぞれ取られている。
- データ総数は11,000件ほど。
- AISL HDIBPL (Human Depth Images with Body Part Labels) Database
- 深度データから姿勢を推定するためのデータセット。
- 212x212の深度データに対し、ピクセル単位で10クラスのラベルが付与されている(胴、頭、右上腕、左上腕など・・・)。
- The Event-Camera Dataset and Simulator
- イベントベースのカメラで撮影した動画に対して、実際のモーションキャプチャの情報をセットにしたデータセット。
- 通常のカメラは一定間隔で画像を撮影するいわゆるパラパラ漫画の方式だが、イベントベースのカメラは画像におけるピクセル変化(イベント)を検出する形のカメラになる。
- これにより、レイテンシを上げることなく高頻度に変化の検知を行うことができる(ファイルサイズも小さくできる)。詳細はこちら参照。
- MPI Dynamic FAUST(D-FAUST)
- 人体の3次元データに時間を加えた、4次元のモーションデータ(60fpsで撮影)。
- Annotated lymph node CT data
- リンパ節の位置がアノテーションされたCT画像。画像数は縦隔90、腹部86。
- Annotated pancreas CT data
- すい臓がアノテーションされた、コントラストを強調した腹部のCT画像。画像数は82。
- Chest radiograph dataset
- 肺のX線画像データに対して、病名とその位置をアノテーションしたデータセット。30,805人の患者のX線画像112,120枚。
- ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases
- データセットの信頼性について疑義あり。放射線技師の方が実際に画像を見て検証したところ、診断と異なるラベルが多く発見された(ものによると20~30%台の一致しかないものもある)。詳細はこちら=>Exploring the ChestXray14 dataset: problems
- CheXpert
- 胸部X線画像のデータセット。65,240人の患者から撮影した、224,316の画像が収録されている。
- 放射線技師の所見(テキスト)を解析し、14の病理について有無のラベルを付けている。
- 標準ディジタル画像データベース 胸部腫瘤陰影像(DICOM版)
- 154の小瘤のある画像と、93のない画像で構成されるデータセット。解像度は2048 x 2048。
- 北里大学メディカルセンター放射線部 柳田 智先生のご尽力により作成された
- MIMIC
- 40,000人のケアが必要な重篤な患者についてのデータセット。人口統計、バイタルサイン、検査結果、医薬品情報などが含まれる。
- 利用にあたってはまずCITIの"Data or Specimens Only Research"というオンライン講座を受講する必要がある(こちら参照)。
- DeepLesion
- 32,000枚のCTスキャン画像のデータセット。画像データセットとしてはかなり大規模。
- 匿名化された4,400名の患者の画像で、CTスキャンの後にチェックすべき箇所(病変)を画像に書き込むらしいのだが、そのチェックが付与されているとのこと。
- fastMRI
- 膝のMRI画像で、10,000の画像からサンプルされた1500件のデータが提供されている。
- フォーマットは、ベンダー中立のISMRMDが使われている。
- MRNet Dataset
- 膝のMRI画像データセット。データ数は1,370で、前十字靭帯/半月板の損傷についてアノテーションが行われている。
- MURA
- 骨のX線画像のデータセット。
- 画像数は40,561で、肘、指など7つの部分に分かれる。正常/異常の判定がアノテーションされている。
- Painter by Numbers(PBN)
- 画家・タイトル・画風・ジャンルなどがアノテーションされた画像のデータセット
- 全23817画像あるが、かなり重たいので(学習用データセットが36GB)アノテーションの配分が均等になるように分けられた13グループのファイル(各1400~2000画像くらい)が用意されている
- quickdraw-dataset
- 345カテゴリ、5千万のイラスト描画データ。描画データという名の通り、時系列の筆跡データが提供されている
- 追加のための学習データセットとして、漢字や羊、象形文字?のデータも公開されている。sketch-rnn-datasets
- 本体のモデルはこちら。
- A Neural Representation of Sketch Drawings
- How Do Humans Sketch Objects? (TU-Berlin dataset)
- 人の書いたスケッチのデータセット。20,000のイラストに対しカテゴリが付与されており、カテゴリ数は250上る。
- 人間がカテゴリを判別できる精度は73%(SVMだと56%)。
- SketchyScene
- 7000超のシーンのテンプレート/写真に沿った、29000ほどのイラストが収録されている。さらに、セマンティック/インスタンスレベルのセグメンテーションデータが付属している。
- Manga109
- 1970年代から2010年代に、実際に出版された109冊の漫画のデータセット。一部の巻についてはページ毎のセリフデータも用意されている。
- 利用は学術目的限りで、論文などにデータセットの漫画を掲載する際は作者の著作権「©作者名」とManga109の利用であることを明示すること(詳細は上記サイト参照)。
- 有志がアノテーションデータを読み込むためのスクリプトを開発: matsui528/manga109api
- eBDtheque
- 漫画のページについて、コマ・フキダシ・フキダシ内のテキストの領域がアノテーションされたデータセット。
- 漫画はアメリカ、日本、ヨーロッパなど各国のものが集められており、総ページ数は100ページで850コマ。
- データセットを作るためのアノテーションツールも公開されており、データセットの拡張に貢献できる。
- AnimeFace Character Dataset
- アニメのキャラクターの顔を集めたデータセット。サイズは160x160で、1キャラクター平均80前後の画像が用意されている
- GDI (Graphic Design Importance) Dataset
- グラフィックデザインのどこに注目するかという、いわゆるヒートマップのデータセット。
- ぼやけたグラフックを提示し、見たいところをクリックで開けていくというBubbleViewという手法でデータを取得している
- 2017/8時点では公式ページでまだ未公開だが、こちらから手に入るもよう
- LLD - Large Logo Dataset
- 50万overの、ロゴ画像のデータセット。Webサイトのfaviconから収集されている。
- GANでの利用を想定しており、GAN用にロゴっぽくないものなどを除いたClean versionの提供も行われている。
- 他のロゴ画像のデータセットとしては、Kaggleで公開されているFaviconsがある。
- MASSVIS DATASET
- グラフや図といったビジュアライゼーションの効果を検証するためのデータセット。
- 具体的には、政府の統計、インフォグラフィックス、ニュースや科学雑誌などから抽出したグラフや図に対し、その種類や説明といったものを付与している。
- 特徴的なのはアイトラッキングのデータで、これにより図表のどこに注目しているかなどを知ることができる。
- AADB dataset
- 写真の審美性について1~5のスコアがつけられたデータセット。10,000の画像が含まれる。
- AVA(Image Aesthetic Visual Analysis) datasetよりも画像数は少ないが(255,000)、0/1でなく1~5でスコアがついている点が強味
- Photo Aesthetics Ranking Network with Attributes and Content Adaptation
- Cartoon Set
- 二次元のアバターイメージのデータセット。顔は色違いやパーツの組み合わせ違いのパターンで作られており、各特性のラベルがついた1万/10万の2つのデータセットが提供されている。
- VQA
- 画像を見て質問に答えるタスクでは、学習した画像についてだけ答えられる、良くある答え(「2つ」とか)を多めに繰り出して精度が上がっているなど明らかな過適合が見られた。そこで真実見たことない画像(Zero-Shot)に回答可能かをテストするためのデータとベースラインモデルの提案
- MS COCOから204,721画像、50,000のクリップアートが含まれる。各画像には最低3つ質問があり、各質問には10の回答がある
- 回答の種類にはバリエーションがあり、アノテーターが最も多く回答したもの(Correct)、画像を見ないで回答したもの(Plausible)、よくある回答(Popular: 2つ、とかyes、など)、回答からランダムに選択したもの、などがある。
- Zero-Shot Visual Question Answering
- VizWiz Dataset
- 画像を見て質問に答えるVQAを、盲目の人が周りを認識するという実用的なシーンで役立てるために作成されたデータセット。
- 画像、また質問は実際に盲目の人が(モバイル端末で)撮影、また質問したもので、それに対する回答をクラウドソーシングで収集している。
- 31,000の質問と、各質問に対する回答が10収録されている。
- CLEVR
- 画像理解のためのデータセット。きちんと理解しているかを診断するために、シンプルな画像(物体がいくつか置いてあるような画像)に対し、様々な内容(物体の色や形といった属性、個数、位置など)を問う質問が用意されている
- 質問は自然言語の形式だけでなく、プログラムの表現に近い形での形式も用意されている(関数をつなげているような形)。
- MS COCO
- 認識・セグメンテーション等のデータを含む物体認識のための統合的なデータセット
- 画像に対する5つの説明(キャプション)も含む
- COCO-Stuff 10K
- COCOのデータセット(の一部)にピクセルレベルのアノテーションを行ったデータセットが公開。10,000の画像に91の物体(人や船、象など)がピクセル単位でアノテーションされている。
- その後164,000に拡張され、インスタンスレベルでのアノテーション(同じクラスでも別々の個体なら区別する)も追加されている。
- VisDial Dataset
- MS COCOの画像をベースに、それについてのQとAが付与されている。Training用に8万、Validation用に4万が利用可能
- アノテーションツールまで公開されているので、さらに集めることも可能。
- Toronto COCO-QA Dataset
- MS COCOの123,287画像に対し、学習用に78,736、評価用に38,948と大量のQAを作成したデータセット。
- これにはカラクリがあり、QAはMS COCOのキャプションから自動生成されている(「椅子が二つある」というキャプションなら、Q:何個椅子があるか? A:2つ、など)。そのため、質問の種類は限定的で文法的におかしい質問も含まれる。
- DAQUAR - DAtaset for QUestion Answering on Real-world images
- NYU Depth Dataset V2の画像について作成されたQAのデータセット。学習用に6794、評価用に5674の質問が用意されている(1画像当たり平均9個)。
- ただ、画像が屋内のもので角度/光の当たり的に回答がそもそも難しい質問も多くあり、人間の正答率も50.2%と低い。
- STAIR Captions
- MS COCOの画像につけられた5つのキャプションについて、日本語でもキャプションをつけたもの(翻訳したわけではなく、独自にアノテートしている)。
- STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset
- Cornell NLVR
- 図と、その図の状態を記述した自然言語のデータセット(具体的には、「少なくとも一つの黒い三角形がある」とか)。
- A Corpus of Natural Language for Visual Reasoning
- Recipe1M dataset
- 100万にも及ぶ、料理画像とそのレシピのペアのデータセット(料理の種類としては80万)。
- なお、利用は研究用途に限る。
- Food-Recipe-CNN
- chefkoch.deというレシピサイトから収集された料理の画像40万、レシピ数30万という大規模なデータセット。カテゴリ数は230。
- ShapeNet Text Descriptions
- ShapeNetの3D画像(椅子・テーブルのみ)について、説明文をペア付与したデータセット(茶色の椅子、など)。
- 研究では言語からの3D生成も行っており、ボクセルデータも付属している。
- RecipeQA
- レシピに関する対話データセット。レシピを読んで回答するというのが基本スタイルだが、4つの回答パターンが用意されている。
- Visual Coherence: レシピに一致しない画像の回答、Visual Cloze: 欠けたレシピ手順の画像選択、Visual Ordering: レシピ手順通りに並んだ画像の選択、Textual Cloze: レシピを完成させるための手順(テキスト)の選択、という4タスク。
- NLVR
- 画像に関する質問に答えるVQAのデータセット。既存のデータセットは画像認識とほぼ等価なところがあるため、より複雑な質問になるよう工夫されている。
- 具体的には、単一の画像ではなく2つの画像を使用し、比較するようなキャプションをつけている。データ数は107,296件。
- MMD: Towards Building Large Scale Multimodal Domain-Aware Conversation Systems
- マルチモーダル対話のためのデータセット。
- ファッションドメインのデータセットで、「ユニクロの1000円で買えるTシャツが欲しい」「こちらはいかがでしょう(画像を提示)」といったような画像を使用した対話データが収録されている(実際は英語)。
- 15万対話と数も大規模。
- Touchdown
- 自然言語によるナビゲーションのデータセット。道案内だけでなく、たどり着いた場所に隠されたオブジェクト(🐻)を見つけるタスクになっている。
- データはGoogle Street Viewからとられており、件数は9,326。
- VSU: Visual Scenes with Utterances Dataset
- 人の写っている画像に対し視線をアノテーションしたGazeFollowに対して、人物がなんと言っているかを追加アノテーションしたデータセット。
- クラウドソーシングを使って発話内容を作成しており、発話についてはダブルチェック/人手チェックを行なっている。
- 同様のデータセットとしては、VCR: Visual Commonsense Reasoningがある
- GQA
- 既存のVQAデータセットは回答に偏りがあり(いくつ?ならtwoが多いなど)根拠に基づく学習をさせるのが難しく、根拠を意識したデータセット(CLEVR)は四角や三角などの抽象的なオブジェクトという問題があった。この2つを合流させたようなデータセットになっている。
- ActivityNet Captions dataset
- 動画に対するキャプションをつけたデータセット。動画全体で1つではなく、動画内の様々なパートに対しアノテーションが行われている。
- 動画数は2万で、一動画あたり約3.65パートに文が付与されている。
- YouCook2 Dataset
- 料理動画のデータセット。89のレシピ X 22動画/1レシピ = 計2000本ほどが収録されている。動画はYouTubeから取得され、手順に対しキャプションがつけられている。
- 自然言語処理のためのリソース
- 京都大学から適用されている自然言語処理のためのデータセット。毎日新聞のデータに対する各種言語情報である京都大学テキストコーパス(※本文データは別途入手する必要がある)、さまざまなウェブ文書のリード文に対し各種言語情報のアノテーションを行った京都大学ウェブ文書リードコーパス等がある。
- 解析済みブログコーパス
- 京都大学と、NTTコミュニケーションの共同研究ユニットで作成されたコーパス。4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。
- Stanford Rare Word (RW) Similarity Dataset
- 文中にあまり登場しない低頻度語について、余りレアではない単語とペアにして、その類似度を付けたデータセット
- 類似度の評価は、クラウドソーシングで0-10の11段階で評価をしてもらい、つけている。
- 信頼性について疑問符が付くという報告有り。低頻度語がどんな語に似ているかは一定の知識が要求されるため、クラウドソーシングには向かないのではないかという指摘もある。
- 日本語単語類似度データセット(JapaneseWordSimilarityDataset)
- Stanford Rare Word Similarity Datasetを参考に作成された日本語の単語類似度データセット。
- 動詞・形容詞・名詞・副詞が対象となっており、クラウドソーシングを利用し10名のアノテータに11段階で単語ペアの類似度をスコアしてもらっている。
- The Japanese Bigger Analogy Test Set (jBATS)
- 日本語のアナロジータスク(王様-男+女=女王、など)のデータセット。本家のBATSに乗っ取り、4つの言語関係が収録されている。
- WikiText
- 言語モデル学習用のデータセットWikiText-2/WikiText-103の公開。それぞれPenn Treebankよりも2倍&110倍のデータ量。
- WikiSQL
- 自然言語をSQLに対応づけたデータセット。なお、SQLは選択用(SELECT)のみ。
- 自然言語とSQLの条件・列選択・集計対象列との対応データと、テーブルの定義が提供されている。
- ParaphraseBench
- 自然言語とSQLを対応づけたデータセット。結果となるSQLは同じだが、6つの異なる聞き方をした自然言語を収録している。
- データ件数は57とそれほど多くない。学習用というよりは、評価用のデータセット(論文中では、こうしたフォーマットを元にデータを水増ししている)。
- text2sql-data
- これまで公開された7つのText2SQLのデータを統合し、かつ実際の大学生の質問から作成したデータセットを新たに追加。
- 各データの学習/評価データについては、結果として同じSQLになるものが互いに含まれないようにしている。
- Spider 1.0
- Text to SQLのデータセット。質問数は10,181で、対応付けられるSQL数は5,693。これらのSQLは、138の異なるドメインの200のデータベースに対するアクセスを行うものになる。
- 青空文庫
- 著作権の消滅した作品、また「自由に読んでもらってかまわない」とされたものをテキストとXHTML(一部HTML)形式に電子化した上で揃えている
- GitHubからダウンロードが可能になった。
- 青空文庫形態素解析データ集
- 青空文庫に収録されている作品に対し形態素解析を行ったデータ。CCライセンスで、商用利用も可能。
- 対象の作品は2012/12時点で公開されており、著作権フラグのない11,176作品。
- BookCorpus
- 10,000以上の書籍のデータのコーパス(ただ、1/4は重複あり)。また、うち11については映画との対応も提供されている(MovieBook dataset)。
- こちらはさすがに利用申請が必要で、また研究用途のみOK。
- csi-corpus
- 実世界における自然言語タスク、をテーマに作成されたデータセット。具体的には会話から犯人を推定するもので、CSI:科学捜査班の発話文と文中の犯人・容疑者・その他の人、また実際人がそのシーンで思っていた犯人がアノテーションされている
- なお、実際のドラマのシーンを確認するには当然購入が必要。
- Whodunnit? Crime Drama as a Case for Natural Language Understanding
- The General Language Understanding Evaluation (GLUE) benchmark
- 自然言語理解を行うモデルの性能測定プラットフォームGLUE(データセットを含む)。
- 内容としては、質問回答や感情分類、テキスト間の関係推定などのタスクからなり、単一のモデルがこれら複数のタスクをどれだけこなせるかを測定する。
- GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
- PeerRead
- ACL/NIPS/ICLRの論文の概要と、それに対するレビューを集めたデータセット(accept/rejectされたもの双方が含まれる)。論文数は14,000で、レビュー数は10,000。
- kanjivg-radical
- CoNaLa: The Code/Natural Language Challenge
- 自然言語からコードを生成するためのデータセット。
- 「ソートしたい」=>「配列xを大きい順に並び変えたい」=>「x.sort(reverse=True)」といった形で、要求・具体的な要求・コード(Python)の3点がセットになっている(クラウドソーシングで作成、データ元はStackOverflow)。
- MLDoc
- 文書分類のデータセットであるReuters corpusを加工して作成されたデータセット。
- 各クラスのバランスがとられているほか、英語を含めた8言語への翻訳テキストも含んでいる(日本語も含まれる)。
- 日本語対訳データ
- Tanaka Corpus
- 日英翻訳のためのパラレルコーパス。約15万文の日英の分のペアが収録されている。
- こちらから単語数が4~16である文約5万件を抽出した、単語分割済みのコーパスが別途公開されている(small_parallel_enja)。
- JESC: Japanese-English Subtitle Corpus
- インターネット上から取得した映画・テレビ番組の字幕に対して作成された日英のパラレルコーパス。
- 320万文が含まれる
- JESC: Japanese-English Subtitle Corpus
- SNOW T15:やさしい日本語コーパス
- 日英対訳コーパス(small_parallel_enja)の日本語を平易な日本語に書き換えたデータセット。
- 元がパラレルコーパスであるため、英語との対応もとれる。
- TED-Parallel-Corpus
- TED Talkをベースにしたパラレルコーパス。対応言語が非常に多く、109言語のリソースが収録されている。
- livedoor ニュースコーパス
- トピックニュース、Sportsなどの9分野のニュース記事のコーパス
- SemEval-2017 Task 8 RumourEval
- 噂の真偽を判定するためのデータセット。審議判定以外に、スタンスの特定のためのデータセットも提供されている。
- スタンスは特定の情報に対する支持(Support)・否定(Deny)・追加情報の要求(Query)・コメント(Comment)の4種類に分けられている。
- PHEME rumour dataset: support, certainty and evidentiality
- 噂の真偽を判定するためのデータセット。9つのニュースに関連した噂のツイート、及びそれに対する会話が収録されている(会話数が330で、総ツイート数が4,842)。
- ツイートには、支持(support)・確実性についての確認(certainty)・証拠性についての確認(evidentiality)の3つのスタンスのラベルが付与されている。
- Noun Compositionality Judgements
- 2語の組み合わせが、逐語的か否か(literal or not literal)をスコアリングしたデータセット。
- 例えばred appleは赤い・リンゴでそれぞれ独自の意味を持っているが(逐語的)、search engineは「検索エンジン」で一塊の意味となるなど。
- The Stanford Natural Language Inference (SNLI) Corpus
- 二つの文の関係を推定するためのデータセット。論理的に同じ意味か、矛盾するものか、どちらともいえないかの3種類。「男は外でコーヒーを飲んでいる」vs「男は寝ている」の場合、矛盾している、など。
- 文だけでなく、構文解析した結果も含まれる。そのため、Recursiveなモデルによる意味獲得の評価などによく用いられる。
- ただし、データセットの作り方に問題があり、片方の文だけで分類が推定されてしまうという点が指摘されている。
- MultiNLI
- SNLIを、多様なジャンルの話題に拡張したデータセット。話し言葉や書き言葉といった違いのあるジャンルも含まれる。
- XNLI: Evaluating Cross-lingual Sentence Representations
- MultiNLIを、15カ国語に拡張したデータセット。この中には、ウルドゥー語などの少ない言語資源のデータも含まれる。
- (論文中にzipファイルの直リンクが書いてある)。
- Enron Email Dataset
- エンロン事件の捜査のさなか、米連邦エネルギー規制委員会(FERC)がインターネット上に公開した実際のエンロン社内のメールデータ。
- 件数は50万件ほどで、主にエンロンのシニアマネージャーの人達が送ったもの。ユーザー数的には150名ほど。なお添付ファイルは削除されている。
- メールのデータセットに対して、その意図("要求"か"提案"か)をアノテートしたデータセットが公開されている(EmailIntentDataSet)。
- PubMed 200k RCT dataset
- 連続する文の分類を行うためのデータセット。具体的には、論文のAbstractに対してこの文は背景、この文は目的、この文は手法・・・といった具合にアノテーションされている。
- 20万のAbstractに含まれる、230万文にアノテーションが行われている。
- PubMed 200k RCT: a Dataset for Sequential Sentence Classification in Medical Abstracts
- FAKE NEWS CHALLENGE STAGE 1 (FNC-I): STANCE DETECTION
- フェイクニュースの検知を目的としたデータセット。第一弾として、記事のスタンスの検知を行うデータを提供している。
- Inputは記事のタイトル/本文で、それに対し他の記事を賛成・反対・同じことを話しているがスタンスはとっていない、関係ないの4つに分類する。
- STS Benchmark
- 文書類似度のタスクのためのデータセット(SemEval2012~2017で使用されたもの)。画像のキャプションやニュース記事などが含まれる。
- The SICK data set
- 1万の英語の文書について、文間の類似性や関係性をアノテーションしたデータセット。
- Sentiment Treebank
- Stanfordの公開している、意味表現ツリーのデータセット
- Sentiment140 - A Twitter Sentiment Analysis Tool
- Tweetにネガポジのラベルを付与したデータセット。データ数は160万件で、ポジティブ80万・ネガティブ80万できちんとバランスしている。
- なお、Tweet関係のデータはこちらの論文によくまとまっている。
- Crowdflower
- 機械学習プラットフォームのCrowdflowerから提供された、感情タグ付け済みのTwitterデータ。
- PersonaBank
- 個々人のペルソナを推定するためのコーパスで、個人ブログから抽出された108の個人的なストーリーからなる。
- 各ストーリーに対しては、意図グラフ(xをyしてzにしようとした、というのがノードとエッジで表現されている)がアノテーションされている。
- MovieLens 1M Dataset
- MovieLensから取得された、映画のレーティングのデータセット。ユーザー数は6040、3900ほどの映画についての100万のレーティングが提供されている。
- ユーザー属性(年齢や性別)、映画属性(タイトルなど)、レーティングの3点からなる。推薦システム用のデータセット。
- MovieTweetings
- IMDBでレートをした時のツイート(
"I rated The Matrix 9/10 http://www.imdb.com/title/tt0133093/ #IMDb"
というような感じの)から収集したデータセット - TwitterのユーザーID、映画の情報、レーティングの3点からなる推薦システム用のデータセット。
- IMDBでレートをした時のツイート(
- A Large Self-Annotated Corpus for Sarcasm
- 皮肉を検出するための大規模コーパスの公開。Redditという掲示板のデータから、130万のデータが提供。アノテーションは投稿者自身が行っている(皮肉コメントには/sがついている)。Redditには皮肉に/sをつける文化があるらしい(HTMLのタグで囲むようにするのが発祥とのこと)
- ダウンロードはこちらから
- SemEval-2016 Task 5: Aspect-Based Sentiment Analysis
- 単純な極性ではなく、対象と属性(Aspect)を加味したデータセット。
- 具体的には、「このパソコンの性能はいまいちだ」という場合、「パソコン#性能, negative」といった具合にアノテーションが行われている
- 様々な言語、ドメイン(レストラン、ホテル、家電、電話など)でのデータセットが提供されている。なお日本語はない。
- Amazon product data
- Amazonのレビューのデータで、その総数一億四千万。1996年5月から、2014年7月までのレビューが収録されている。
- データが多すぎるので、各製品にk件以上レビューを持っているユーザーに限定したデータセット、レーティングのみ、またカテゴリごとにデータが提供されている。
- Twitter日本語評判分析データセット
- 主に携帯電話に関するツイートを集め、センチメントのアノテーションを行ったデータセット。件数は534,962件と、かなり大規模。
- 携帯電話の機種/会社に関するざっくりとしたカテゴリのラベルが付与されており、センチメントはその対象について「言及されていた場合にのみ」アノテーションされているので注意。
- また、データセットにはTwitterのIDのみ含まれ、本体のテキストは含まれていない。
- SNOW D18:日本語感情表現辞書
- 日本語の感情表現を集めた辞書。2000の表現が48の感情に分類されている。
- アノテーターは3名で、アノテーターごとの結果を利用できる(集約は行われていない)
- WNUT17 Emerging and Rare entity recognition
- SNSでの投稿などで瞬時に出てくる新語の固有表現を特定するチャレンジ。
- 人・場所・企業・製品(iPhineとか)・創作物(「君の名は」とか)・グループ(アジカンとか)の計6つのタグがアノテーションされている。
- WNUT Named Entity Recognition
- TwitterなどのSNSの投稿に対して固有表現を特定するチャレンジ。
- W-NUT Geolocation Prediction in Twitter
- Twitterの投稿から位置情報を推定するタスク。100万ユーザー分のツイートが収録されている。
- User-levelとMessage-levelの2種類のタスクが設定されている。
- Automated Analysis of Cybercriminal Markets
- インターネット上の犯罪取引掲示板のデータセット。取引されているブツに対してアノテーションが行われており、さらに4つの掲示板からデータを取得しているため、異なるドメインでもブツの検知ができるかというドメイン転化の検証にも使用できる。
- ただ、アノテーション自体はそう多くなく、最大でも700程度(Hack Forums)で最小は80(Blackhat)。
- Broad Twitter Corpus
- Twitterのつぶやきに対して固有表現をアノテートしたデータセット。
- 多様な地域や年代、内容をカバーしているのが特徴であり、地域は英語圏だが年代は2012~2014年、内容は災害やニュース、フォロワーの多い著名人のものなど多岐にわたっている。
- アノテーション数は総計12,000。
- litbank
- 文学に特化した固有表現認識のデータセット。ストーリーを追うために、人物・場所/建物・移動手段、また組織といった固有表現についてアノテーションが行われている。対象は100作品で、各作品から単語数にして2000単語ほどが抽出されアノテーションされている。
- アノテーション数は総計210,532。
- Visual Genome
- 画像とその物体の名前、それらの関係性、またQAなどを含む認識理解に必要なデータを包括しているデータセット
- Microsoft Concept Graph
- Microfostが公開した、エンティティ間の関係をについてのデータセット。最初はIsA関係(AはBだ的な)のデータで、1,200万のインスタンスと、500万のコンセプト間の、8500万(!)のisA関係を含んでいる。
- mmkb
- 知識グラフとしてよく利用されるFB15k、YAGO15k、DBpedia15kについて、その数値データ(緯度経度など)を付与したもの。
- 画像データについても付与が行われている。
- The TAC Relation Extraction Dataset
- 大規模な関係認識のデータセット。アノテーションはNewswireなどのニュース記事やその他Web上の記事に対して行われている。
- 主語・述語をはじめとした様々な関係が付与されている。データ総数は約10万。
- ただし有料(LDC memberは無料、それ以外は$25)。
- SQuAD
- Stanfordの公開してる質問応答の大規模データセット
- Maluuba News QA
- CNNのニュース記事をベースにした質問応答のデータセット。質問数は10万overというサイズ。SQuAD同様、質問はクラウドソーシングで作成しており、回答は本文中の抜粋(一単語とは限らない)になる。しかも、答えられない可能性もあるという歯ごたえのある問題設定になっている。
- MS MARCO
- Microsoftが公開した質問応答のデータセット(10万件)。質問/回答が、人間のものである点が特徴(Bing=検索エンジンへの入力なのでどこまで質問っぽいかは要確認)。回答はBingの検索結果から抜粋して作成
- 2018/3/2に、質問数を10倍(100万)にしたV2のデータセットがリリースされた。回答の質の向上にも気が払われており、情報源となるテキストを単純に抽出したような回答は適切な書き替えが行われているとのこと。
- MS MARCO: A Human Generated MAchine Reading COmprehension Dataset
- TriviaQA: A Large Scale Dataset for Reading Comprehension and Question Answering
- 大規模なQAのデータセット(65万件)。QAだけでなく、Evidence(Answerの根拠となる複数のWebページ、またWikipedia)が付属。
- 公開時点(2017/5)では、人間の精度80%に対してSQuADで良い成績を収めているモデルでも40%なので、歯ごたえのあるデータセットに仕上がっている。
- TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
- WebQuestions/Free917
- 5W(When/Where/Who/What/Why)で始まる質問に対する回答を集めたデータセット。
- WebQuestionsは学習/テスト=3,778/2,032の質問が、Free917は641/276のデータが登録されている
- WikiTableQuestions
- テーブルを見て質問に回答するというタスクのデータセット。売上のテーブルがあったとしたら、20XX年のY事業部の売上は?などといった質問に回答する。
- TREC QA
- 1999年から続く質問回答のタスクで使用されているデータセット。質問はオープンドメインで、回答はクローズドなもの(答えが決まっている(日本の首都は?->東京、のような))
- DeepMind Q&A Dataset
- CNN/Daily Mailのデータセット。その記事に関する質問のデータもある
- Stanfordの研究で、だいぶ簡単な質問しかないことが明らかになっているので利用は注意->文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
- QAngaroo
- 文書間のリンクをたどって回答するような質問回答のデータセット。例えば、「スカイツリーは東京にある」「東京は日本の首都である」⇒スカイツリーがある国は?=日本、といった具合。
- Constructing Datasets for Multi-hop Reading Comprehension Across Documents
- FigureQA
- グラフやプロットといった図に関する質問回答がセットになったデータセット。質問はYes/Noで回答できるものだが、様々なバリエーションが用意されている(XはYより大きいですか、Xは最も小さい値ですか、etc)。また、特徴が偏らないよう質問や図の色が上手く分散するように設計されている。
- The NarrativeQA Reading Comprehension Challenge Dataset
- 既存のMachine Readingのデータセットは、答えがばっちり入っている一文がありその周辺の情報しか回答に必要ないものが多かった。
- そこで、Q&Aを文から抽出する形でなく、サマリを読んで作成するという形にして、より読んだ内容をメタに理解していないと解けないデータセットを作成した。
- ストーリー数は1,567、Q&Aの個数は46,765となっている。回答はシンプルなものとされ、単語数の平均は4.73。
- MilkQA
- ブラジル農牧研究公社(Embrapa)への問い合わせを匿名化した2,657のQ&Aが収録されている(なお言語はポルトガル語)。
- 既存のQ&Aのデータセットは少ない語や選択式でこたえられるものが多く、こちらはより現実的な質問回答のデータセットになっている
- MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection
- AI2 Reasoning Challenge Dataset
- 小学生レベルの科学に関する選択式質問のデータセット。総質問数は7,787。
- ChallengingとEasyの2種類があり、前者は既存の情報抽出の手法・単語共起で回答できなかったものが収録されている。
- MultiRC
- 短いパラグラフと、それについての質問からなるデータセット。パラグラフの数は800、質問数は6000程。
- 回答は多肢選択式で、パラグラフ中に言及がないものもある。また、パラグラフは、単一でなく7つのドメイン(ニュースや小説、歴史の文書など)から構成される。
- QuAC
- SQuADに対話的な要素を含んだ形のデータセット。対話数は14,000で、QAペア数は10万(1対話当たり7QAがある計算)。
- 「アメリカの大統領は?」「その人の妻は?」という形で続いていくイメージ。先生と生徒という役割分担があり、生徒側はフリーフォームだが先生側はドキュメントの特定箇所を抜粋する形で回答する。
- 先生側は対話行為タイプを生徒に提示するようにしており(さらに質問を、など)、対話が組み立てやすくなるよう工夫をしている。
- CoQA
- 対話形式の質問回答のデータセット。対話数は8000で、127,000のQAが含まれる。
- ある文書について、2人のアノテーターが質問/回答を行うという形で作成されている。
- 文書は、7つのドメイン(Wikipedia/News/Jeopardyなど)から取得されておりバリエーションに富んでいるとのこと。
- HotpotQA
- 複数文書にまたがった情報抽出(multi-hop)が求められるQAのデータセット。
- multi-hopなデータセットは既存のものがあるが、知識グラフではなくWikipediaから作成されている点、また大きな差異として回答根拠になる文についてアノテーションが行われている。
- 収集に際して単文書から回答可能な質問を一定量作成したワーカーの質問を除外、既存QAモデルで高いconfidenceで回答できる文を除外などの工夫がとられている
- ReviewQA
- レビュー評価の観点に関するQAデータセット。
- レビューがあった場合、その評価は1~5の何れか、レビュー中でXXとYYはどちらが良いとされているか、等といった質問が収録されている。
- レビュー数は100,000、質問数は500,000。
- HolStep
- Googleから公開された、論理推論を学習するための大規模データセット。与えられた情報の中で推論に重要な点は何か、各推論間の依存関係、そこから導かれる結論は何か、などといったものがタスクとして挙げられている。
- HolStep: A Machine Learning Dataset for Higher-order Logic Theorem Proving
- SCONE: Sequential CONtext-dependent Execution dataset
- Stanfordから公開されている論理推論のためのデータセット。
- 各シナリオには状況が設定されており(ビーカーがn個ある、絵がn個並んでいる、など)、それに対して5つの連続した操作が自然言語で記述されており(猫の絵を右にずらす、犬の絵をはずす、など)、それらを実行した場合の最後の状態を推定させるのがタスクになる。
- Simpler Context-Dependent Logical Forms via Model Projections
- ROCStories
- 4つの文からなるストーリをコンテキストとして、その結末を回答するというタスクのデータセット。
- 例: 「カレンはアンとルームメイトになった」「アンはコンサートに行かない?と誘った」「カレンはそれに同意した」「コンサートは最高だった!」=>結末は「カレンとアンは親友になった」or「カレンはアンのことを嫌いになった」の何れか?(2者択一)
- SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference
- 自然言語による推論を行うためのデータセット。ある状況に続くシーンとして想定されるものを選択肢から選ぶ形(「車に乗り込んだ」=>「アクセルを踏んだ」というような)。
- 工夫としては、正解以外の選択肢はモデルをだますよう人間が作成しているという点(見たところ文として自然だが意味が通らない印象)
- The Ubuntu Dialogue Corpus
- Ubuntuのテクニカルサポートの対話データ
- E2E NLG
- End-to-Endの対話システムを構築するためのデータセットが公開。50万発話でが含まれ、ドメインはレストラン検索となっている。発話に対しては固有表現(slot)的なアノテーションもされている(「フレンチが食べたい。500円くらいで」なら、種別=フレンチ、予算=500円など)。
- The E2E Dataset: New Challenges For End-to-End Generation
- A Multi-Turn, Multi-Domain, Task-Oriented Dialogue Dataset
- 複数ドメインにおける、複数ターンの会話のデータセット。
- 車内のエージェントへの適用を想定しており、スケジュール調整・天気・目的地検索の3つのドメインが用意されている。
- データ件数は学習用が約2500対話、検証/テスト用がそれぞれ300の総計約3000
- bAbI
- Facebook AI Researchが進める自然言語理解のためのプロジェクト(bAbI)で利用されているデータセット
- 質問応答・対話・言語モデルといった様々なタスクのデータセットが提供されている。
- self_dialogue_corpus
- Amazon Alexa Prize用の対話ボットを作成するために収集した、「自己対話」のデータセット。
- 一人二役を演じる形で作成された対話データセットは、非常に自然でトピックに沿ったものになるので良いとのこと。
- 約2万5千対話ものデータが提供されている。
- Edina: Building an Open Domain Socialbot with Self-dialogues
- THE PERSONA-CHAT DATASET
- ペルソナを維持した、一貫性のある対話を行うためのデータセット。
- クラウドソーシングを使い1155人文のペルソナ(猫を飼っている、など自分に関する5つ以上の文)を収集し、さらに語彙などが偏らないよう別の人による書き換えを行いペルソナを用意。
- そこから無作為に選んだペルソナで対話をしてもらい、総計10,981の対話を収録している。
- Personalizing Dialogue Agents: I have a dog, do you have pets too?
- CoCoA - CraigslistBargain
- 価格交渉対話のデータセット。1402のアイテムについて、価格交渉を行っている6682対話が収録されている。
- SearchQA
- Jeopardy!のクイズをベースに、クイズに関連する情報を検索エンジンから集めたデータセット。決まったQAのコンテキストを、検索エンジンで補完した形になっている。
- QA数は14万、各QAは平均49.6のコンテキストを持つ。検索クエリも含まれているため、コンテキストの情報を取り直すことも可能。
- Natural Questions
- Googleの検索データに基づいたデータセットで、質問はルール(who/when/whereから始まるなど)に合致する検索クエリから取得され、回答は長短の2つが用意されている(長: Wikipediaの該当パラグラフ、単: パラグラフ内の回答そのもの)。
- 学習データ数は307,373で各質問には1つの回答だが、validation(7,830)/test(7,842)では質問に対し複数(5つ)の回答が用意されている。
- PolyAI-LDN/conversational-datasets
- 公開済みであるAmazon/Redditなどの対話データから、再現性のあるデータセットを作成するツール。百万単位のデータセットを得ることが可能で、フォーマット/train・testのsplitが適切に行われるためベンチマークとして使用できる。
- DUC 2004
- 文章要約のためのデータセット。ベースラインとなるアルゴリズムによる要約結果も収録されており、それらのROUGEスコアと比較が可能。
- boxscore-data
- バスケットボールの試合のスコアと、試合結果についての要約をペアとしたデータセット。数値表現をテキストにする試み。
- Rotowire/SBNationといったスポーツサイトからデータを収集しており、総計約15000のペアが収録されている。
- CORNELL NEWSROOM
- 要約のための大規模なデータセット。
- 38の代表的な出版/報道局から集められた130万記事について、記事と要約がセットになっている(発行年は1998年から2017年まで)。
- AESW
- 文書校正前後の論文を集めたデータセット。
- 学習データには約100万文が含まれ、そのうち46万件ほどに校正による修正が入っている。
- Lang-8 dataset
- 語学学習を行うSNSであるLang-8から収集されたデータセット。Lang-8では学習している言語で作文を行うと、その言語を母国語としている人から添削を受けることができる。この学習者の作文と訂正された作文のペアがデータセットとして収録されている。
- 10言語のデータが含まれており、総数は約58万文書に及ぶ。
- 実はNAISTが公開しており、詳細はこちらから参照できる。語学学習 SNS の添削ログからの母語訳付き学習者コーパスの構築に向けて
- Paralex Paraphrase-Driven Learning for Open Question Answering
- WikiAnswerから収集した、質問の言いかえデータセット。WikiAnswerでは、同じ質問をマージすることができるようで、そのデータを使用している。
- データ数は1800万
- DCASE
- 自然音の分類を行うタスク(公園の音、オフィスの音など)で、学習・評価用データが公開されている。
- Freesound 4 seconds
- FreeSoundの音声データとそのメタデータをまとめたデータセットが公開(普通は頑張ってAPIを叩かないと行けなかった)。音響特徴を捉えるモデルの学習に役立ちそう(以前楽器の分類の学習に使ったことがある)。
- FSD is a large-scale, general-purpose audio dataset
- FreeSoundオフィシャルのデータセット。26万件のサウンドに、階層化された600のクラスラベルが付与されている(アノテーション件数自体は60万件に上る)。
- 音声には、楽器などの音以外に人間や動物の鳴き声など、多様な音声が含まれる。
- このデータセットを利用した、Kaggleのコンペティションも開催されている。
- AudioSet
- YouTubeから抽出した10秒程度の音に、人の声や車の音といった632のラベル(人の声→シャウト、ささやき、など階層上に定義されている)が付与されている(人手で)。その数その数200万!
- MAESTRO Dataset
- ピアノ演奏と対応するMIDIデータのデータセット。
- ピアノの演奏は、インターネット上のピアノ演奏コンペティションであるInternational Piano-e-Competitionから取得されている。演奏数1,184,曲数430。
- Groove MIDI Dataset
- ドラム音源のデータセット。
- 8割プロで構成された総勢10名のドラマーによる音源が収録されており、総収録時間は13.6時間、MIDIファイル数は1150にもなる。
- 声優統計コーパス
- 独自に構築された音素バランス文を、プロの女性声優3名が読み上げたものを録音したコーパス。
- 3パターンの感情(通常・喜び・怒り)での読み上げが含まれる。48kHz/16bitのWAVファイルで、総長約2時間、総ファイルサイズ720MB。
- JSUT(Japanese speech corpus of Saruwatari Lab, University of Tokyo)
- 日本語テキストと読み上げ音声からなるコーパス。一人の日本語女性話者の発音を無響室で録音。録音時間は10時間で、サンプリングレートは48kHz。
- 常用漢字の音読み/訓読みを全てカバーするといった網羅性だけでなく、旅行ドメインのフレーズといったドメイン特化のものも収録されている。
- 27曲の童謡の歌声データを収録したJUST-song、声真似(音声模倣)のデータを収録したJUST-viも併せて公開されている。
- Speech Commands Dataset
- TensorFlowとAIYのチームから公開された、30種類のYes, No, Up, Downなどといった短い音声による指示/応答を集めたデータセット。総数は65,000。
- このデータセットを利用した音声認識モデルの構築手順が、TensorFlowのチュートリアルとして提供されている。
- The Spoken Wikipedia Corpora
- Wikipediaの記事を読み上げたデータセット。音声と単語の対応、単語と文中語の対応がアノテーションされている(単語がfive, hundredだった場合、文中語の500に対応、など)。
- しかも多言語のデータセットで、英語・ドイツ語・オランダ語が提供されている。
- Common Voice
- Mozillaが公開した、音声認識のためのデータセット。音声データは500時間分、2万人以上から録音という世界で二番目の規模。
- モデルも公開されている: DeepSpeech
- VoxCeleb2: Deep Speaker Recognition
- 6112名の著名人の、100万発話を収集したデータセット。収集は、顔認識のモデルを使いほぼ自動で行われている。
- 具体的には、VGGFace2に登録されている著名人のインタビュー動画をYoutubeからダウンロードし(人名+interviewで検索しダウンロード)、動画中の顔を認識+話者推定(音声と唇の動きから推定するSyncNetを使用)を行い該当箇所の音声を切り出すという手法。
- AVSpeech: Audio Visual Speech dataset
- YouTubeの講義動画などから収集した、15万人以上、4700時間分の明瞭な発話及び話者動画データセット。
- 1つの動画は3~10秒からなり、単一の話者の顔が映りこんでいてかつ背景の雑音がない明瞭な音声のものが選ばれている。
- NSynth Dataset
- 1006の楽器による単音が30万ほど収録されているデータセット
- Yamaha e-Piano Competition dataset
- 公式にデータセットとして配布されているわけではないが、YAMAHAのジュニアコンペティションで実際に演奏されたピアノのMIDIデータが公開されている。Performance RNNで使用されていたデータセット。
- The Largest MIDI Collection on the Internet
- 公開されているMIDIデータを収集した大規模なデータセット(※もちろん有料なコンテンツは含まれない)。
- ポップ、クラシック、ゲーム音楽など多彩なジャンルで構成されており、総ファイル数13万・約100時間分のデータとなっている。
- Tronto大学のSong From PIで使用されたデータセット
- The MagnaTagATune Dataset
- MUSDB18 dataset
- 音源分離を行うためのデータセット。マルチトラックのmp4でエンコードされており、0がAll track、1がトラム、2がバス、3がその他楽器、4がボーカルに割り振られている。
- 学習用に100曲、テスト用に50曲が提供されている。
- The NES Music Database
- ファミコンのゲーム楽曲を収録したデータセット。397タイトルの計5278曲が含まれる。
- アセンブリから楽曲再生にかかわる部分を抽出し(いいのか?)、MIDIを始めとした扱いやすい形式に変換している。制限された音階/楽器をうまく組み合わせているので、学習に良いとのこと。
- grocery-shopping-2017
- Instacartという食品のオンラインショップの購買データのデータセットが公開。時間のデータも、時間(0~24時)だけながら利用可能。
- 気象庁:過去の気象データ
- 地点毎になるが(複数選択可能)、過去の気象データをCSV形式でダウンロードできる。
- Global Terrorism Database
- 1970~2016年(なぜか2013年だけない)の間の世界で発生したテロ事件のデータセット。その数17万件。
- STARTというテロ対策を研究する団体がメンテナンスを行っており、特徴量として発生した場所や犯人や手口などが含まれている。
- THE STANFORD OPEN POLICING PROJECT
- スタンフォードが取り組んでいる、法的機関(警察)による交通取り締まりのオープンデータプロジェクト。
- データには、違反日時や場所、ドライバーの年齢や性別などが記録されている(Jupyterのサンプルも公開されている)。
- Microsoft/USBuildingFootprints
- Microsoftが公開した、アメリカの50の州における建物のfootprint(建物の占有領域をセグメンテーションしたようなもの)データ。OpenStreetMapをベースに作成されている。
- Microsoftはこのデータを利用して、セグメンテーション=>ポリゴン化を行う研究を行っている。
- DataShop
- Pittsburgh Science of Learning Centerが公開している、教育用ソフトと生徒とのインタラクションデータ
- 350を超えるデータセットが公開されている。
- eQuake-RC
- これまで発生した地震のデータセット。アップロードによる更新も可能(ただMatlab形式)。
- 東日本大震災・熊本地震も含まれており、日本の研究者によりきちんと更新されている。
- Googleがこちらのデータを使用し地震発生後の余震を予測しようと試みている。
- センター試験XMLデータ
- 東ロボプロジェクトで使用されたデータセット。各教科のテスト問題が、XML形式で収録されている。
- ただ、著作権の問題からか国語の問題、またいくつかの科目での画像が含まれない。
- CRCNS - Collaborative Research in Computational Neuroscience
- 脳の神経活動を記録したデータセットの公開サイト。
- MoleculeNet
- MoleculeNetという、新薬発見のための分子・分子物理・生体物理・生体?という4種類のデータを包含したデータセットが公開。
- DeepChemという化学特化のライブラリに組込済
- Tox21
- 化学化合物の構造からその毒性(toxic effects)を推定するタスクのためのデータセット。化合物数は12,000、毒性は12の毒性についての値が用意されている。
- QM dataset
- 有機分子を収録したGDBというデータセットのサブセットとしてリリースされているデータセット(※GDBに収録されている分子はどんどん増加しており 、GDB-13では10億、GDB-17では1660億ととんでもない数になっている)。
- QM7: 原子数23の分子に制限したデータセット(総分子数は7165)。13の特性をデータに足したQM7bもある。
- QM8: CONF(炭素・酸素・窒素・フッ素)原子8つまでで構成される、合成しやすい有機分子20,000の特性が収録されたデータセット。
- QM9: CHONF(炭素・水素・酸素・窒素・フッ素)で構成される13万の有機分子の特性が収録されたデータセット。
- Alchemy Dataset
- 有機化合物のデータセットが公開。収録分子数はQM9とほぼ同程度だが、構成原子の種類として硫黄(S)/塩素(CI)などが追加されている。
- dSPP: Database of structural propensities of proteins
- タンパク質(アミノ酸の鎖のベクトル)から構造的傾向スコア(structural propensity score)を予測するためのデータセット。
- Kerasから使うためのユーティリティも提供されている(dspp-keras)。
- SARD Dataset
- SARD(Software Assurance Reference Dataset)にて提供されている、ソフトウェアの脆弱性を検証するためのデータセット
- 脆弱性を含むC/Javaのコードなどが提供されている
- PHP Security vulnerability dataset
- PHPのアプリケーションの脆弱性(CVEのIDなど)と、そのコードから抽出された機械学習で利用する特徴量のデータセット。PHPアプリケーションはPHPMyAdmin、Moodle、Drupalの3点
- Passwords
- パスワードの辞書、またこれまでにサイトから流出したパスワードのデータセットがダウンロードできる
- EMBER: Endgame Malware BEnchmark for Research
- 悪意あるWindowsのPortable Executable file(PE file)を検知するためのデータセット。件数は100万近くあり、特徴抽出済み。
- 特徴抽出のスクリプトは公開されており、このため自分で集めたデータで拡張することが可能。
- GoGoD
- プロの囲碁棋士の対局データセット。85,000局分が含まれており、お値段は15USD
- wangjinzhuo/pgd
- プロの囲碁棋士の対局データセット。GitHub上でフリーで公開されており、約25万局が収録されている。
- TorchCraft/StarData
- StarCraftのプレイデータ。約6万5千プレイ、フレーム数にして15億(!!)という大規模なデータセット。
- kaggle
- データ解析のコンペティションサイト。モデルの精度を競い合うことができ、データも提供されている。Kaggle Datasetsでデータの検索、また公開もできるようになった。
- NLP-progress
- 自然言語処理の各タスクにおける、精度のランキングをまとめたサイト(リポジトリ)。
- 各タスクでベンチマークとして使用されているデータセットもまとまっている。
- 人文学オープンデータ共同利用センター
- 日本の古典(徒然草や源氏物語)の書籍画像、また本文テキストなどのデータを公開しているサイト。中にはレシピ本などの面白いものもある。
- 機械学習への応用をきちんと想定しており、古文字の画像認識用データセットなども公開している。
- 国立情報学研究所
- 日本国内で公開されているデータセットはたいていここを見れば手に入る。ただ研究用途のみで申請書が必要。
- Harvard Dataverse
- ハーバード大学が公開している研究データのセット。自然音のクラス分類のデータ(ESC)などがある。
- UC Irvine Machine Learning Repository
- 機械学習のためのデータセットを集めているサイト。
- Microsoft Research Open Data
- Microsoftが公開したオープンデータを検索、ダウンロードできるサイト。Azure連携機能があり、選択したデータセットをすぐに配置可能。
- 20 Weird & Wonderful Datasets for Machine Learning
- 機械学習で使えるデータセットのまとめ集。UFOレポートとか面白いデータもある。
- 自然言語/音声認識学習用データのまとめ
- Microsoft Azure Marketplace
- NFLの試合結果や人口統計など、様々なデータが提供されている(有料なものもあるたが、無料も多い)。
- ikegami-yukino/dataset-list
- 日本語・英語のテキストコーパスのまとめ
- beamandrew/medical-data
- 機械学習のための化学系のデータセットのまとめ
- Web Technology and Information Systems
- Web Technology and Information Systemsの研究で使用されたコーパス集
- niderhoff/nlp-datasets
- 自然言語系のデータセットがまとめられたページ。更新も割と行われている。
- The Extreme Classification Repository: Multi-label Datasets & Code
- 多量のラベルを予測するExtreme Classificationにおけるデータセットをまとめたページ(EURLexやAmazonCat、Wiki10など)。データセット以外に、代表的手法の性能評価や実装へのリンクがある。
- Google Dataset Search
- Googleが公開するデータセットを検索するためのサービス。
- ヒューマンコンピュテーションとクラウドソーシング
- Crowdsourcing (for NLP)
- データを集めるのに欠かせない、クラウドソーシングの活用方法についての記事。クラウドソーシングに向いているタスク、信頼性担保の方法、料金についてなど実践的な内容が紹介されている。
- Natural Language Annotation for Machine Learning
- バッドデータハンドブック ―データにまつわる問題への19の処方箋
- ガラポン
- APIでテレビの字幕のデータを取ることができるらしい