データセット

多変量解析・機械学習の勉強に役立ちそうな無料(フリー)のデータセットへのリンク集です。

国際機関・政府・自治体の統計データ

UNdata(国連のデータ検索システム)

 ※「Datamarts」から種々のデータを探せる。

e-Stat(日本の政府統計の総合窓口)

 ※世界各国を比較するには「世界の統計」からデータを入手可能

 ※日本の都道府県や市町村を比較するには「社会・人口統計体系」(統計でみる都道府県のすがた/統計でみる市区町村のすがた)からデータを入手可能

e-Govデータポータル(デジタル庁)

 ※行政機関等が保有・公開しているオープンデータを組織横断的に整備したカタログ

SSDSE(独立行政法人統計センター提供の教育用標準データセット)

 ※主要な公的統計を、データ分析の教育用素材として、利用しやすい形に整理し提供

愛媛県オープンデータカタログ(愛媛県の公式サイト)

松山市オープンデータサイト(愛媛県松山市の公式サイト)

Data.gov(アメリカ合衆国連邦政府のオープンデータ提供サイト)

SCB(スウェーデン統計庁)

 ※スウェーデンは世界で最も古くから人口統計を継続的に調査

 ※SCBのデータの可視化の例は、「資料」の「データサイエンス・リテラシー教材」のスライド(DataVL.pdf)参照

スポーツデータ

NPB(一般社団法人日本野球機構の公式サイト)

 ※「成績・記録」「年度別成績」などから、種々のデータを入手可能

パ・リーグ.com(プロ野球パ・リーグ6球団出資のパシフィックリーグマーケティング株式会社が運営)

 ※「順位表・成績」にある「詳細を見る」というアイコンをクリックすると、2005年以降の詳細なデータを入手可能

MLB.com(アメリカのプロ野球メジャーリーグの公式サイト)

 ※「STATS」から、種々のデータを入手可能

NCAA(全米大学体育協会)

 ※「Statistics」から、全米の種々の大学スポーツに関するデータを入手可能

大学・企業等が運営するサイト

Kaggle(Google傘下のデータサイエンス・機械学習のコミュニティ)

 ※データセットはこちら(Googleアカウントなどで利用登録すれば無償でデータをダウンロード可)

Machine Learning Repository(カリフォルニア大学アーバイン校)

The R Datasets Package(スイス連邦工科大学チューリッヒ校)

 ※R言語のDatasets Packageに、どんなデータが収録されているかの一覧

DASL - The Data And Story Library(Data Description社)

 ※Paul F. Velleman氏(コーネル大学名誉教授)が創設

研究者によるサイト

John Burkardt氏のコレクション(フロリダ州立大学)

 ※回帰分析用のデータはこちら

 ※クラスタリング用のデータはこちら

OzDASL - Australasian Data and Story Library

 ※Walter and Eliza Hall Institute of Medical ResearchのGordon K. Smyth氏が運営

Larry Winner氏のコレクション(フロリダ大学)

 ※回帰分析用のデータなど

▲このページのトップへ