多変量解析・機械学習の勉強に役立ちそうな無料(フリー)のデータセットへのリンク集です。
・UNdata(国連のデータ検索システム)
※「Datamarts」から種々のデータを探せる。
・e-Stat(日本の政府統計の総合窓口)
※世界各国を比較するには「世界の統計」からデータを入手可能
※日本の都道府県や市町村を比較するには「社会・人口統計体系」(統計でみる都道府県のすがた/統計でみる市区町村のすがた)からデータを入手可能
・e-Govデータポータル(デジタル庁)
※行政機関等が保有・公開しているオープンデータを組織横断的に整備したカタログ
・SSDSE(独立行政法人統計センター提供の教育用標準データセット)
※主要な公的統計を、データ分析の教育用素材として、利用しやすい形に整理し提供
・愛媛県オープンデータカタログ(愛媛県の公式サイト)
・松山市オープンデータサイト(愛媛県松山市の公式サイト)
・Data.gov(アメリカ合衆国連邦政府のオープンデータ提供サイト)
・SCB(スウェーデン統計庁)
※スウェーデンは世界で最も古くから人口統計を継続的に調査
※SCBのデータの可視化の例は、「資料」の「データサイエンス・リテラシー教材」のスライド(DataVL.pdf)参照
・NPB(一般社団法人日本野球機構の公式サイト)
※「成績・記録」「年度別成績」などから、種々のデータを入手可能
・パ・リーグ.com(プロ野球パ・リーグ6球団出資のパシフィックリーグマーケティング株式会社が運営)
※「順位表・成績」にある「詳細を見る」というアイコンをクリックすると、2005年以降の詳細なデータを入手可能
・MLB.com(アメリカのプロ野球メジャーリーグの公式サイト)
※「STATS」から、種々のデータを入手可能
・NCAA(全米大学体育協会)
※「Statistics」から、全米の種々の大学スポーツに関するデータを入手可能
・Kaggle(Google傘下のデータサイエンス・機械学習のコミュニティ)
※データセットはこちら(Googleアカウントなどで利用登録すれば無償でデータをダウンロード可)
・Machine Learning Repository(カリフォルニア大学アーバイン校)
・The R Datasets Package(スイス連邦工科大学チューリッヒ校)
※R言語のDatasets Packageに、どんなデータが収録されているかの一覧
・DASL - The Data And Story Library(Data Description社)
※Paul F. Velleman氏(コーネル大学名誉教授)が創設
・John Burkardt氏のコレクション(フロリダ州立大学)
※回帰分析用のデータはこちら
※クラスタリング用のデータはこちら
・OzDASL - Australasian Data and Story Library
※Walter and Eliza Hall Institute of Medical ResearchのGordon K. Smyth氏が運営
・Larry Winner氏のコレクション(フロリダ大学)
※回帰分析用のデータなど