AWS、ライフサイエンスやマシンラーニングなど19のパブリックデータセットを追加

AWSは10月16日(米国時間)、AWSが提供するパブリックデータセットサービス「AWS Public Datasets」に19の新しいデータセットを追加したことを発表しました。追加された分野はライフサイエンス、マシンラーニング、環境、シビック、サイバーセキュリティ、マルチメディアなど多岐に渡ります。

注目されるのはFacebookの創業者であるマーク・ザッカバーグ(Mark Zuckerberg)夫妻が設立した非営利団体「Chan Zuckerberg Biohub」から提供された「Tabula Muris」で、モデル生物であるハツカネズミ(Mus musculus)の20の器官/組織から採取した10万以上の細胞を解析した単一細胞トランスクリプトミクスデータの総覧。データはすでにAmazon S3に最適化されており、誰でも無料で利用可能です。

そのほかにもアラスカ大学の「International Arctic Research Center」によるアラスカの天候データや、fast.aiによるマシンラーニング関連のデータセット(画像分類、イメージローカリゼーション、自然言語処理、COCO)などが含まれています。

人工衛星「Landsat 8」による地球観測データやヒト遺伝子のマッピングデータ、国勢調査データなど、AWSは2008年からEC2インスタンスから簡単に使える膨大な量のパブリックデータセットを無料で公開しており、世界中のさまざまな分野の研究者が利用しています。ユーザにはアプリケーションに使用したEC2やS3の料金のみが課金されます。質/量ともに一気に拡充した今回のアップデートにより、さらに多くの分野での研究が進むことはまちがいなさそうです。