📚

データセットのまとめ

2021/08/06に公開
2

データセットまとめ

このページと同じように、データセットをまとめているところ。もうここにリンク貼って終わりで良い気もする。

https://qiita.com/hiro6000/items/27e0847e729a703915c4

https://github.com/arXivTimes/arXivTimes/blob/master/datasets/README.md

https://qiita.com/peisuke/items/cc8c8141a7520c4df629

https://medium.com/towards-artificial-intelligence/50-object-detection-datasets-from-different-industry-domains-1a53342ae13d

https://ainow.ai/2020/03/02/183280/

https://qiita.com/leetmikeal/items/7c0d23e39bf38ab8be23

https://qiita.com/ulwlu/items/90dd8d79b12e10606299

https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/

検索サイト

https://datasetsearch.research.google.com/

https://data.world/

その他のデータセット

上記のまとめに無いようなもので、目についたもの、学習させたら面白そうなものを列挙

selfie-to anime

自撮りとアニメ顔の変換用データセット

https://drive.google.com/file/d/1xOWj1UVgp6NKMT3HbPhBbtq2A4EDkghF/view

https://karaage.hatenadiary.jp/entry/2019/08/26/073000

道路

https://github.com/YushengWHU/Railroad-dataset

遊戯王

遊戯王カードのデータ

https://www.kaggle.com/tathor/yugioh-trading-cards-dataset

https://qiita.com/toyotomihideyoshi/items/30cad2e6fe7fd40cf81a

ニコニコ

ニコニコ動画関係のデータセット

https://qiita.com/shibacow/items/03a30b5cdc6aea0363c4

植物・農作物

農作物関連のデータセット

https://github.com/pratikkayal/PlantDoc-Object-Detection-Dataset

https://github.com/pratikkayal/PlantDoc-Dataset

https://karalog.hatenablog.com/entry/2020/05/26/190000

https://github.com/thsant/wgisd

https://karalog.hatenablog.com/entry/2019/08/03/001849

じゃんけんデータセット

自分の手の写真

https://github.com/karaage0703/janken_dataset

拙作「からあげ先生のとにかく楽しいAI自作教室」にて題材(教師データ)として使用しています。
https://karaage.hatenadiary.jp/entry/2020/12/11/073000

荷物

SCD: A Stacked Carton Dataset for Detection and Segmentation

https://github.com/yancie-yjr/scd.github.io

LLM

https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/

https://github.com/jungokasai/IgakuQA

マルチモーダル
https://github.com/mizuumi/JDocQA

https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C3-5.pdf

https://bwgift.hatenadiary.jp/entry/2024/09/16/142317

https://github.com/CyberAgentAILab/camera

https://zenn.dev/turing_motors/articles/23df51c37967f0

https://tech-blog.abeja.asia/entry/abeja-cc-ja-202409

https://zenn.dev/matsuolab/articles/fe852d50ad69ff

https://note.com/masayuki_abe/n/nf98f4c83ac2f

https://github.com/openai/mle-bench

https://x.com/icoxfog417/status/1844524222921761073

Hugging Face

https://huggingface.co/datasets/kanhatakeyama/SyntheticTextOpenMathInstruct

https://huggingface.co/datasets/hatakeyama-llm-team/AutoGeneratedJapaneseQA

https://huggingface.co/datasets/watashihakobashi/ogiri

https://huggingface.co/datasets/bbz662bbz/databricks-dolly-15k-ja-gozaru

まとめ

雑にデータセットをまとめています。

面白そうなマニアックなデータセットご存知の方はコメントください。

変更履歴

  • 2024/06/14 LLMに関して追記
  • 2024/05/07 微修正

Discussion

チャアーハンチャアーハン

こんにちは。面白そうなの1つ見つけたので記載します。
浮世絵データセット

http://codh.rois.ac.jp/ukiyo-e/face-dataset/

からあげさんはデータセット探す時にどうやって探していますか?
(かなり受け身の探し方ですと、Qiitaやtwitterでのバズり待ちとか…)

karaage0703karaage0703

チャアハーンさん
コメントありがとうございます!
実はデータセットはあんまり探したことないです。なので目についたやつをここにメモしている感じです。