🐑

AI Mathematical Olympiad - Progress Prize 1まとめ

2024/04/16に公開

コンペの概要


AI Mathematical Olympiad - Progress Prize

  • 2024/04/02から開催されているNLP(LLM)コンペ

  • Latex形式で書かれた難しい数学の問題を解決できるアルゴリズムとモデルを作成することが本コンペの目標。

  • 評価方法は予測されたラベルと正解ラベルの間の正確さである。予測されたラベルが正解ラベルと正確に一致する割合によってランク付けされる。(正解ラベルは0から999までの整数をとる。)

  • タイムライン

    • 2024年4月1日: コンペ開始
    • 2024年6月20日: エントリー締め切り、チーム合併締め切り
    • 2024年6月27日: 最終提出締め切り

データ

  • AIMO Prize - Note on Language and Notation.pdf
    問題に使用される表記方法が記載されている。

    pdfの内容
    1. 確立された数学的表記法を用いる。
    2. 集合表記ではコロン(;)や縦線(|)を区切り文字として使うことがある。\lbrace x \vert x \in Z, x \gt 0 \rbrace = \lbrace y : y \in Z, y \gt 0 \rbrace.
    3. 床関数と天井関数の表記法は、xが実数の場合\lfloor x \rfloor = \max \lbrace z \vert x \in \mathbb{Z}, z \leqq x \rbrace. 同様に\lceil x \rceil = \min \lbrace z \vert x \in \mathbb{Z}, z \leqq x \rbrace.
    4. 分数表記。xが実数の場合\lbrace x \rbracex - \lfloor x \rfloorを意味するものと定義する。
    5. 10進数表記で書かれた非負の整数の上に線を描くのは、それが数ではなく数字の羅列とみなされていることを示すためである。したがって\overline{1729}の2桁目の数は7だが、1729は整数のため2桁目の数をもたない(オーバーラインのことだと思うがこの文脈とは合わない気がする。)
    6. xは3桁の正の整数であるという表現は、アラビア語表記でx = a_ma_{m-1} \cdots a_1a_iは全ての桁にあり、a_m \neq 0であれば、n = mとなることを意味する。n桁の数の和とは、nを10進数表記で書き、その桁を合計することを意味する。
    7. ある点が区間[0, 1]内で一様に選ばれるような非公式な確率言語を許容する。
    8. \begin{pmatrix} n \\ r \end{pmatrix}n個からr個のものを選ぶ方法の数を表すのに使う。
    9. 空集合の和は0であり、空集合の積は1となる。
    10. 省略記号は、印刷の線上または線中(適切な場合)にある明らかなパターンを示すために使用する。なので最初のn個のせいの整数の集合は\lbrace 1, 2, \cdots, n \rbraceように書け,その和は1 + 2 + \cdots + n .と書ける。
    11. 整数l, m, nに対してl^{m^n}l^{(m^n)}を表す
    12. 組み合わせを列挙するのであればすべての整数(0を含む)mに対してm^0 = 1である。xが実数の場合x = 0であれば、x^0を明確にする必要がある。
      13.イギリス英語またはアメリカ英語が使われる。したがって"highest common factor"と"greatest common factor"は同じ最大公約数という意味である。
    13. 頂点に関連する三角形の特徴を示すために、接頭辞や添え字が使われることがある。従って、三角形ABCには3つの高度があり、Aから下がったものは、Aを通る高度、A高度、または高度h_aと表すことができる。中央線も同様である。
      15.もし自然数という用語が使われるなら、0が自然数であるかどうかは明らかにされるだろう
    14. := は「左辺を右辺の式で定義する」ことを指す。
  • train.csv
    10個の問題が含まれている訓練データ

  • test.csv
     50問の問題が含まれているが、ここに表示されている問題はプレースホルダーであり、スコアリング時に実際の問題セットにアクセスできる

  • sample_submisson.csv

コンペの取り組み方について

  • 問題文から回答を作成するLLMモデルを利用する?
     Latex形式で学習させればよいのか?何か別のファイル形式で学習させるべきかは検討すべき。
  • 2024/04/16現在の上位解法ではDeepSeekMathを事前学習モデルとしている。
  • コンペで提供されているデータセット数が少ないが、
    Discussionで外部データセットが公開されている。
    外部データセット
    外部データセット数の数が莫大なのとGPUゲーになるとなかなかしんどい、、、
  • DiscussionでDeepSeekMath以外のLLMモデルについても議論されている。
    複数のLLMモデルからアンサンブル学習?

今後について

とりあえずベースラインの作成します。
過去のLLMコンペKaggle - LLM Science Examの上位解法も参考にしていこうと思います。

Discussion