🐑
AI Mathematical Olympiad - Progress Prize 1まとめ
コンペの概要
AI Mathematical Olympiad - Progress Prize
-
2024/04/02から開催されているNLP(LLM)コンペ
-
Latex形式で書かれた難しい数学の問題を解決できるアルゴリズムとモデルを作成することが本コンペの目標。
-
評価方法は予測されたラベルと正解ラベルの間の正確さである。予測されたラベルが正解ラベルと正確に一致する割合によってランク付けされる。(正解ラベルは0から999までの整数をとる。)
-
タイムライン
- 2024年4月1日: コンペ開始
- 2024年6月20日: エントリー締め切り、チーム合併締め切り
- 2024年6月27日: 最終提出締め切り
データ
-
AIMO Prize - Note on Language and Notation.pdf
問題に使用される表記方法が記載されている。pdfの内容
- 確立された数学的表記法を用いる。
- 集合表記ではコロン(
)や縦線(; )を区切り文字として使うことがある。| \lbrace x \vert x \in Z, x \gt 0 \rbrace = \lbrace y : y \in Z, y \gt 0 \rbrace. - 床関数と天井関数の表記法は、xが実数の場合
同様に\lfloor x \rfloor = \max \lbrace z \vert x \in \mathbb{Z}, z \leqq x \rbrace. \lceil x \rceil = \min \lbrace z \vert x \in \mathbb{Z}, z \leqq x \rbrace. - 分数表記。
が実数の場合x は\lbrace x \rbrace を意味するものと定義する。x - \lfloor x \rfloor - 10進数表記で書かれた非負の整数の上に線を描くのは、それが数ではなく数字の羅列とみなされていることを示すためである。したがって
の2桁目の数は7だが、1729は整数のため2桁目の数をもたない(オーバーラインのことだと思うがこの文脈とは合わない気がする。)\overline{1729} - xは3桁の正の整数であるという表現は、アラビア語表記で
、x = a_ma_{m-1} \cdots a_1 は全ての桁にあり、a_i であれば、a_m \neq 0 となることを意味する。n桁の数の和とは、nを10進数表記で書き、その桁を合計することを意味する。n = m - ある点が区間
内で一様に選ばれるような非公式な確率言語を許容する。[0, 1] -
を\begin{pmatrix} n \\ r \end{pmatrix} 個からn 個のものを選ぶ方法の数を表すのに使う。r - 空集合の和は
であり、空集合の積は0 となる。1 - 省略記号は、印刷の線上または線中(適切な場合)にある明らかなパターンを示すために使用する。なので最初の
個のせいの整数の集合はn ように書け,その和は\lbrace 1, 2, \cdots, n \rbrace と書ける。1 + 2 + \cdots + n . - 整数
に対してl, m, n はl^{m^n} を表すl^{(m^n)} - 組み合わせを列挙するのであればすべての整数(0を含む)mに対して
である。m^0 = 1 が実数の場合x であれば、x = 0 を明確にする必要がある。x^0
13.イギリス英語またはアメリカ英語が使われる。したがって"highest common factor"と"greatest common factor"は同じ最大公約数という意味である。 - 頂点に関連する三角形の特徴を示すために、接頭辞や添え字が使われることがある。従って、三角形
には3つの高度があり、ABC から下がったものは、A を通る高度、A 高度、または高度A と表すことができる。中央線も同様である。h_a
15.もし自然数という用語が使われるなら、0が自然数であるかどうかは明らかにされるだろう -
は「左辺を右辺の式で定義する」ことを指す。:=
-
train.csv
10個の問題が含まれている訓練データ -
test.csv
50問の問題が含まれているが、ここに表示されている問題はプレースホルダーであり、スコアリング時に実際の問題セットにアクセスできる -
sample_submisson.csv
コンペの取り組み方について
- 問題文から回答を作成するLLMモデルを利用する?
Latex形式で学習させればよいのか?何か別のファイル形式で学習させるべきかは検討すべき。 - 2024/04/16現在の上位解法ではDeepSeekMathを事前学習モデルとしている。
- コンペで提供されているデータセット数が少ないが、
Discussionで外部データセットが公開されている。
外部データセット
外部データセット数の数が莫大なのとGPUゲーになるとなかなかしんどい、、、 -
DiscussionでDeepSeekMath以外のLLMモデルについても議論されている。
複数のLLMモデルからアンサンブル学習?
今後について
とりあえずベースラインの作成します。
過去のLLMコンペKaggle - LLM Science Examの上位解法も参考にしていこうと思います。
Discussion