Closed10
csvからsquad 2.0形式への変換プログラムの逆変換の実装について考えてみる
これに逆変換を機能を追加できないか考えてみる。-r
オプションとかで良いかな。
順方向の変換の使い方について
今回はここのDev Set(v2.0)を変換と逆変換できることを目標にする。
前回は運転ドメインQAデータセットで変換を確認していた。このデータはis_impossible
がfalseなものしかなかった。
本家のほうはis_impossible
がtrueの場合、answers
が空配列で、plausible_answers
がそのときのみ出てくる。今回はこれも考慮して、逆変換まで作る。
Dev Setの中を見るとところどころ35\\u00b0 48\\u2032 27\\u2033
みたいになってる。Pythonでは、どちらでも良さそうだけれども、これも再現させる。面倒なのはWhat lies at 37\\u00b0 8' 59.23
みたいな、中途半端なのが混ざってる。
とりあえず、Dev Setは変換できそうなのが出来た。
JSONの比較はjq
コマンドを使う
brew install jq
比較方法
diff -u <(jq -S . a.json) <(jq -S . b.json)
色々直して、Dev Set(v2.0)については一致
動作確認。これで差分がでなければOKということで。
$ curl -OL https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v2.0.json
$ csv2squad2 -r -i dev-v2.0.json
$ csv2squad2 -i out.csv
$ diff -u <(jq -S . dev-v2.0.json) <(jq -S . out.json)
このスクラップは2021/09/26にクローズされました