🆒

Claude VS deepseek on Cool Cline ~ 2つの生成性能を比べてみた

2025/01/17に公開

前回の記事の続きです。
https://zenn.dev/ken_5/articles/51c88566e14a24

Claude VS deepseek on Cool Cline ~ 2つの性能を比べてみた

はじめに

前回の記事でdeepseekとclaude 3.5 sonnetで同じ設計書からコーディングしてもらいました。
結果の比較を行おうと思います。

Claudeが設計書にどれだけ忠実に作っているかのチェック

前回の記事では採点しなかったClaudeが設計書に沿っている程度の採点結果です

長くなったので、気になる人は開いてみてみてください

Todoリスト画面 (ListView)

画面項目利用状況

画面項目 存在するか
ヘッダー OK
タスク検索ボックス OK
フィルタ機能 OK
ソート機能 OK
新規タスク入力欄 OK
新規タスク「+」追加ボタン OK
タスク一覧 ( カード/リスト) OK
フッター OK

処理利用状況

処理項目 存在するか
バリデーションチェックとエラーメッセージ OK
処理フロー OK

「文字列の長さが 50 文字を超えないように制限」という要件があるのにエラーメッセージがあるのは、そもそも設計書が矛盾している。失敗した、ちゃんと設計書をレビューしておけば良かった。

その他指摘点

タグ登録時に設定した色が反映されていない。しかし、設計書に明記されていないので減点対象とはしませんでした。

合計

OK : 10件
NG : 0件
全部OK!


タスク登録・編集画面 (EditView)

登録画面がない!!!

設計書にはタスク登録・編集画面と書いてあること、タスク一覧画面には登録画面への遷移元がない。
このことから、Claudeはタスク登録画面を書いてくれませんでした。
設計書の不備です
汲んでくれるというより、しっかり従ったと見るべきでしょう。
編集画面はちゃんと書いてくれましたので、そちらは採点しましょう。

画面項目利用状況

画面項目 存在するか バリデーション エラーメッセージ
タスクタイトル欄 OK OK ( *1 ) NG指定と違う
タスク詳細欄 OK OK ( *1 )
優先度 OK
タグの選択 OK
期日 (dueDate) OK OK ( *1 ) NG指定と違う
完了/未完了チェックボックス OK
保存ボタン OK
キャンセルボタン OK

( *1 )指定文字数以上入力させないようになっているので、エラーを出していないケースあり

処理利用状況

処理項目 存在するか
処理フロー OK

合計

OK : 12件
NG : 2件

エラーメッセージだけ設計書と違いました。
バリデーション自体は動いていました。


タグ管理画面 (TagsView)

画面項目利用状況

画面項目 存在するか バリデーション エラーメッセージ
ヘッダー OK
新規タグ入力欄 OK OK OK
新規タグ追加ボタン OK
タグ一覧 OK
タグ編集モーダル OK OK OK
フッター OK

処理利用状況

処理項目 存在するか
処理フロー OK

合計

OK : 11件
NG : 0件
全部OK!


統計・レポート画面 (StatsView)

画面項目利用状況

画面項目 存在するか バリデーション エラーメッセージ
ヘッダー OK
完了タスク数 OK
優先度別タスク数 OK
タグ別タスク数 OK
期日別カレンダー表示 OK
フッター OK

フッターはタスク一覧の時からなかったが、
期日別カレンダー表示もなかった。

処理利用状況

処理項目 存在するか
初期表示 OK
フィルタ ( オプション) オプションとしたためか、機能はなし
エラーケース NG。実装されていない

タスクが存在しない場合: 「登録されているタスクがありません」などのメッセージ表示
というエラーケースは実装されていなかった。

合計

OK : 7件
NG : 1件
エラーケース未実装が1つ。

生成物も見れるようにしておきました。

Claudeの成果物はこちらのリンクから見れます

deepseekの成果物はこちらのリンクから見れます

Claudeとdeepseekの採点結果を画面ごとに比較!

Todoリスト画面 (ListView)

画面項目

項目 Claude deepseek
ヘッダー OK OK
タスク検索ボックス OK OK
フィルタ機能 OK NG
ソート機能 OK NG
新規タスク入力欄/「+」追加ボタン OK OK
タスク一覧 (カード/リスト) OK OK
フッター OK NG

処理

項目 Claude deepseek
バリデーションチェックとエラーメッセージ OK OK
処理フロー OK NG 画面項目不足により、不足

コメント

deepseekはタグの色をタグ登録画面で設定した色を反映してくれました。
claudeは反映してくれませんでした。
これは設計書に明記していないことが原因かと思われます。
claudeは設計書にしっかり従ったと見るべきでしょう。
一方、deepseekは汲んでくれたと見るべきでしょう。


タスク登録画面

項目 Claude deepseek
タスク登録画面の有無 ない ある

コメント

設計書にはタスク登録・編集画面と書いてあること、タスク一覧画面には登録画面への遷移元がない。
このことから、Claudeはタスク登録画面を書いてくれませんでした。タスク編集画面は書いてくれました。
設計書の不備です
claudeは設計書にしっかり従ったと見るべきでしょう。
一方、deepseekは汲んでくれたと見るべきでしょう。


タスク編集画面 (EditView)

画面項目

項目 Claude deepseek
タスクタイトル欄 OK OK
タスク詳細欄 OK OK
優先度 OK OK
タグの選択 OK OK
期日 (dueDate) OK OK
完了/未完了チェックボックス OK NG
保存ボタン OK OK
キャンセルボタン OK OK

処理

項目 Claude deepseek
バリデーションチェックとエラーメッセージ OK(*1) OK(*1)
処理フロー OK OK

タグ管理画面 (TagsView)

画面項目

項目 Claude deepseek
ヘッダー OK OK
新規タグ入力欄 OK OK
新規タグ追加ボタン OK OK
タグ一覧 OK OK
タグ編集モーダル OK OK
フッター OK NG

処理

項目 Claude deepseek
バリデーションチェック OK(*1) OK(*1)
エラーメッセージ NG NG
処理フロー OK OK

(*1)


統計・レポート画面 (StatsView)

画面項目

項目 Claude deepseek
ヘッダー OK OK
完了タスク数 OK OK
優先度別タスク数 OK OK
タグ別タスク数 OK OK
期日別カレンダー表示 OK NG
フッター OK NG

処理

項目 Claude deepseek
初期表示 OK OK
エラーケース NG 実装されていない NG 実装されていない

Claudeとdeepseekの採点結果の比較まとめ

画面 Claude deepseek
Todoリスト画面 OK: 7 NG: 0 OK: 4 NG: 3
タスク登録画面 ない ある
タスク編集画面 OK: 9 NG: 0 OK: 8 NG: 1
タグ管理画面 OK: 8 NG: 1 OK: 7 NG: 2
統計・レポート画面 OK: 7 NG: 1 OK: 5 NG: 3
合計 OK: 31 NG: 2 OK: 24 NG: 9

合計

  • Claude
    • OK : 31
    • NG : 2
  • deepseek
    • OK : 24
    • NG : 9

参考資料:それぞれの生成にかかったコスト

  • deepseek

    • Tokens: ↑1.8M ↓2.3K
    • API Cost: $0.2613(執筆時 約41円)
  • Claude

    • Tokens: ↑ 17 ↓ 16.2k
    • Cache: +112.1k → 520.3k
    • API Cost: $0.82(執筆時 約128円)

まとめ

  • Claude 3.5 sonnetの方がよく従ってくれた
  • deepseekは設計書に明記しなかったが、設計書の関連性から明記されていないけど汲んで2つ機能を作ってくれた

メリット・デメリット

Claude

  • メリット
    • 結構設計書に従ってくれる
    • コーディング品質も高い(前回の記事参照)
  • デメリット
    • API料金が高い。deepseekの3倍かかった。
    • 設計書に忠順なので、設計書に不備があると生成物にかなり影響する**

deepseek

  • メリット
    • API料金が安い。claudeと3倍違う。
    • 設計書に明記していないことも汲んでくれることがある。
  • デメリット
    • 設計書に従う度がclaudeよりは低い
    • コーディング品質がclaude比だと低い(前回の記事参照)

所感

Claudeは設計書にしっかり従ってくれました。
なので、設計書の完成度が生成物に露骨に影響しそうです。
一方、deepseekは汲んでくれることがあるので、設計書の不備もある程度汲んでくれそうです。

クオリティ的にはClaudeを使いたいですが、Claudeで色々生成していたら2日で$5使い切ってしまったので、やはりお財布にきついです😭😭😭
deepseekを使っていきたいところですが、フロント画面のデザイン性はClaudeが好きなので、要使い分けになりそうです。


XでもAI情報を発信しています。
長くならないことは大体Xで発信します。

よかったらフォローお願いいたします⭐️
Xはこちら

Discussion