Claude CodeとCodex、両方をMCPで繋いで動かしてる話
代表取締役 上坂大地郎
.png&w=3840&q=75)
最近、AIエージェントを2つ並行で動かしてる。Claude CodeとCodex。
正確には、Claude Codeをメインに据えて、CodexをMCP接続でレビュアーとして横に置いてる、っていう構成。設計でも、ブレストでも、経営判断っぽい話でも、最近は基本この2人組で回してる感じになってる。
なんでこうなったのかっていうのと、実際にやってみてどうなのかっていう話を、ちょっと書いておきます。
行ったり来たりした話
もともと僕はClaude Codeから入った人で、まだSkillsとかサブエージェントとか、いまある周辺機能がほとんど出てなかった初期の頃から使ってた。
そこにCodexが出てきたんだよね。最初に触ったとき、「これはすごいぞ」って思った瞬間があって、アウトプットも性能も高くて、もうClaude Codeの時代じゃないんじゃないか、くらいに感じた。
それで「もしかしたら」と思って、一回Claude Codeを離れてCodexにフル乗り換えして、しばらく運用してた時期がある。
ところが、巷で言われてるほど「Claude Codeに比べて格段に良い」とは正直感じられなかった。「うーん…」って思いながら使い続けてた、っていうのが本音。
そうこうしてるうちにClaude Code側がアップデートを重ねて、ちょうどSkillsとか周辺機能が充実してきた頃に「やっぱり開発エージェント系で先行してるのはClaude Codeかな」と感じて、また戻った。完全に浮気症みたいな動き方で、書いてて恥ずかしいんだけど、まあそういう経緯です。
そこからは Skills とサブエージェントと、複数エージェントの連携みたいな新機能をいじり倒すフェーズに入って、しばらくCodexは一切触らなくなってた。
ひとつのモデルだけだと、どこかで詰まる
しばらくClaude Codeだけで回してて気づいたのが、AIエージェントを1つしか使ってないことのデメリット、っていうやつだった。
レビュアーが「自分(人間)」と「Claude Code自身」しかいない、っていう状態になるんだよね。
これって何が問題なのかっていうと、Claude Codeが出してきた答えに対して、自分では粗を見つけられない場面が結構ある一方で、Claude Code自身は自分のアウトプットだから当然「これでいいと思います」って言ってくるわけで。実質、レビューが1人ぶんしか効いてない感じになる。
ハルシネーションをそのまま信じちゃうとか、考え方の得意不得意が露骨に出てるところを見逃すとか、そういう弱点がたまに表に出てくるようになってきた。
特に、システム設計とか経営判断みたいに「白黒つきにくいテーマ」ほど、この弱さが効いてくる気がする。Claude Codeが整理した内容を、別の視点で叩いてくれる相手がいない、っていう状態だから。
ChatGPTにレビューさせてみたら、抜け漏れが普通に見えた
それを感じてから、ちょっと実験的に始めたのが「ChatGPTにレビューさせる」運用だった。
当時のChatGPT(GPT-4.x系)を別タブで開いておいて、Claude Codeで整理した内容をコピペで投げて「これをレビューして」ってお願いする。それを期間限定で続けてみた感じ。
そしたら、意外と抜け漏れが見えてくるんだよね。Claude Code側では出てこなかった指摘が、ChatGPT側から普通に出てくる。「この観点が抜けてない?」とか「この前提、本当に成り立つ?」とか。
これは効くな、と思った。
ただ、毎回コピペで往復するのは普通に面倒くさい。会話の流れも分断されるし、ファイルを直接読んでもらえないので前提共有のコストも高い。
これを仕組み化したいなと思って行き着いたのが、CodexをMCP接続して、Claude Codeから直接レビューを依頼できるようにする構成でした。
流れはシンプルで、まず自分が考えてることをClaude Codeに整理させて、その整理結果をCodexに投げてレビューしてもらう。返ってきた指摘を反映してClaude Codeで書き直して、もう一度Codexに投げる。これをLGTM(Looks Good To Me、問題なし)が出るまで何往復かさせる、っていう運用。
これに落ち着いてから、明らかにアウトプットの精度が一段上がった感触がある。
システムの設計書はもちろん、システム開発以外の領域、たとえばマーケや採用、人事制度、経営判断みたいなテーマでも、まず方向性を整理してCodexに叩いてもらう、っていう流れが標準になった。「いまの考え方、考慮漏れない?」を毎回別モデルに確認してもらえる、っていうのは結構安心感があるんだよね。
最近ハマってるのは、議論から入るやり方
レビュアー運用が安定してきて、最近もう一段先に進んだ使い方が増えてきた。それが「議論から入る」っていうスタイル。
これは特にシステム開発以外でよく使ってる。
何かの議題に対して、僕の方から「自分はこう思ってるんだけど、お前らはどう思う?」って投げる。それを受けてClaude CodeとCodexに、ゼロベースから議論させていく、っていうやり方。
Claude Codeが「こういう整理ができるんじゃないか」って提示する。それをCodexに投げると、「そうだね、ただこの点は抜けてないか?」とか「こういう前提なら別の打ち手もあるよね」みたいな指摘が返ってくる。それを受けてClaude Codeが書き直して、またCodexに投げる。これを何往復かさせると、ちゃんとひとつの案に収束してくるんだよね。
議論の方向性が大きく逸れることはあんまりないんだけど、お互いがアウトプットを叩き合うことで、自然と精度が上がっていく。ブレストの相手が2人いる感覚に近い気がする。
僕がやるのは、最初に議題と自分の現時点の考えを投げることと、議論が収束したあとに「じゃあこれでいくか」って決めることだけ。途中の往復はだいぶ任せても破綻しなくなってきた。
特に、ベストプラクティスを探す系の議論とか、複数の選択肢を並べて優先順位を決める系の議論には、めちゃくちゃ向いてる気がする。
ひとつにこだわらなくていい
ここまで書いてて自分でも思ったんだけど、AIエージェントって別に「どれが一番」を決めて1つに絞らなきゃいけない、っていう類のものでもないんだなと。
得意な領域も、苦手なクセも、モデルごとに結構バラつきがあるから、メインを1つ決めつつ、別のモデルをレビュアーや議論相手として横に置く構成は、わりとどんな業務にも応用できる気がしてる。
もしいまClaude Codeをメインで使ってる人がいたら、CodexをMCP接続して横に置いてみてほしい。逆にCodexがメインの人は、Claude CodeをMCPで繋いでみるのもアリだと思う。
それだけで、「ひとりで詰まる時間」が結構減るはず。
慣れてくると今度は、人間の自分の方がレビューをサボる、っていう逆方向の弊害が出てきたりもするんだけど、それはまた別の話で。
---
ちなみにこの話、YouTubeのTechTalks / AI×SESの現場トークでも喋ってます。
ぜひ見て下さい。
.png&w=3840&q=75)
.png&w=3840&q=75)
.png&w=3840&q=75)