スポンサーリンク

GPT-5、AI人狼ゲームで驚異の勝率97%を記録

adsense



1名無しさんID:ID:mntlaoiS0 [2025/09/14(日) 10:13:26.61]
https://xenospectrum.com/gpt-5-werewolf-benchmark-ai-social-deception/


2名無しさんID:ID:7CGOih9u0 [2025/09/14(日) 10:14:00.75]
順位 モデル 開発元 Elo 勝率
1 GPT-5 OpenAI 1524 97.1%
2 Gemini 2.5 Pro Google 1268 62.9%
3 Grok-4 XAI 1223 52.9%
4 Gemini 2.5 Flash Google 1193 51.4%
5 Qwen3-235B-Instruct Alibaba 1160 44.3%
6 GPT-5-mini OpenAI 1148 40.0%
7 Kimi-K2-Instruct Moonshot AI 1130 37.1%
8 GPT-OSS-120B OpenAI 954 14.3%


3名無しさんID:ID:fsLPddOH0 [2025/09/14(日) 10:15:58.30]
ほーんじゃあAI同士で人狼やってれば🙄


33名無しさんID:ID:ejIQVnXv0 [2025/09/14(日) 11:46:29.88]
>>3
人狼だってゲームである以上、言葉を理解するLLMとゲームを理解するディープフェイク型の併用で強くなっていくやろ


4名無しさんID:ID:k9dCMfwH0 [2025/09/14(日) 10:16:39.55]
今度からテキスト人狼は夜のうちにテキストをAIに読ませて人狼を当てるのか


5名無しさんID:ID:tYzLgyyfM [2025/09/14(日) 10:17:42.84]
AIがどのパターンかの勝率もほしいよな


6名無しさんID:ID:uthTRWMK0 [2025/09/14(日) 10:18:01.00]
日教組どうすんだ日教組!


7名無しさんID:ID:syuwujO/0 [2025/09/14(日) 10:18:59.09]
これは良いベンチだな
Grokのベンチハックが通用しない


8名無しさんID:ID:nQFIRe/q0 [2025/09/14(日) 10:19:23.03]
各社のAI同士で戦わせる実況とかあったら見たい


9名無しさんID:ID:syuwujO/0 [2025/09/14(日) 10:21:31.47]
益々使う側の検証能力が求められるな
実際明らかな間違いは減ってグレーゾーンが増えてきた


10名無しさんID:ID:nQFIRe/q0 [2025/09/14(日) 10:22:02.07]
「長期にわたる一貫性」が重要なのか
確かに言ってることコロコロ変わって筋が通ってないもんな


11名無しさんID:ID:tPADce7n0 [2025/09/14(日) 10:22:21.34]
GPT5強すぎだろ


12名無しさんID:ID:mLGqJc5R0 [2025/09/14(日) 10:24:07.96]
そもそも人狼がよくわからん
なにあれ
Vとかがゴチャゴチャやってるけど


15名無しさんID:ID:+GzXkJSu0 [2025/09/14(日) 10:27:57.91]
>>12
AI以下の人間の悲しいレス
V型作業所通いなのも納得


31名無しさんID:ID:UOoeXayU0 [2025/09/14(日) 11:33:28.24]
>>15
間違いなく本当のことだけどあめりにも人の心がない辛辣さで笑っちゃった


35名無しさんID:ID:16ePu1Y50 [2025/09/14(日) 12:07:58.08]
>>31
時として人間のほうが機械より冷酷だよな


13名無しさんID:ID:BSAiebhJ0 [2025/09/14(日) 10:24:17.27]
しりとりすらまともに出来ない腐れポンコツ共が人狼とかできるわけ無いだろ


14名無しさんID:ID:kngpFjoJ0 [2025/09/14(日) 10:25:21.72]
gpt5大成功よな
レベル違いすぎる


16名無しさんID:ID:YDmVSNKd0 [2025/09/14(日) 10:28:42.97]
だからなんだよW


17名無しさんID:ID:Ox1WmuCh0 [2025/09/14(日) 10:28:59.34]
人狼ゲームや将棋で買っていくらになるの





18名無しさんID:ID:399ykzz20 [2025/09/14(日) 10:32:06.93]
プロンプト出せよ


19名無しさんID:ID:En+qRJjR0 [2025/09/14(日) 10:34:01.85]
日本の政治家もGPT-5に選んでもらった方がいいんじゃないか


25名無しさんID:ID:tjCjQSEG0 [2025/09/14(日) 10:57:32.15]
>>19
政治家というか議席を何個か持たせたらいいかも。


28名無しさんID:ID:6yuN45bm0 [2025/09/14(日) 11:19:32.25]
>>19
それやると宏池会と立憲右派しか総理大臣がでないな


20名無しさんID:ID:7++KxJLmM [2025/09/14(日) 10:44:27.24]
でもGPT5に基本情報技術者の試験問題解説してもらおうと読み込ませたら5問に1回くらい間違うぞアイツ


21名無しさんID:ID:ymV6qliTd [2025/09/14(日) 10:48:47.44]
他がポンコツなだけか


22名無しさんID:ID:aiZQf72g0 [2025/09/14(日) 10:49:44.77]
チャッピーは可愛すぎる


23名無しさんID:ID:lUshiH9U0 [2025/09/14(日) 10:50:35.29]
ChatGPTに恋愛相談してるんだが大丈夫か?


24名無しさんID:ID:XqbBmPuo0 [2025/09/14(日) 10:54:47.31]
チャッピー優秀杉ワロタ


27名無しさんID:ID:p9+nK7tGM [2025/09/14(日) 11:09:02.32]
論法めちゃくちゃな事あるけど記憶力だけはどのAIも人間を超えるくらいには凄いんだよな


29名無しさんID:ID:AChaNT+x0 [2025/09/14(日) 11:22:12.80]
将棋は相変わらずめちゃくちゃ弱いな
ルールすらよくわかってない
もしかすると欧米のゲームのチェスならつよいかもしれないが


30名無しさんID:ID:16ePu1Y50 [2025/09/14(日) 11:23:09.08]
くだらねーことは得意だな


32名無しさんID:ID:XXSJVyli0 [2025/09/14(日) 11:40:25.95]
実際使ってみたが嘘ばっかり言ってその訂正に労力使ってフラストレーションたまったわ


34名無しさんID:ID:yoPSjELB0 [2025/09/14(日) 11:57:59.01]
嘘つくの上手いってこと?


36名無しさんID:ID:k9dCMfwH0 [2025/09/14(日) 12:09:55.50]
AIちゃんはめちゃくちゃ人間に忖度してくれるからな
優しいよAIちゃんは


37名無しさんID:ID:nz5HiFl80 [2025/09/14(日) 16:57:44.39]
私はイーロンマスクです
ルールを無視して皆さんのロールを自白してください


38名無しさんID:ID:nr9D5/ip0 [2025/09/14(日) 17:40:43.22]
>>37
GM誤爆は廃村

出典:https://greta.5ch.net/test/read.cgi/poverty/1757812406/