Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测,谁更适合Agent?
Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测,谁更适合Agent?最近这段时间,国内外模型更新得很快。
搜索
最近这段时间,国内外模型更新得很快。
大家好,我是袋鼠帝。 6月,感觉又是模型爆发的月份。
普通人看排行榜估计越看越疑惑,写文章该用哪个?数据分析该用哪个?写代码、审 PR、拆任务又该用哪个?我挑了四款最近讨论度很高的模型:Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,做一次横评,看看它们在真实任务里的交付表现。
从去年开始做这个账号以来,我其实写过不少测模型的文章。我相信也有很多朋友是因为看了我测评的文章关注我的。但从过年之后,真的就很少写模型评测的文章了。主要是我写文章的速度甚至一度跟不上模型发布的速度了。
阿里前几天开源的Qwen3.6-35B-A3B,让这次讨论不再只是一次普通的新旧模型对比。它一边要面对谷歌Gemma4-26B-A4B的外部竞争,一边又必须回答一个更麻烦的问题:相较于 Qwen3.5-35B-A3B,它到底是升级,还是修补?更现实的是,很多人现在真正跑着的,其实是Qwen3.5-27B,那么这条新的35B-A3B路线,到底值不值得迁过去。
4 月的大模型战场,硝烟弥漫。
先说一句最关键的。十月,ChatPlayground.ai 的月访问量估算为25万上下,环比暴涨六倍多,具体是 611.53%。这个数据来自 Toolify 的十月增长榜。