被困在考场里的大模型
被困在考场里的大模型昨天,大名鼎鼎的 Claude 4.8 发布了。 科技圈照例是一片欢呼。 看官方放出来的一堆评测数据,依然是碾压级别的,尤其是说代码(Coding)能力有了史诗级的提升,简直像交了一份满分答卷。
搜索
昨天,大名鼎鼎的 Claude 4.8 发布了。 科技圈照例是一片欢呼。 看官方放出来的一堆评测数据,依然是碾压级别的,尤其是说代码(Coding)能力有了史诗级的提升,简直像交了一份满分答卷。
Devin 证明,独立 Vibe Coding 平台依然有机会。
超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名,仅次于 Claude Opus 4.7。除了真实场景的用户选择,在传统的大模型固定评测榜单上,像是终端能力 Terminal Bench、编程能力 SWE Bench 等,Qwen3.7 Max 的表现也是拿下了国产模型的冠军。
最近,谷歌的日子不太好过。
一家视频公司,用三年时间让全员学会写代码——包括那些从没碰过编程的运营、市场、内容同学。
谷歌CEO皮查伊这次真没藏着掖着,直接一个真心话大放送了: 在Coding这事儿上,我们家Gemini确实有点了落后哈…..
他身前是13英寸笔记本,眼前铺开的则是174英寸的超宽屏幕。这块屏幕来自这幅XR智能眼镜,屏幕上同时铺着三个窗口:左边是Claude Code,代码正一行行往外吐;中间是编辑器,光标在等他的下一次指令;右边是飞书,同事刚发来一条消息。而这并非幻想画面。实际上,这是使用VITURE眼镜进行vibe coding的新潮流。
大家好,我是袋鼠帝 我发现,最近很多朋友貌似都把自己的主力Agent换成了Codex
5月初的一个上午,我走进杭州西溪附近的一间办公室,眼前的人被同事叫醒,从地板上爬起来。头戴一顶深灰色、紧紧包住脑袋的绒布帽,上身是一件紫色紧身短袖上衣,露出清晰可见的肌肉线条,而下身是一条黑色长裙。
前天,胡彦斌发了一条小红书。