AI产品测评-这里有最详细的人工智能工具测评解析

连夜实测 Kimi K3，建议改名 Kable

今天凌晨看到 Arena AI 更新 Code Arena 榜单时，我第一反应是有点意外。刚刚发布的 Kimi K3 拿到了 1679 分，排在全球第一，压过了 Claude Fable 5 的 1631 分和 GPT-5.6 Sol 的 1618 分。

来自主题: AI产品测评

9092 点击 2026-07-17 11:12

告别版本号！豆包首款无限进步模型：Seed-Evolving实测

大家好，我是袋鼠帝。前几天，火山的朋友提前跟我同步了一个消息，说豆包Seed模型又更新了。

来自主题: AI产品测评

7862 点击 2026-07-17 11:05

LibTV把100+AI视频魔法，封装进了这个全球最大的Skill商店里｜测评

不知不觉，整个AI影像行业全线迈进了Agent创作与AI视频C端普及的时代。

来自主题: AI产品测评

7402 点击 2026-07-14 15:52

豆包、WorkBuddy、QoderWork怎么选？我用8个真实办公任务把三家桌面Agent测明白了

过去半年，国产大厂扎堆发布一种新东西：桌面Agent。如果你最近在刷相关讨论，会发现 WorkBuddy、豆包专业版、QoderWork 这三个名字出现得特别频繁。如果一个普通办公用户今天就想选一款桌面 Agent，到底该先试谁？

来自主题: AI产品测评

9249 点击 2026-07-14 12:22

用Grok 4.5 连写了 7 个小项目，发现它最大的优势不是代码

7 月 8 日，xAI 发布了 Grok 4.5。马斯克给的定位很直白，「Opus 级别，但更快，更便宜」。

来自主题: AI产品测评

9397 点击 2026-07-14 11:08

实测完这个国产 AI 生图，我发现了下一个刷屏玩法

AI 生图最难的地方，早就从「生成一张好看的图」变成了「把那张差一点的图改对」。

来自主题: AI产品测评

8193 点击 2026-07-13 15:30

字节把 PS 做进了生图模型里，实测 Seedream 5.0 Pro 指哪改哪

用 AI 生图的人，应该都体会过这种痛苦。

来自主题: AI产品测评

7662 点击 2026-07-13 14:42

一个人+一个Agent，我把开店要的图全跑通了，方法全公开

大家好，我是冷逸。前段时间，我设计了一家民宿「冷同学的院子」，视觉还算有点意思，不少朋友跑来问设计上的事。也有人问我：要是自己网上开店，有没有那种“够简单、说一句就能出设计”的电商工具？

来自主题: AI产品测评

6215 点击 2026-07-13 09:43

深度测评：Trae、WorkBuddy、ZCode，谁才是打工人真命天子？

我自己花时间，把三款主流国产桌面 Agent 从头到尾测了一遍：Trae、WorkBuddy、ZCode。用三个最日常的工作任务——做 PPT、分析表格、写小游戏，看看它们到底能不能帮普通打工人干活。这篇文章就是完整的实测记录，希望对你选工具有点帮助。

来自主题: AI产品测评

8997 点击 2026-07-12 10:08

实测 ChatGPT Work vs Claude Cowork，OpenAI 这次真追上来了

7 月 9 日，OpenAI 一口气发了三样东西，新模型 GPT-5.6，一个把 Chat、Work、Codex 装进同一个壳的新桌面应用，以及本文的主角 ChatGPT Work。官方的说法是，ChatGPT 从此不再只是回答问题，而是把活真正干完，交出来的不是聊天记录，是表格、文档、PPT，甚至一个能直接分享的网站。

来自主题: AI产品测评

7986 点击 2026-07-11 11:17

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

最近这段时间，国内外模型更新得很快。

来自主题: AI产品测评

9050 点击 2026-07-03 09:48

再测LongCat 2.0长任务，这次我让他在codex里面做了个游戏

上个月也就是昨天，我写了一篇LongCat 2.0的实测，用四个任务测了一下它的编程能力，当时我的评价是「有些地方惊艳，有些地方还差点意思」。

来自主题: AI产品测评

7571 点击 2026-07-02 10:36

我们拿到了企微 AI Agent 的内测资格，提前替你试了一周

微信和企业微信的 Agent，同时出牌。

来自主题: AI产品测评

9417 点击 2026-07-01 10:27

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

你有没有想过一个问题：我们平时选模型，到底有多少是因为它真的好用，又有多少是因为它便宜？

来自主题: AI产品测评

9746 点击 2026-06-30 09:55

我们让DuMate当了一天采购员，结果差点拿着假报价去砍价

阿辉又跟我们吐槽了。

来自主题: AI产品测评

6439 点击 2026-06-29 10:19

智谱与Anthropic是母凭子贵

Anthropic增加绿卡认证后，最开心是智谱，直接原地化身战狼，高呼「前沿智能属于所有人」，提前把专注Coding的GLM5.2发了。

来自主题: AI产品测评

8577 点击 2026-06-24 16:36

Codex兼容国产开源模型！实测DeepSeek接入：门槛还是太高

6月17日，X 上 OpenAI Codex 团队负责人 Tibo（@thsottiaux）发了一条推文，提醒大家 Codex App、CLI 和 SDK 现在可以接任何开源模型，不只限于 OpenAI 自己的模型。

来自主题: AI产品测评

8287 点击 2026-06-24 10:53

Seed 2.1 Pro 测评，终于能胜任 Agent 工作了

今天 Seed 2.1 Pro 正式发布，我提前用它做了一些测试。

来自主题: AI产品测评

7157 点击 2026-06-24 10:30

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0（Seed-Audio 1.0）。

来自主题: AI产品测评

8392 点击 2026-06-24 10:29

微信 AI 全网最细体验，我又爱上了刷朋友圈

微信 AI 终于来了。

来自主题: AI产品测评

7686 点击 2026-06-24 09:55

设计进入 Agent 时代：交付物不再是设计稿，而是产品原型

未来设计的交付物，可能就是产品原型本身。

来自主题: AI产品测评

10125 点击 2026-06-18 15:05

实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

前几天 Fable 5 对海外用户关停的时候，智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2，并表示「前沿智能不应只属于少数人，也不应被少数规则随手收回。」

来自主题: AI产品测评

6969 点击 2026-06-17 14:28

字节最便宜视频模型Seedance 2.0 Mini来了！1.6毛/秒，比Fast快，实测让黄仁勋和豆包一起踢球

昨晚，字节新模型Seedance 2.0 Mini深夜来袭，该模型主打性价比，侧重于提供更低的价格以及更快的生成速度。Seedance 2.0 Mini虽然定价更低，但保留了核心能力参考生成，用户可以通过融合提示词与最多12个多种模态的参考素材（包括6张图片、3段音频、3段视频）来锁定人物一致性、精细化控制运动轨迹、卡准剧情节奏。

来自主题: AI产品测评

9124 点击 2026-06-16 14:41