32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理
32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理32B小模型在超硬核「时间线索」推理谜题中,一举击败了o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍。
搜索
32B小模型在超硬核「时间线索」推理谜题中,一举击败了o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍。
随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景,形式化推理与验证(formal reasoning and verification),也获得持续关注。
助力半导体激光芯片国产化。
晚上大聪明和阿文分别直播Manus的使用,看得我口水横流,于是尝试着找张涛问一下有没有码(都骚扰他两天了),半小时后塞给了我一个,于是,大概是福建省第一个manus用户诞生了(这里需要锣鼓喧天);
自媒体的反应堪称狂热:“通用Agent终于实现了!”“这是继DeepSeek之后的又一技术革命!”这样夸张的赞誉随处可见。从Benchmark来看,它的表现确实非常亮眼,在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch。
要做「AI编程助手界的Waymo」
随着AI社交类应用在Z世代年轻人中的广泛流行,线上情绪陪伴的价值逐渐被深入挖掘。随时随地开启对话,句句有回应,事事不失联,给不少人都带来了心灵慰藉与个性化的情感支持。
短短六个月,面向消费者的生成式 AI 市场已发生翻天覆地的变化。一些产品迅速崭露头角,另一些却止步不前,还有意外的黑马一跃成为行业领跑者。
打开一个搜索框,用大白话一股脑把你开店做生意的想法说出来。
前些天,字节跳动的 AI IDE 产品 Trae 上线了国内版本,其具备「中文语境深度适配 + 全功能免费开放」的双重杀手锏,一上线就收获了不少支持者。全网一片夸赞,很少能看见批评的声音。