长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛
长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛想训练能自动操作手机的GUI(图形用户界面)智能体,总会遇到两难困境:
搜索
想训练能自动操作手机的GUI(图形用户界面)智能体,总会遇到两难困境:
清华系物理AI企业「清研精准」已于近日完成数亿元B3轮融资,本轮融资由北京市绿色能源基金、北汽产投领投,裕隆集团跟投。据悉,该轮资金将会用于核心人才招募、多模态数采设备的研发与规模化部署,以及算力采购与模型训练基础设施建设等方向。
刚刚,Om AI发布全球首个面向物理世界的端侧流式多模态模型系列——VLX。VLX主打真实世界的端侧与具身场景,总共三款模型,三天连发:这三款模型连起来,不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。
南大王利民团队&腾讯混元的HYDRA系列(HYDRA,HYDRA-X)工作挑战了这个惯例,用一个基于ViT的统一视觉Tokenizer,帮助原生多模态模型更好地“看懂”和“创作”。训练一个基于ViT的Unified Tokenizer,使其同时具有理解和生成的能力,进而同时作为理解和生成的Autoencoder,来支持原生多模态模型(Unified Multimodal Models)的训练。
来自至知创新研究院(IQuest Research)、中国人民大学高瓴人工智能学院、KAUST等机构的研究团队提出了FORT,一个面向Deep Search Agent的shortcut-resistant training-data synthesis framework。
过去十年,推荐系统最核心的动作可以概括成一个字:找。
过去一年,Mobile/Phone-use Agent在各类评测榜单上进展很快。
给定一段普通单目视频,FreeOrbit4D 可沿任意指定相机轨迹「重拍」整个动态场景,包括影视级的「子弹时间」环绕镜头。
UBC 和 Weathon Software 的研究提出,图像的美学对齐正在削弱艺术表达。
扩散模型又被玩出新花样了。