AI技术研报-这里有最前沿的人工智能技术解读

0.5秒，无需GPU，Stability AI与华人团队VAST开源单图生成3D模型TripoSR

最近，文生视频模型 Sora 掀起了新一轮生成式 AI 模型浪潮，模型的多模态能力引起广泛关注。

来自主题: AI技术研报

7349 点击 2024-03-05 14:30

怒斥Sora之后，LeCun放出「视觉世界模型」论文，揭示AI学习物理世界的关键

Sora 的发布让整个 AI 领域为之狂欢，但 LeCun 是个例外。

来自主题: AI技术研报

6371 点击 2024-03-05 14:16

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。

来自主题: AI技术研报

10465 点击 2024-03-05 10:35

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。

来自主题: AI技术研报

6155 点击 2024-03-04 15:49

2张图2秒钟3D重建！这款AI工具火爆GitHub，网友：忘掉Sora

这个名为DUSt3R的新工具，火得一塌糊涂，才上线没多久就登上GitHub热榜第二。

来自主题: AI技术研报

9559 点击 2024-03-04 15:36

RNN效率媲美Transformer，谷歌新架构两连发：同等规模强于Mamba

去年 12 月，新架构 Mamba 引爆了 AI 圈，向屹立不倒的 Transformer 发起了挑战。如今，谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。

来自主题: AI技术研报

6657 点击 2024-03-03 18:10

清华、哈工大把大模型压缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！

近期，清华大学和哈尔滨工业大学联合发布了一篇论文：把大模型压缩到 1.0073 个比特时，仍然能使其保持约 83% 的性能！

来自主题: AI技术研报

9205 点击 2024-03-03 18:06

大一统视频编辑框架：浙大&微软推出UniEdit，无须训练、支持多种编辑场景

随着 Sora 的爆火，人们看到了 AI 视频生成的巨大潜力，对这一领域的关注度也越来越高。

来自主题: AI技术研报

9982 点击 2024-03-03 17:58

北大具身智能成果入选CVPR'24：只需一张图一个指令，就能让大模型玩转机械臂

只靠一张物体图片，大语言模型就能控制机械臂完成各种日常物体操作吗？

来自主题: AI技术研报

9238 点击 2024-03-03 17:50

大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

谷歌DeepMind、UC伯克利和MIT的研究人员认为，如果用大语言模型的思路来做大视频模型，能解决很多语言模型不擅长的问题，可能能更进一步接近世界模型。

来自主题: AI技术研报

7105 点击 2024-03-03 17:31

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。

来自主题: AI技术研报

11999 点击 2024-03-02 14:58