刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界
刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界问世才两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。
问世才两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。
从2014年亚马逊开创性推出Amazon Echo开始,智能音箱横空出世。一开始的智能音箱,也只是有个“嘴”,只能实现播放音乐、查询信息、设置提醒等功能。
微软首个为Windows而设的智能体(Agent) 亮相:基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。
一位网友公开了他创作的一个可以自主学习的智能体,按照他的设想,这样的智能体将在LLM的加持下迅速成长为无所不能的AGI,而人类如果控制她成长的过程,就不需要专门进行对齐。
基于大模型的Agent会玩宝可梦了,人类水平的那种!名为PokéLLMon,现在它正在天梯对战中与人类玩家一较高下:
大模型的新考验来了!近日,来自卡内基梅隆大学的研究人员发布了评估LLM多模态Web代理性能的基准测试。
2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?
单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这一难题的下一代虚拟人技术。它旨在从单张图片中重建出目标人的三维化身 (3D Avatar)
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT,一种在掩码生成序列建模方法。