发现一个好玩的AI播客生成工具,嗯嗯啊啊实在太像人了...
发现一个好玩的AI播客生成工具,嗯嗯啊啊实在太像人了...最近,语音人工智能初创公司 ElevenLabs,在他们的 ElevenReader 应用中推出了一个叫做 GenFM 的功能,这个功能能通过我们上传的内容,快速制作一期由两名 AI 对话交流的播客。
最近,语音人工智能初创公司 ElevenLabs,在他们的 ElevenReader 应用中推出了一个叫做 GenFM 的功能,这个功能能通过我们上传的内容,快速制作一期由两名 AI 对话交流的播客。
“它前进着,又跨过了新的一级台阶,耳边仿佛传来由远及近的低语:前方,即是世界。”
Netflix宣布《鱿鱼游戏》手游限时开放,计划拓展游戏市场。
今年苹果最热的产品或许就是“Apple智能”功能,但作为核心设备的iPhone,支持型号屈指可数:仅有iPhone 15 Pro和iPhone 16系列,就连去年才发布的iPhone 15都因为苹果宣称的“配置问题”无缘AI。
最近,英国广播公司(BBC)对美国科技巨头苹果公司提出了投诉,原因是苹果推出的一款新产品错误地生成并传播了与 BBC 相关的假新闻。这款名为 “Apple Intelligence” 的产品在英国上线后,通过人工智能技术将多个信息来源的通知进行汇总,并以此向用户推送信息。
谷歌正借助其旗舰产品——Gemini系列(涵盖一系列前沿的生成式人工智能模型、应用及服务)引领行业潮流。那么,Gemini究竟为何物?您该如何充分利用它?相较于OpenAI的ChatGPT、Meta的Llama以及微软的Copilot等其他生成式AI工具,Gemini又表现如何呢?
OpenAI 放出了 o1 Pro、GPT-4o 高级语音、GPTCanavas,就跟孔雀开屏一样 ~ 谷歌最近的大动作是发布了 Gemini 2.0 嘛!2.0 比 1.5 版本快一倍,而且是原生的多模态大模型,能输入和生成语言、声音、图片、视频等。
OpenAI的实时API支持低延迟、双向音频流,使得多模态AI应用(如语音对话Agent)得以实现。它通过WebSocket连接管理对话状态,并提供短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。
Transformer模型自2017年问世以来,已成为AI领域的核心技术,尤其在自然语言处理中占据主导地位。然而,关于其核心机制“注意力”的起源,学界存在争议,一些学者如Jürgen Schmidhuber主张自己更早提出了相关概念。
大模型“套壳”事件防不胜防,有没有方法可以检测套壳行为呢? 来自上海AI实验室、中科院、人大和上交大的学者们,提出了一种大模型的“指纹识别”方法——REEF(Representation Encoding Fingerprints)。