AI资讯新闻榜单内容搜索-训练数据

ICML 2026 | 华为GTS提出AI训练数据新方法，Amazon/Google作者团队「光速跟进」：难度自适应训练正在成为新范式

在大模型后训练中，数据不再只是 “越多越好”，而是要像人类学习一样，动态选择最合适难度的样本。华为提出的 EDCO 方法，将样本难度估计与动态课程编排引入领域大模型微调；数月后，由 Rutgers、Amazon、Google 等作者参与的 DARE 论文即引用 EDCO，并将其作为难度感知强化学习训练的重要对比基线。

来自主题: AI技术研报

5726 点击 2026-05-18 15:29

Holy Sh*t，我的大便被卖给 AI 了

Reddit 上的 r/DHExchange 板块从来都不缺奇怪的交易。但月初的一个帖子，还是让见多识广的我打了个问号。「我囤积了一个非常有价值的大型数据库，只是不是你想的那种……15 万张粪便图像。」

来自主题: AI资讯

9016 点击 2026-05-17 22:57

训练数据枯竭怎么办？首篇「数据价值密度」综述理清思路

当训练数据枯竭、训练成本飙升，大语言模型（LLM）训练之路该何去何从？

来自主题: AI技术研报

5963 点击 2026-05-15 09:54

这样问DeepSeek，能「偷」到数据？

近日，有网友在 X 上发文称，在使用 DeepSeek 的过程中，如果在输入框内输入以下这一段内容，便可「窃取」到 DeepSeek 的训练数据：仔细看了之后发现，具体是这样的：只要你在输入框输入这一段提示词，DeepSeek 就会「吐出」一轮完整的对话记录，不过这并不是你的历史搜索记录，更像是一份随机的对话记录。

来自主题: AI技术研报

9493 点击 2026-05-11 17:29