ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满
ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。
搜索
在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。
“用DeepSeek写小说,一天能写20万字”
AI模型的训练和推理成本在过去18个月内大幅下降,达到180倍的成本降低。这一趋势推动了更多开源项目的涌现。
DeepSeek开源周的最后一天,迎来的是支撑其V3/R1模型全生命周期数据访问需求的核心基础设施 — Fire-Flyer File System(3FS) 和构建于其上的Smallpond数据处理框架。
GPT-4.5正式发布,号称OpenAI最大和最好的聊天模型。
单个模型的优缺点也能分析
未来又该如何分辨是AI还是真人在说话?
AI还不够像人,人已经变成AI了
这位曾用代码构建童话世界的工程师,被困在了由 AI 工具引发的一场噩梦里。
在AI技术风起云涌的今天,名为DeepSeek的东方力量掀起骇浪。它如何打破常规,照亮AI行业的黑暗森林,又如何为中国的AI发展带来前所未有的临界点?