QVAC Genesis II:具有1480亿代币的新一代AI培训标准

robot
摘要生成中

Tether Data 在迈向开放学习方面迈出了重要一步,推出了 QVAC Genesis II —— 一个包含 1480 亿个令牌的教育数据集,涵盖 19 个学术领域。之前的 Genesis I 版本包含 410 亿个令牌,增长超过 150%,使其成为全球最大的公开可用合成训练集。

为什么 1480 亿令牌是游戏规则的改变?

大多数现代 AI 训练集仍然封闭在专有系统中,限制了独立研究人员和学术机构的访问。Genesis II 改变了这种局面,提供了一个基于 Creative Commons Attribution–NonCommercial 4.0 许可证的庞大数据集。这个规模的 1480 亿令牌使模型能够进行更深层次的理解——不仅预测文本,还能解释其选择和推理。

Tether Data 提出了一种名为 Option-Level Reasoning 的新工作方法。它不再将多项选择测试中的正确答案作为唯一的学习路径,而是分析每个选项——包括正确的和常见的错误认知。通过这种方式,模型学会识别为什么某个答案会失败,而不仅仅是记住哪个是正确的。

结构与可用性

该数据集涵盖 19 个学术领域,专注于深度教育推理。每个元素都经过设计,具有教育价值——结合 Option-Level Reasoning 的失败分析,形成一个两步验证过程。Genesis II 通过 Hugging Face 平台提供,附带完整的文档和工具。

独立测试显示,在 Genesis II 上训练的模型在推理准确性方面表现更优,并能以更一致的方式提供解释。这种从表面流畅性向结构化理解的转变,是一个关键的差异。

去中心化 AI 的愿景

Tether 的 CEO Paolo Ardoino 强调了项目的理念:“如今大多数 AI 训练优化的是流畅性,而非理解。通过这次发布,我们走得更远——强调结构、推理和清晰。” 公开提供 1480 亿令牌,使研究人员能够构建无需依赖集中式云平台的 AI 系统。

该倡议支持去中心化的 AI 发展,消除较小研究团队面临的结构性障碍。随着 AI 在教育、科研和金融服务中的应用不断扩大,开放、可解释且可靠的训练集的重要性将不断增加——Genesis II 为这一类别树立了新标准。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)