返回
列表
上一篇
文章
下一篇
文章
大模型催生数据标注新升级
发布时间:2025.09.24 16:20:32
分享到:

随着GPT-4、Qwen2.5Max等大模型训练数据量从GB级跃升至“万亿tokens”级(2025年Qwen2.5Max数据量超20万亿tokens),数据标注需求呈现三大新特点:

 

- 全生命周期覆盖:预训练阶段需“海量弱标注数据”,监督微调阶段需“精准指令数据”,强化学习阶段需“人类偏好反馈数据”,各环节需求差异显著。

- 质量要求严苛化:需满足“事实准确、语义一致、价值安全、场景完备”四大标准,医疗、金融等领域甚至需专业资质人员参与标注。

- 工程化能力升级:需支持万人级并发标注、全链路数据追溯,多模态场景(图文、音视频)还需跨模态对齐技术。

 

值得关注的是,DeepSeek等企业已探索新范式——通过“自动生成数据集+数据蒸馏+强化学习”,减少传统人工标注依赖,推动行业向“智能标注”转型。

ceaf6e4e-0f2b-4a7e-8899-ba36194fb16b.png

留言反馈
企业名称
所在区域
姓名
电子邮箱
联系电话
问题描述
上传图片