首页

新闻中心

大模型催生数据标注新升级

发布时间：2025.09.24 16:20:32

分享到：

随着GPT-4、Qwen2.5Max等大模型训练数据量从GB级跃升至“万亿tokens”级（2025年Qwen2.5Max数据量超20万亿tokens），数据标注需求呈现三大新特点：

- 全生命周期覆盖：预训练阶段需“海量弱标注数据”，监督微调阶段需“精准指令数据”，强化学习阶段需“人类偏好反馈数据”，各环节需求差异显著。

- 质量要求严苛化：需满足“事实准确、语义一致、价值安全、场景完备”四大标准，医疗、金融等领域甚至需专业资质人员参与标注。

- 工程化能力升级：需支持万人级并发标注、全链路数据追溯，多模态场景（图文、音视频）还需跨模态对齐技术。

值得关注的是，DeepSeek等企业已探索新范式——通过“自动生成数据集+数据蒸馏+强化学习”，减少传统人工标注依赖，推动行业向“智能标注”转型。

聚合川渝人才响应全球服务

Aggregate Sichuan And Chongqing Talents To Respond To Global Services

联系方式

固话

0832-2112880

地址

四川省内江市东兴区东兴街道圣美街10号

许经理 neijiangsito
田经理 TMQNO1

xhj38441263@foxmail.com
TMQNO1@163.com

0832-2112880

友情链接 | 内江市人民政府内江市商务局内江市经济合作局内江市人力资源和社会保障局内江市市场监督管理局内江市疾控中心内江市卫生健康委



留言反馈