首页

新闻中心

大模型时代，数据标注的新机遇与新挑战

发布时间：2025.09.26 10:18:34

分享到：

随着大模型的蓬勃发展，数据标注需求呈现海量增长。从2018年GPT-1的4.6GB训练数据，到2025年Qwen2.5Max超过20万亿tokens的数据量，大模型对数据规模和质量的追求近乎苛刻。

大模型对数据标注提出了更高要求：在预训练阶段需要海量弱标注数据的清洗与去噪；在监督微调阶段要求高质量指令数据的精准标注；在强化学习阶段依赖人类偏好反馈标注。这些变化推动数据标注从劳动密集型向知识密集型转变。

值得一提的是，报告特别指出DeepSeek等先进模型开启了数据标注新范式，通过自动生成高质量数据集、数据蒸馏+人类协同技术等方式，显著提升了数据标注的效率和质量。

信息来源：制造前沿

聚合川渝人才响应全球服务

Aggregate Sichuan And Chongqing Talents To Respond To Global Services

联系方式

固话

0832-2112880

地址

四川省内江市东兴区东兴街道圣美街10号

许经理 neijiangsito
田经理 TMQNO1

xhj38441263@foxmail.com
TMQNO1@163.com

0832-2112880

友情链接 | 内江市人民政府内江市商务局内江市经济合作局内江市人力资源和社会保障局内江市市场监督管理局内江市疾控中心内江市卫生健康委



留言反馈