
sito

sito

sito

sito

sito
大模型已成为中美科技竞争的制高点,数据供给质量决定了模型的基础能力。当前,全球主流基础大模型,中文语料仅占全部语料的1%,高质量中文数据成为制约我国基础大模型能力的瓶颈。训练一个领先的大模型,需要数百万甚至数千万条标注数据。数据标注发展水平成为决定中美人工智能胜负的关键因素。美国在数据标注领域投入巨大,培育了一批数据标注独角兽企业,产业迅速发展。例如,OpenAI在训练GPT系列模型时,投入数千人力和数亿资金进行数据标注,高质量语料集炼就了全球最好性能基础大模型。相比之下,我国虽是全球第二大数据资源国,但数据质量不高,开发利用比例低。全面提升中文语料质量,成为破解我国大模型发展和提升人工智能产业竞争力的关键环节。
信息来源:国家数据局
