返回
列表
上一篇
文章
下一篇
文章
四川数据标注的文化数据
发布时间:2023.11.22 15:09:07
分享到:

四川数据标注的数据是数字经济的生产要素,占有数据就是取得生产资料支配权。数据和算力、算法是人工智能的三个基础要素,数据集的数量和质量决定人工智能训练水平。据专业统计,全球网站56%是英文,只有1.5%是中文。我国人工智能时代文化生产的数据资源基础,总量和质量现状不容乐观。通用大模型和行业大模型只是模拟人类思维和价值观进行人机对话,其所有文化知识和文化艺术作品生成能力都源于训练语料中的文化数据,是数据库经过人为标记后强化学习的结果,实质上还是人类的思维和价值观。文化数据不同于公共数据、商业数据、企业数据、社交媒体数据,还蕴含丰富的人文情感、精神思想、主体意志等文化基因,以及叠加以后构成数字空间的集体意识、社群观念、公序良俗,乃至政治立场、民族认同、价值取向,具有天然的意识形态属性。虚实交织,关系到文化自信、文化安全的根基。

数据化的文化资源,具有相对稀缺性。有研究认为,没有任何一项技术比今天的人工智能更依赖大规模高质量数据,“未来一个模型的好坏,20%由算法决定,80%由数据质量决定。” 从现实世界到虚拟世界,衍生出数字疆域及其主权和管治权,更是完全基于数据而存在。文化数据就是文化竞争乃至文化战争的战略资源。在中、美、欧盟三大经济体人工智能国际竞赛中,管好用好优秀传统文化数字化存量资源和文化创造过程中文化数据增量资源,建立起以中文为核心的数据要素战略壁垒,是必然的战略选择。

留言反馈
企业名称
所在区域
姓名
电子邮箱
联系电话
问题描述
上传图片