
sito

sito

sito

sito

sito
“垃圾进,垃圾出”(Garbage In, Garbage Out)是计算机科学领域的经典法则,在AI领域同样适用。一个AI模型的能力上限,很大程度上取决于其训练数据的质量和数量。
质量是生命线:如果标注数据错误百出,比如把猫标注成狗,把负面评论标注成正面,那么AI模型学到的就是错误的知识。基于这些错误知识做出的预测和判断,其结果可想而知。高质量的标注数据是训练出可靠、可信AI模型的根本保证。
数量是基础:AI模型需要学习大量的例子才能举一反三,泛化到未见过的场景中。要让一个模型能识别世界上的各种猫,就需要提供成千上万张不同品种、不同姿态、不同光线下的猫的图片供它学习。没有足够的数据量,模型就无法获得“经验”,容易陷入“过拟合”(只会认训练过的图片,遇到新图片就傻眼)的困境。
因此,数据标注是AI产业不可或缺的一环,是连接原始数据和智能算法的桥梁,被誉为AI的“基石”和“燃料”。
信息来源:数字智慧号
