我无法理解为什么扎克花了150亿美元收购了来自ScaleAI的15名员工(数据公司)
所以我深入研究了一下,觉得我搞明白了:
我们并没有耗尽数据。实际上,情况正好相反。
一辆单一的无人驾驶汽车每小时产生2TB (的数据,相当于800,000本书)。
问题在于数据很混乱,不容易输入到LLM中进行训练,因此它就被扔进了数据墓地,留给其他人去解决(没有人去做)。
优秀数据工程师的严重短缺
我提到的那个墓地实际上是一个金矿,如果你能从中筛选出来的话。
问题是很少有人有能力或时间。猜测这就是扎克伯格为scaleAI员工支付150亿美元的原因。
高质量数据远比“数据量”更有价值
特别是针对训练后模型 (eg 测试时间计算)。
它还需要更少的计算,这降低了训练模型的成本。
所以如果你的训练团队能够 1. 筛选高质量数据 2. 将其注入后续训练 3. 降低成本 - 你就会赢得人工智能竞赛 (无价)。
查看原文