no podía entender por qué zuck pagó $15B para adquirir 15 empleados de scaleAI (data company)
así que investigué a fondo y creo que lo entendí:
No nos estamos quedando sin datos. De hecho, es lo contrario.
un solo coche autónomo produce 2TB (que son 800,000 libros) de datos POR HORA.
el problema es que los datos son un desastre, no es fácil alimentarlos en un LLM para entrenar, así que simplemente se arrojan a un cementerio de datos para que alguien más lo resuelva ( nadie lo hace ).
Escasez severa de buenos ingenieros de datos
Ese cementerio que mencioné arriba es en realidad una mina de oro si puedes sortearlo.
el problema es que muy pocas personas tienen el cerebro o el tiempo. Supongo que esta es la razón por la que zuck pagó $15B por empleados de scaleAI
Los datos de mayor calidad son mucho más valiosos que la "cantidad" de datos.
Especialmente para modelos de post-entrenamiento (eg tiempo de prueba compute).
también requiere menos computación, lo que reduce el costo de entrenar modelos.
así que si tu equipo de entrenamiento puede 1. Ordenar datos de alta calidad 2. Inyectarlos en el post entrenamiento y 3. Reducir costos - vas a ganar la carrera de la IA (invaluable).
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
no podía entender por qué zuck pagó $15B para adquirir 15 empleados de scaleAI (data company)
así que investigué a fondo y creo que lo entendí:
No nos estamos quedando sin datos. De hecho, es lo contrario.
un solo coche autónomo produce 2TB (que son 800,000 libros) de datos POR HORA.
el problema es que los datos son un desastre, no es fácil alimentarlos en un LLM para entrenar, así que simplemente se arrojan a un cementerio de datos para que alguien más lo resuelva ( nadie lo hace ).
Escasez severa de buenos ingenieros de datos
Ese cementerio que mencioné arriba es en realidad una mina de oro si puedes sortearlo.
el problema es que muy pocas personas tienen el cerebro o el tiempo. Supongo que esta es la razón por la que zuck pagó $15B por empleados de scaleAI
Los datos de mayor calidad son mucho más valiosos que la "cantidad" de datos.
Especialmente para modelos de post-entrenamiento (eg tiempo de prueba compute).
también requiere menos computación, lo que reduce el costo de entrenar modelos.
así que si tu equipo de entrenamiento puede 1. Ordenar datos de alta calidad 2. Inyectarlos en el post entrenamiento y 3. Reducir costos - vas a ganar la carrera de la IA (invaluable).