не мог понять, почему цукерберг заплатил 15 миллиардов долларов за 15 сотрудников из scaleAI (data company)
так что я углубился и думаю, что разобрался:
У нас не заканчиваются данные. На самом деле, всё наоборот.
один автономный автомобиль производит 2 ТБ (, это 800,000 книг ) данных в ЧАС.
проблема в том, что данные в беспорядке, их сложно использовать для обучения LLM, поэтому они просто попадают на кладбище данных, чтобы кто-то другой решил (никто не делает ).
Серьезная нехватка хороших инженеров данных
Тот кладбище, о котором я упоминал выше, на самом деле является золотой шахтой, если вы сможете его отсортировать.
проблема в том, что очень немногие люди обладают умом или временем. Догадываюсь, что именно поэтому цукерберг заплатил $15B за сотрудников scaleAI
Данные более высокого качества гораздо ценнее, чем "количество" данных
Особенно для моделей после обучения (eg время вычислений тестирования).
это также требует меньше вычислительных мощностей, что снижает затраты на обучение моделей.
так что если ваша команда по обучению сможет 1. Отсортировать качественные данные 2. Внедрить их после обучения и 3. Снизить затраты - вы выиграете гонку ИИ (бесподобно).
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
не мог понять, почему цукерберг заплатил 15 миллиардов долларов за 15 сотрудников из scaleAI (data company)
так что я углубился и думаю, что разобрался:
У нас не заканчиваются данные. На самом деле, всё наоборот.
один автономный автомобиль производит 2 ТБ (, это 800,000 книг ) данных в ЧАС.
проблема в том, что данные в беспорядке, их сложно использовать для обучения LLM, поэтому они просто попадают на кладбище данных, чтобы кто-то другой решил (никто не делает ).
Серьезная нехватка хороших инженеров данных
Тот кладбище, о котором я упоминал выше, на самом деле является золотой шахтой, если вы сможете его отсортировать.
проблема в том, что очень немногие люди обладают умом или временем. Догадываюсь, что именно поэтому цукерберг заплатил $15B за сотрудников scaleAI
Данные более высокого качества гораздо ценнее, чем "количество" данных
Особенно для моделей после обучения (eg время вычислений тестирования).
это также требует меньше вычислительных мощностей, что снижает затраты на обучение моделей.
так что если ваша команда по обучению сможет 1. Отсортировать качественные данные 2. Внедрить их после обучения и 3. Снизить затраты - вы выиграете гонку ИИ (бесподобно).