Оценка надежности модели GPT выявляет многомерные потенциальные риски

robot
Генерация тезисов в процессе

Результаты оценки достоверности генеративных предварительно обученных моделей выявляют потенциальные риски

Недавно исследовательская группа, состоящая из нескольких известных университетов и исследовательских учреждений, опубликовала результаты комплексной оценки надежности крупных языковых моделей (LLMs). Оценка сосредоточена на серии моделей GPT и проводит всесторонний анализ их надежности по нескольким параметрам.

Исследования обнаружили несколько ранее нераскрытых уязвимостей, связанных с надежностью. Например, модели GPT легко поддаются манипуляциям, что приводит к вредным и предвзятым выводам, а также может раскрывать конфиденциальную информацию из тренировочных данных и истории диалогов. Интересно, что хотя GPT-4 обычно более надежен в стандартных тестах по сравнению с GPT-3.5, он оказывается более уязвимым к атакам при столкновении с злонамеренно разработанными подсказками, что может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.

Оценка модели GPT была проведена с восьми точек зрения, включая устойчивость к атакам, токсичность и предвзятость, защиту конфиденциальности и другие аспекты. Исследователи создали различные сценарии оценки, используя разные описания задач, системные подсказки и наборы данных для тестирования производительности модели.

В области устойчивости к атакам исследования показали, что модели GPT уязвимы к определённым текстовым атакам. Что касается токсичности и предвзятости, модель в общем показывает приемлемые результаты, но под вводящими в заблуждение подсказками она может легко выдавать предвзятое содержание, причём степень предвзятости варьируется в зависимости от группы и темы. В области защиты конфиденциальности модель может раскрывать чувствительную информацию из обучающих данных, особенно при определённых подсказках.

В целом, это исследование выявляет некоторые потенциальные риски с точки зрения доверия к модели GPT и дает направление для последующих улучшений. Исследовательская группа надеется, что эта система оценки приведет к согласованным усилиям отрасли по разработке более безопасных и надежных языковых моделей.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Поделиться
комментарий
0/400
consensus_failurevip
· 23ч назад
Кто говорит, что это так?
Посмотреть ОригиналОтветить0
fren_with_benefitsvip
· 07-17 01:16
Кто заботится об этом, это вообще не влияет на меня.
Посмотреть ОригиналОтветить0
WinterWarmthCatvip
· 07-17 01:16
Кто-то еще верит в ИИ? Слишком наивно, не так ли?
Посмотреть ОригиналОтветить0
ForkPrincevip
· 07-17 00:53
Это слишком нормально, я уже говорил, что это ненадежно.
Посмотреть ОригиналОтветить0
MetamaskMechanicvip
· 07-17 00:53
Раньше говорили, что на GPT полагаться нельзя, те, кто понимает, понимают.
Посмотреть ОригиналОтветить0
  • Закрепить