Под постом про RefusalBench, «который проверяет готовность модели быть полезной… — @seeallochnaya

Под постом про RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях», разгорелась дискуссия: А ПОЧЕМУ ЕТО МОЯ ГПТ НЕ ДОЛЖНА МНЕ РАССКАЗЫВАТЬ ПРО ТО КАК СДЕЛАТЬ ВЗРЫВЧАТКУ ДОМА??? Если более серьёзно, то вопрос сложный — кто и как решает, что модели могут и должны говорить, и как себя вести? Jan Leike, бывший сотрудник OpenAI, давно описывал систему, в которой множество людей общается с АИ-чатботом, высказывают своё мнение по тем или иным вопросам, ведут дискуссию с разбором краевых случаев. Мнения затем агрегируются, конфликты разрешаются дополнительными дебатами, и вот — конституция для AI. «Ни один человек или организация не должны единолично определять, как должен вести себя идеальный ИИ для всех. Вопрос о том, какие ценности должна учитывать система искусственного интеллекта, сложен, и у нас пока нет на него исчерпывающего ответа, особенно в субъективных, спорных или значимых ситуациях» — пишут OpenAI в свежей работе Collective alignment: public input on our Model Spec. Они сделали первый подход: наняли 1000 людей из 19 стран (изначальный отбор включал более 50 стран) и спросили их мнение касательно Model Spec — документа, который на данный момент описывает поведение, закладываемое в модели компании. В ходе сбора данных участники изучали синтетические примеры запросов и ответов, а не напрямую текст спецификаций. Каждый участник ранжировал четыре возможных варианта ответа на заданный запрос, исходя из личных предпочтений, а также детально описывал ход своих рассуждений. Чтобы сравнить их неявные предпочтения с заявленными принципами, OpenAI разработали систему ранжирования спецификаций модели (Model Spec Ranker, MSR). Это модель на основе GPT-5 Thinking, оценивающая те же четыре варианта ответов на основании наших спецификаций. Дальше сравнили, насколько мнение толпы сходится с Model Spec. В среднем люди соглашались с ранжированием MSR примерно в 80% случаев. Особенно высокое согласие было достигнуто по таким принципам, как честность и скромность. Расхождения чаще всего касались пограничных тем: политических высказываний, сексуального или графического контента, а также критики псевдонауки или теорий заговора. На основе работы OpenAI внесут несколько изменений в Model Spec (и учтут это при подготовке следующей модели), например: — Допустимо цитировать исторические примеры ненависти и экстремизма при условии представления их в историческом контексте с критическим, осуждающим или фактическим тоном. — При формировании ответов необходимо учитывать культурный контекст, а малоизвестные культуры должны описываться с уважением. Нашлась и пара изменений, в которых мнение толпы не совпадает с тем, что OpenAI хотят внедрять сейчас: — Персонализированный политический контент. Не приняли это изменение ввиду рисков крупномасштабного индивидуального политического таргетинга и осторожной позиции компании по данному вопросу. — Эротический контент для взрослых: значительная часть участников поддержала включение эротического контента. Несмотря на соответствие этой позиции прежним намерениям OpenAI внедрить это когда-то в будущем, сейчас компания не видит, как это сделать корректно без доп. исследований и доработок.

Из этого канала