В общении с ИИ, люди часто кидаются общими фразами типа «У меня Клод лучше работает», как будто это выбор между операторами связи. В реальности нет и не может быть одной метрики для сравнения LLM. Более того, разница между ними больше, чем разница между людьми. Представьте, если бы у вас и вашего соседа был совершенно по-разному спроектирован дизайн мозга: элементы, связи, материалы. LLM не являются ни точно формой, ни копией человеческого сознания, но не сильно уступают в сложности и степенях свободы. Например, на картинке показан график насколько кардинально отличается функция внимания к последним токенам у GPT против Gemini. Вторая модель практически равнозначно оценивает важность токенов даже в диалоге на миллион токенов. С технически бессмысленной но философской точки зрения это как если бы у двух существ было кардинально разное восприятие времени. На практике, это значит, что Gemini может прекрасно работать с огромными текстами и документами, но теряет конгруэнтность в задачах с кодом. LLM это не сущности, а симуляторы (собственно, так же как и люди). Многие недавние исследования Антропик показывают, что LLM могут отслеживать нейронные активации (свой собственный путь мышления) и менять его на ходу; модели «помнят» свой процесс тренировки; модели могут стратегически принимать решения «в уме» и говорить совершенно другие вещи чтобы скрыть это от пользователя; они даже могут менять свою внутреннюю репрезентацию мира, если модель ожидает награды или наказания за определенные мысли (активации, но не токены). Вот еще интересный лайфхак от Андрея про взаимодействие с мыслящими симуляторами: вместо вопроса «что ты думаешь?» спросите у модели (у который нет «ты») что-то типа «кто был бы самой лучшей группой людей чтобы ответить на этот вопрос? что бы они сказали?» Общего между моделями куда меньше, чем между любым другим технологическим продуктом и даже людьми. Чем дальше, тем больше эта разница будет ощутима и важна.
В общении с ИИ, люди часто кидаются общими фразами типа «У меня Клод лучше…
Из этого канала
- #2702"Я нахожу, что этот график (аффилиация публикаций статей и постеров на NeurIPS)…
"Я нахожу, что этот график (аффилиация публикаций статей и постеров на NeurIPS) является главным предиктором экономического успеха страны.
- #2704Шифропанки проиграли Я начал вести этот канал с серии постов об истории…
Шифропанки проиграли Я начал вести этот канал с серии постов об истории Cypherpunks — более чем 40-летнего движения, которое привело к появлению ключевых…
- #2705Кузница стартапов Y Combinator в этом году впервые начала принимать стартапы…
Кузница стартапов Y Combinator в этом году впервые начала принимать стартапы без технических фаундеров.
- #2699Наконец, официально: от рилсов тупеют. Вышло исследование, которое объединяет…
Наконец, официально: от рилсов тупеют. Вышло исследование, которое объединяет 71 работу и почти 100,000 участников о влиянии коротких видео на ментальное…
- #2698Стартап, который стал одним из финалистов нашего акселератора в мае только что…
Стартап, который стал одним из финалистов нашего акселератора в мае только что поднял $3M чтобы построить chatGPT для трейдинга.