"Боремся с проклятыми токенами 😎 Люблю статьи от авторов phi — очень простые с топорными методами, но работают хорошо. В тех репорте phi-4 показали, что 🔹 Проклятые (и благословенные) токены существуют 🔹 Предложили, как с этим бороться Для задач, где есть правильный ответ, мы можем найти токены, которые негативно или позитивно влияют на вероятность успешного ответа `p(success)` Как найти такие токены? — авторы называют их pivotal tokens Считаем условную вероятность, что ответ будет правильным при заданном префиксе ответа. То есть просто эмпирически считаем, какой процент правильных ответов будет при префиксе `import Flask` Таким макаром находим все pivotal tokens в нашем трейн сете. И учим модель различать хорошие токены от плохих. Для этого формируем пары prompt = promt + answer prefix good response = good token bad response = bad token И запускаем DPO на этих парах. Еще раз: мы учим предсказывать только один токен! ⚠️ Если бы мы просто делали SFT или DPO на полных ответах, то учились бы предсказывать эти проклятые токены, которые негативно влияют на вероятность успешного ответа. В таблице 9 можно посмотреть, как DPO на pivotal tokens (stage 1) накидывает в качестве по сравнению с обычным DPO и SFT 🤨 Меня удивило, что проклятыми токенами могут быть вполне безобидные токены в стиле предсказал ""that"" вместо ""the"" (см. скрины в треде) 📖 Статья @neural_cat"
"Боремся с проклятыми токенами 😎 Люблю статьи от авторов phi — очень простые с…
Из этого канала
- #910Ни дня без агентов - на этот раз помощник ресерчера. (AMD + университет Джона…
Ни дня без агентов - на этот раз помощник ресерчера. (AMD + университет Джона Хопкинса) Лаборатория Агентов состоит из трех основных фаз, которые…
- #913Еще кайфец от HF 🤗 - smol course по всем видам тюнингов LLMок (все на скрине…
Еще кайфец от HF 🤗 - smol course по всем видам тюнингов LLMок (все на скрине видно) Построен вокруг семейства моделек HF SmolLM2 в размерах 135M, 360M, and…
- #914Ребятки, вот тут очень крутой курс по DL. Единственное только что на английском
Ребятки, вот тут очень крутой курс по DL. Единственное только что на английском
- #906Наткнулся на проект (выложен 3 часа назад первый коммит) где чел учит мелкие…
Наткнулся на проект (выложен 3 часа назад первый коммит) где чел учит мелкие 9/26м параметров RWKV (подвид RNNок, конкурент трансформерам) модельки играть в…
- #905Уверен, что многих интересует как вот там реализуются методы распределенного…
Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).