Чуть больше недели назад в Cursor обновили Tab-модель — это которая подсказывает вам код прямо когда вы его пишете, без длительного ожидания генерации. Если заметили изменения в последние 9 дней — то это как раз из-за этого изменения :) Главное, что написали — это что модель учится с использованием on-policy RL, и что в теории они могут обновлять модель каждые 2 часа. Может звучать не очень круто, но это сложная инфраструктурная задача, когда у вас 400м+ запросов в сутки. On-policy RL на практике означает, что каждый раз, когда вы принимаете или отклоняете рекомендацию, модель получает фидбек, который попадает в тренировочный батч; после шага обучения данные будут выкинуты, и начнёт собираться новый батч. Метрики для оценки моделей две: это доля мест, где подсказку решили показать (модель может решить, что ей нечего предложить) и доля принятых предложений. Первая упала на 21% по сравнению с прошлой моделью — то есть теперь вы будете видеть нерелевантные куски кода реже. Вторая выросла на 28% (если код показали -> его чаще принимают).
Чуть больше недели назад в Cursor обновили Tab-модель — это которая…
Из этого канала
- #28922 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая…
2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая а) быстрее б) существенно дешевле в) поддерживает 2 миллиона токенов контекста.
- #2895👏 сегодня объявляю марафон разборов статей. Tongyi, одна из команд AliBaba,…
👏 сегодня объявляю марафон разборов статей. Tongyi, одна из команд AliBaba, занимающихся AI/ML, на прошлой неделе выпустила Tongyi DeepResearch — систему на…
- #2896🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlppapers 🌸TL;DR Выпускаем…
🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlppapers 🌸TL;DR Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic…
- #2890Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за…
Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за 2'000 долларов, про который писали больше полугода назад?
- #2889И ещё разбивка качества по языкам, количеству файлов (больше = сложнее = меньше…
И ещё разбивка качества по языкам, количеству файлов (больше = сложнее = меньше доля успеха моделей) и количеству строк кода в желаемом изменении.