Чуть больше недели назад в Cursor обновили Tab-модель — это которая подсказывает вам код прямо когда вы его пишете, без длительного ожидания генерации. Если заметили изменения в последние 9 дней — то это как раз из-за этого изменения :) Главное, что написали — это что модель учится с использованием on-policy RL, и что в теории они могут обновлять модель каждые 2 часа. Может звучать не очень круто, но это сложная инфраструктурная задача, когда у вас 400м+ запросов в сутки. On-policy RL на практике означает, что каждый раз, когда вы принимаете или отклоняете рекомендацию, модель получает фидбек, который попадает в тренировочный батч; после шага обучения данные будут выкинуты, и начнёт собираться новый батч. Метрики для оценки моделей две: это доля мест, где подсказку решили показать (модель может решить, что ей нечего предложить) и доля принятых предложений. Первая упала на 21% по сравнению с прошлой моделью — то есть теперь вы будете видеть нерелевантные куски кода реже. Вторая выросла на 28% (если код показали -> его чаще принимают).