Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет автоматический анализ комментариев на Hackernews, чтобы подсчитать сентимент в отношении разных моделей. Сейчас Claude по-прежнему обсуждают/упоминают больше всех, но явно наблюдается смешанная реакция: одни хвалят, другие критикуют; GPT, хотя и немного меньше обсуждается, получает гораздо меньше негатива. Каждый день пайплайн: 1. получает 200 самых популярных постов за 24 часа на Hacker News 2. через LLM выбирает посты, заголовки которых посвящены LLM или программированию в целом (максимум 50) 3. Для каждого поста отправляет заголовок и комментарии в Gemini и просит его определить модели из списка и оценить сентимент. На HN выборка достаточно маленькая, поэтому делать далекоидущие выводы не получится. Хотелось бы увидеть такое для Reddit или даже Twitter, но там за API дерут много $.
Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет…
Из этого канала
- #3604Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на…
Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.
- #3605Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть…
Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн.
- #3608Один из интересных графиков в статье с анализом поведениям моделей авторами…
Один из интересных графиков в статье с анализом поведениям моделей авторами статей. GPT думает гораздо больше перед тем, как начать писать какой-либо код.
- #3601"Объявляю конкурс на самую смешную подпись к этому шаблону мема. Тема —…
"Объявляю конкурс на самую смешную подпись к этому шаблону мема. Тема — ИИ/Агенты/что-то, что реально можно было бы сказать своему голосовому ИИ-ассистенту.
- #3600😏 (мы пока так и не получили модели, про которые TheInformation писали в начале…
😏 (мы пока так и не получили модели, про которые TheInformation писали в начале года. Когда же?)