🧙‍♂️ Ультимативная тулза The Evaluation Wizard оценивает, тестирует и оптимизирует любые LLM — сокровище для каждого, кто строит свои ИИ-приложения. Прога запускает 30+ оценок, моделируя разные действия. Работает даже без датасета: даём задачу для оценки, генерируем набор данных, кидаем промпт, выбираем настройки и получаем результат. Прогнать тесты и поиск ошибок можно через все LLM, чтобы сравнить и выбрать подходящую. Мастхев для разрабов — тут. @notboring_tech