Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на blackbox модели Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения). Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment). Оптимизация инференса (vLLM, SGLang, TRT). Требования: Опыт работы с LLM (архитектуры, RL, alignment). Знание PyTorch/JAX. Реальная практика с RL методами (DPO, RLHF — плюс). Опыт с системами инференса (vLLM, kuber, docker). Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс. Преимущество: Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов. Условия: Зарплата: 80K–130K usd + опционы. Релокация в Париж🥐, полная занятость. Работа с передовым стеком (AI research, model alignment). Отклик: https://forms.gle/z45WwdBTRHrd8inM9
Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем…
Из этого канала
- #955Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1…
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1 https://huggingface.co/blog/open-r1/update-1
- #956Первая экспериментальная Ruadapt ризонинг модель:…
Первая экспериментальная Ruadapt ризонинг модель: RuadaptQwen2.5-14B-R1-distill-preview-v1 Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT…
- #957Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения…
Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST.
- #950А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на…
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
- #949Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот…
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот так вот верь им теперь.