Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на blackbox модели Заставлять LLM генерировать рецепты всего и тд Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения). Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment). Оптимизация инференса (vLLM, SGLang, TRT). Требования: Опыт работы с LLM (архитектуры, RL, alignment). Знание PyTorch/JAX. Реальная практика с RL методами (DPO, RLHF — плюс). Опыт с системами инференса (vLLM, kuber, docker). Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс. Преимущество: Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов. Условия: Зарплата: 80K–130K usd + опционы. Релокация в Париж🥐, полная занятость. Работа с передовым стеком (AI research, model alignment). Отклик: https://forms.gle/z45WwdBTRHrd8inM9
Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области…
Из этого канала
- #976Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С…
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.
- #979reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю…
reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰…
- #980Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.…
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть. Контекст 131,072 токенов https://qwenlm.github.io/blog/qwq-32b/…
- #974Ребятки, не забываем про квен (он в России работает) https://chat.qwen.ai/ Там…
Ребятки, не забываем про квен (он в России работает) https://chat.qwen.ai/ Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.
- #972Ммм, там датасетик на 250к семплов под RL над LLMками и ризонинге подвезли. Все…
Ммм, там датасетик на 250к семплов под RL над LLMками и ризонинге подвезли. Все по матеше конечное Это сборка из других открытых датасетов (на скринах) + 47к…