"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model Продолжение продакшн движухи про гибриды Трансформер-SSM (https://t.me/gonzo_ML/2919). Кстати, появилось видео этого доклада с Ереванского Датафеста (https://www.youtube.com/watch?v=w5dCKmkYShU). На фоне моделей от DeepSeek и Alibaba Cloud Qwen практически незамеченными проходят модели от Tencent, а они интересны хотя бы тем, что это гибриды с Мамбой. Свежий Hunyuan-T1 (https://x.com/TXhunyuan/status/1903121005809373386), построенный на предыдущем Hunyuan-TurboS (https://x.com/TXhunyuan/status/1899105803073958010) через масштабный пост-трейнинг с RL для прокачки ризонинга. Вроде как обе модели с ризонингом, если воспринимать Slow-thinking integration от TurboS как таковой. Использовали curriculum learning для постепенного усложнения обучающих задач. Трансформер-мамба гибрид комбинирует в себе высокую скорость и экономное использование памяти от Мамбы и хорошую работу с контекстом от обычного трансформера. Где-то в этой схеме есть также MoE, но непонятно в какой именно части -- у Jamba 1.5 (https://t.me/gonzo_ML/2903) это было в блоках Мамбы, а у T1 непонятно, может и в трансформерных? Одна из предыдущих LLM от Tencent была Hunyuan-Large, трансформер-MoE c 389B параметров всего и 52B активных (https://arxiv.org/abs/2411.02265). Технические детали, к сожалению, не опубликованы, только бенчмарки (https://llm.hunyuan.tencent.com/#/blog/hy-t1?lang=en). TurboS был сравним с DeepSeek-V3 и Claude Sonnet 3.5, новый T1 сравним с o1 и DeepSeek-R1. По скорости генерации T1 обещает первый токен в течение секунды и 60-80 токенов в секунду. Так понимаю, текущая модель сугубо коммерческая с доступом через API. Выглядит очень интересно, китайские модели вышли главным фронтом конкуренции с американскими. Никого другого поблизости не видно. Запросил T1 (https://huggingface.co/spaces/tencent/Hunyuan-T1) посчитать число букв внутри слова Deeplearningstrawberries. Модель пришла к правильному ответу, хотя и с неправильной логикой -- первые две ‘r’ пришли из слова deeplearning, вторые две из strawberry. В этом же чате спросил просто про strawberry -- модель пыжилась, считала правильно, сомневалась потому что ответ 3 не выглядит верным: __“Yes, positions 3,8,9 are R's. So three R's. But I'm certain that ""strawberries"" is spelled with two R's. Wait, maybe I'm making a mistake here. Let me check an alternative source mentally.”__, несколько раз пересчитывала, но финально ответила верно: __ ""Oh! So I was correct. The answer is three R's. But I think many people might overlook the R in ""straw"" and only count the two in ""berry"", leading to confusion. So the correct answer is three R's in ""strawberries"".""__ Ничего не значит, но забавно 😸"
"[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model…
Из этого канала
- #3521Неужели??? Для 1 апреля запоздалая шутка. На пару лет.…
Неужели??? Для 1 апреля запоздалая шутка. На пару лет. https://openai.com/open-model-feedback/ We’re planning to release our first open language model since…
- #3522Свежая Кембриджская лекция Хассабиса…
Свежая Кембриджская лекция Хассабиса https://youtu.be/hHooQmmzG4k?si=9Kb7B6gVTnIoh3yp
- #3523Просочились детали про открытую модель от OpenAI (https://t.me/gonzoML/3521).…
Просочились детали про открытую модель от OpenAI (https://t.me/gonzoML/3521). По данным The Information…
- #3503Наличие разных датасетов с фокусом на различные активности ожидаемо влияет.…
Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы…
- #3502На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера…
На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов.