"Как запустить рандомную модель на своем железе? Можно повторить то, что сделал Dan Woods, когда ему захотелось самому запустить Qwen3.5-397B на своем M3 Max 48GB (tweet). Он взял Claude Code, ткнул пальцем в autoresearch репу от Andrej Karpathy, скормил статью Apple ""LLM in a Flash"" и сказал, что хочет себе так же. Спустя 5 часов, система запустилась и выдала 1 tok/sec. Еще спустя 3 часа оптимизаций - 4.74 tok/sec и использует 5.9GB RAM. Причем, там еще далеко не все оптимизации реализованы. Как нынче говорят - стоит испытать огромную благодарность к людям, которые раньше реализовывали подобные оптимизации вручную. Ваш, @llm_under_hood 🤗"