Про важность харнесса на примере Клод Кода: https://www.anthropic.com/engineering/april-23-postmortem Продолжение темы https://t.me/gonzo_ML/5209
Про важность харнесса на примере Клод Кода:…
Из этого канала
- #5237Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в…
Разбор архитектуры свежего DeepSeek-V4. Впечатляет вот это: на контексте в миллион токенов V4 требует всего 27% FLOPs при инференсе одного токена и лишь 10%…
- #5247Интересное на подумать. Generalization at the Edge of Stability Mario Tuci,…
Интересное на подумать. Generalization at the Edge of Stability Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal Статья:…
- #5255И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There…
И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There Will Be a Scientific Theory of Deep Learning Jamie Simon, Daniel Kunin, Alexander…
- #5235Свежак от DeepSeek https://github.com/deepseek-ai/TileKernels Tile Kernels…
Свежак от DeepSeek https://github.com/deepseek-ai/TileKernels Tile Kernels Optimized GPU kernels for LLM operations, built with TileLang.
- #5232"Шажок на пути к автоматической науке GIANTS: Generative Insight Anticipation…
"Шажок на пути к автоматической науке GIANTS: Generative Insight Anticipation from Scientific Literature Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y.