Если не видели, тут очередной курс по трансформерам выкладывают. CME 295 - Transformers & Large Language Models This course explores the world of Transformers and Large Language Models (LLMs). You'll learn the evolution of NLP methods, the core components of the Transformer architecture, along with how they relate to LLMs as well as techniques to enhance model performance for real-world applications. Through a mix of theory and practical insights, this course will equip you with the knowledge to leverage LLMs effectively. Ideal for those with a background in calculus, linear algebra, and basic machine learning concepts. https://cme295.stanford.edu/syllabus/
Если не видели, тут очередной курс по трансформерам выкладывают. CME 295 -…
Из этого канала
- #4145Дистилляцию в BitNet (тернарные веса и 1.58-битные модели) завезли!…
Дистилляцию в BitNet (тернарные веса и 1.58-битные модели) завезли! https://t.me/gonzoMLpodcasts/990
- #4147"Прочитал какое-то время назад книгу Юдковского и Соареса ""If Anyone Builds…
"Прочитал какое-то время назад книгу Юдковского и Соареса ""If Anyone Builds It, Everyone Dies: The Case Against Superintelligent AI""…
- #4148"Нормального решения на столе до сих пор нет, от всех ИИ компаний лучится…
"Нормального решения на столе до сих пор нет, от всех ИИ компаний лучится нескончаемый венчурный оптимизм, подкреплённый ничем.
- #4143Агенты для исследования массово выходят в опенсорс. Сразу две работы за…
Агенты для исследования массово выходят в опенсорс. Сразу две работы за последнее время: Barbarians at the Gate: How AI is Upending Systems Research…
- #4130Подбирали количество рекурсий, обнаружили оптимальные значения для HRM T = 3, n…
Подбирали количество рекурсий, обнаружили оптимальные значения для HRM T = 3, n = 3 (эквивалентно 48 рекурсиям) и для TRM T = 3, n = 6 (42 рекурсии), это на…