допустим можно 600м модельку с 16к контекстом на 2х3090 поставить в претрен в ds zero 3 + cpu offload на 8гб данных fineweb2 (ну это супермало, но для примеру) будет всего 300 часов, по сути 10 дней
допустим можно 600м модельку с 16к контекстом на 2х3090 поставить в претрен в…
0 viewsОткрыть в Telegram →
Из этого канала
- #5814Пока тесчу понял что надо конфиги моделек скорректировать немного + добавил мое…
Пока тесчу понял что надо конфиги моделек скорректировать немного + добавил мое посмотрим как тюниться будет
- #5815https://github.com/databricks/megablocks
https://github.com/databricks/megablocks
- #5816https://allenai.org/blog/open-coding-agents
https://allenai.org/blog/open-coding-agents
- #5811открываешь страницу. а там рл в шашки играет
открываешь страницу. а там рл в шашки играет
- #5810Кста, из прикольного! У нас же внутри даже лежит секретная страничка про…
Кста, из прикольного! У нас же внутри даже лежит секретная страничка про обычный RL) и там альфазеро в шашки играет ну точнее играл...