7B это 4-5Гб VRAM на 4-bit, можно практически на любой консьюмерской GPU запустить и проверить сервис, если есть его исходники 😎