⚪️ О стоимости и скорости инференса Вот такие проекты появляются На графике - это Llama 8B x10 быстрее и x20 дешевле B200 17k tps Просто закатали модель в кремний Почитать тут: 🔗 https://taalas.com/the-path-to-ubiquitous-ai/ С таким подходами можно ожидать оркестраторов, которые будут ваншотить SaaS целиком после смены спеки за минуты, а не часы @deksden_notes