Один из самых недооцененных трендов, который понимает Дарио или Сэм, но не понимает большая часть индустрии. С выхода GPT-4 прошло два года, при этом только за последний год стоимость использования моделей упала от 9 до 900 раз (см. график). При этом, одновременно, скорость инференса выросла от 4 до 8 раз в зависимости от модели благодаря кастомным чипам, оптимизациями инфраструктуры и компиляторов. Да, в этой гонке есть предел, но до него еще довольно много лет. Метрика, на которую стоит смотреть это не токены в секунду и не MMLU, ибо в практических терминах все сегодняшние модели уже лучше человека. Смотреть стоит на реальное использование, то есть прокси решения насущных проблем сегодняшних бизнесов и академии. А измерять это стоит в perf/watt (производительность на ватт энергии) или, что я услышал на закрытой конфе в выходные и мне очень понравилось, — в $ / ELO of Int. То есть стоимость в долларах за каждое дополнительное очко в рейтинге системы Elo в интеллектуальных задачах. За последний год падение составило около 2 порядков, а в ближайшие годы это произойдет с видео, голосом и другими модальностями.