VCBench: предсказываем успех фаундера Коль есть такие бенчмарки как SWEBench -… — @ProductsAndStartups

VCBench: предсказываем успех фаундера Коль есть такие бенчмарки как SWEBench - для оценки качества кодинга LLM-ками - то пора бы уже сделать и бенчмарки для VC. Собственно, это и сделала группа ресерчеров из Оксфорда и фонда Vela Research —> давайте разбираться: 1) В общем, задачка предсказания успеха фаундера - одна из самых сложных. Рынок это делает с точностью 1.9%, YC - 3.2%, топовые VC - 5.6%. Уже есть работы, которые утверждают, что делают это сильно лучше (1, 2). Поэтому хорошо бы иметь какой-то стандартизированный бенчмарк, на котором можно было бы обкатывать эти работы/модели 2) VCBench - как раз такой датасет: анонимизированные профили 9000 фаундеров (по их оценке они покрыли около 20% стартапов в США за 2010-2018гг), 9% из них - успешные. 3) По каждому фаундеру есть инфа: успех, индустрия, предыдущие экзиты, история учебы и работы. Успешным считается такой фаундер, чью компанию купили, или он сделал IPO по оценке >$500M или поднял хотя бы $500M, в течение 8 лет после старта. Могу успокоиться и считать себя успешным фаундером теперь :) 4) Собственно, на этом датасете и прогнали модельки разные - в аттаче результаты —> все они делают это в разы лучше, чем VC :) 5) Скоро будет датасет не только профилей фаундеров, но и идей и, да, альткоинов :) Надо помониторить ребят 6) Первая упомянутая модель Policy Induction - кстати, тоже от ресерчеров из Oxford и Vela Research - лучше всего отрабатывает. 7) Возможные ограничения/условности результатов: в их выборке было больше, чем обычно успешных фаундеров (9% vs 1.9%), возможно смещенные выборки из-за данных из LinkedIn/Crunchbase. Еще важно, что у VC обычно нет всех таких сделок в наличии, они фильтруют фаундеров и стартапы, и поэтому их более низкие результаты могут быть обьяснены ограниченностью выборки. Помяните мое слово, они за нас и стартапы делать будут скоро, я не просто так Дарвина пилю Вы читайте статью, а я ушёл чекать свой профиль по Policy Induction :)

Из этого канала