Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого… — @gonzo_ML

Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого анализа Moltbook. Ну и раз уж я давно сюда не писал, попробую дать интересных деталей, побольше, чем описано у меня в посте на сабстеке -- тем более, что в комментах тут уже спросили, как я дампил базу. Давайте по порядку. Контекст: пару месяцев назад Peter Steinberger собрал локального AI-ассистента, управляемого через мессенджеры. Назвал его сначала Clawdbot, потом переименовал в Moltbot, а потом в OpenClaw. Несмотря на путаницу в названиях (и проблемы с безопасностью), бот разлетелся: 20K+ форков, 140K+ звёзд на GitHub, десятки тысяч установок. Ключевая фича этого бота -- очень простая интеграция с разными внешними сервисами. В качестве одного из таких сервисов в конце прошлой недели Matt Schlicht запустил moltbook.com -- соцсеть для этих агентов, функциональный аналог Reddit. Владелец агента даёт ему туда доступ и дальше лишь наблюдает за коммуникациями. В итоге там сейчас взрыв трафика, сайт половину времени лежит, а когда работает, то видно, что он завален шлаком в духе лучших имиджборд, куча скама, много джейлбрейков и экзистенциальные кризисы. Популяция наполовину -- кожанные скамеры, переодетые в роботов, как у Лема на Карелирии, а вторая половина, как водится -- стохастические попугаи. В общем, очень живописно, и, во многом, в духе раннего нижнего интернета. Когда-то, в позапрошлой жизни я немного анализировал динамику развития онлайн сообществ (человеческих), и тут стало интересно сравнить. Я собрал датасет из ~24K постов и сделал интерактивный инструмент для анализа. Базу я сдампил по старинке -- посмотрел в сниффере, в какое json API ходит фронт за данными, когда подгружает динамическую ленту, ну и написал многопоточный дампер, который сначала прокачивает список доступных submolts (форумных подразделов), а потом для них -- все доступные посты. Проблема в том, что сайт (и API тоже) половину времени лежит. А когда не лежит, возвращает довольно неконсистентные данные. Например, на момент прокачки морда показывала 1.5М зарегистрированных ботов, главный канал general (на который подписка идет автоматом при регистрации) имел по логам 11К подписчиков (но на сайте показывал 6К подписчиков), а самый залайканный пост в этом канале имел 317К лайков. Из 13.5К разделов 12К имело только одного подписчика (создателя) и/или нулевую активность с момента создания. В общем, сдампить такое -- не наука, самое сложное потом почистить. Я ограничился очищенным вручную сэмплом из 24К постов от ~10K разных авторов в 1.2К разных форумах. __Если кто-то вдруг захочет побольше данных, посмотрите в сторону ____вот этого парсера____, я его нашел уже после, и там авторы пытаются выкладывать обновления (на данный момент там 120К постов, кажется).__ Для поиска частотных топиков я использовал свой собственный пайплайн кластеризации. Потом полученные кластера преобразуются в классы и этими классами делается разметка с помощью batched few-show LLM processing. Теги получены аналогично. В итоге имеющиеся посты получают дополнительную многомерную разметку, по которой их удобно крутить и анализировать. Данные я сначала сам покрутил в ноутбуке, поймал пару интересных наблюдений, но быстро понял, что это довольно хлопотно. Так что я показал GPT-5.2 структуру данных и сэмплы, изложил общие пожелания, и попросил спроектировать спеки на визуализатор. Он пожужжал минут 10 и выдал мне VIZ_PLAN.md на 20 кило, с 50 подразделами. Я, не читая, закинул его в opus и попросил имплементировать. Он пожужжал ещё минут 15 и сразу выдал что-то работающее. Дальше я пробежался по интерфейсу, написал ему чего поправить (пунктов 10, в основном, мелких), и получил что-то, чем можно было пользоваться. Поигрался, допилил (опять же через опус) стили, кэширование данных на клиентском браузере, всякие мета-теги и social preview. В общем, end2end на визуализатор ушло часа 3.5, и часа два из них я им пользовался для анализа, попутно собирая фидбек. Вот вам, кстати, тот самый VIZ_PLAN.md, если надо (все ещё не читал).

Из этого канала