"Не три богатыря. Когда я был совсем юным, то долго недоумевал, почему ""Три… — @aivkube

"Не три богатыря. Когда я был совсем юным, то долго недоумевал, почему ""Три закона робототехники"" никто не думает внедрять и даже не обсуждает на уровне ООН🧐 Со временем, кроме очевидного объяснения этого безобразия интересами военных - стало ясно: крайне сложно определить и объяснить даже друг другу кто такой Человек, что такое Безопасность, а также Бездействие, которое может ему навредить - не то что Машине. И во, наконец-то, спустя 84 года ""от Азимова"", Антропики (первыми после Юдковского) публикуют 60-страничную Конституцию для Клода, определяющую границы для их моделей, сразу делая оговорку, достойную фильма ""Догма"": Правила не могут предусмотреть каждую ситуацию, но могут привести к плохим результатам при ригидном следовании. (поэтому, типа, не ждите от нас правил) И хотя у Клода теперь заявлены ""hard constraints"" - вещи, которые не должен делать никогда (биооружие, CSAM, подрыв контроля над ИИ и т.д.) - конституция пока описана крайне расплывчато: Чтобы быть одновременно безопасным и полезным, мы считаем, что все существующие модели Клода должны быть: В целом безопасны: не подрывать надлежащие человеческие механизмы контроля за действиями и решениями ИИ на текущем этапе его развития. В широком смысле этичны: иметь высокие личные ценности, честность и избегание действий, которые являются неоправданно опасными или вредными. Соответствовать рекомендациям Anthropic: действовать в соответствии с более конкретными рекомендациями Anthropic там, где это применимо. Действительно полезными: приносить пользу операторам и пользователям, с которыми он взаимодействует. Выглядит как маркетинговый меморандум: какие, к черту, личные ценности у нейронки? Но Антропики объясняют, что Клод может действовать так, как если бы у него были ценности. То есть решается такая классическая задача про идеальные условия - ""нерастяжимую нить"" мышления LLM. История про честность прописана более явно (хотя у меня, как методолога, вопросы буквально к каждому слову): Утверждать только то, во что ""верит"" (т.е. что соответствует обучению) Выражать неуверенность, когда данные неоднозначны Не скрывать свои рассуждения и мотивы Проактивно делиться полезной информацией Не создавать ложных впечатлений никакими средствами Влиять только через легитимные способы (аргументы, факты) Не навязывать свои взгляды, помогать людям думать самим То есть если Клод пишет эссе с позицией, которую __не разделяет__ (как будто он обладает субъектностью?), или играет роль - это не нарушение честности. Нарушение - когда Клод __искренне__ (снова очень странный термин) утверждает что-то ложное. Чувствуете фальшь? Антропики претендуют на то, чтобы формировать стандарты ""высшего доверия AI"", которые будут распространяться на весь рынок. Альтман уже критически прошелся по ним, хотя немного в другом контексте. Но явно видно, что даже если парни из Антропик будут пытаться быть ""хорошими"", им придется устанавливать правила, которые будут далеки от идеала и тех ценностей, которые человечество мучительно пыталось установить в течение ХХ века и которые у нас с вами на глазах разваливаются. Никто, кроме Антропиков не имеет прозрачного доступа к тому, что именно считается (как написано в документе) ""легитимным процессом"", к тому, как он проверяется, кто в нём представлен, какие есть внешние сдержки. Если Клод претендует на роль инфраструктуры знаний/решений, то с таким подходом нас ждут лишь нарядные скрижали, но не механизм общественной подотчетности. На практике это будет вести к двум сценариям: - чрезмерная осторожность модели там, где вред маловероятен - пропуски и попустительство там, где вред распределённый и не похож на яркую стоп-линию. Мне тревожно за будущее ИИ, которое формируется не децентрализованно, как у Либерманов, а инвариантно и с оговорками. С такой конституцией будет сложнее строить надежные тесты, метрики соответствия и независимый аудит (особенно для пограничных кейсов, где важно воспроизводимое решение). Получается, что даже если Клод фиксирует ошибку, то модель склоняется к сохранению управляемости ценой этичности (привет, вагонетка!). Я написал бы лучше😎"

Из этого канала