tg-me.com/postpostresearch/290
Last Update:
Синтетические респонденты наносят ответный удар
Отвечаем на вопросы и проясняем неясности, оставшиеся с прошлого раза.
❓Кому и зачем нужны синтетические респонденты?
Евангелисты предлагают заменить всех – и исследователей, и респондентов – на LLM. Это позволит ускорить проверку гипотез, вынеся ненадежных людей за скобки.
Очевидно, что нынешний уровень технологий пока не позволяет так сделать. И мы вынужденно переходим к более скромной задаче: отбросить заведомо неудачные идеи, гипотезы и концепции (concept-test).
Как мы писали, никакое интервью не даст вам ответа на вопрос, «взлетит или не взлетит» - но оно может помочь отсечь заведомо провальные концепции. А уже прошедшие фильтр концепции могут быть доработаны и проверены на людях. Именно поэтому мы проверяли концепции, которые провалились. Потому что если LLM из роли респондента может в принципе это сделать, то, наверное, у таких концепт-тестов есть потенциал?
И здесь мы сталкиваемся с двумя проблемами:
🅰️ Конформизм
LLM дают характерный вайб ответов. Это
Виталий Болотаев поставил смелый эксперимент с Grok, предложив ему оценить идею пива с заведомо неприемлемым вкусом. Результат эксперимента - безусловное одобрение. Почему это так? Виталий пишет:
«ИИ может выдавать "угодливые" или "полярные" ответы, если в запросе есть намёк на предпочтение определённой точки зрения. Это не осознанное желание "угодить", а следствие статистической оптимизации: модель стремится максимизировать вероятность положительной оценки».
Возникает вопрос: можно ли решить проблему конформизма LLM с помощью промптинга в принципе? Или же нам нужно двигаться в сторону кастомных LLM и забыть условный Chat GPT как страшный сон? Спойлер:
🅱️ Неполнота данных
Можем ли мы вообще полагаться на данные, заложенные в LLM? А что, если они неполны или системно искажены? Есть прекрасная статья «Персона, созданная LLM, - это обещание с подвохом» – где авторы ставят эксперименты. Общий вывод: «чем больше контента, созданного LLM, включалось в персоны, тем больше их смоделированные мнения расходились с реальными данными». Эти синтетические респонденты чаще выбирают экологичные машины, гуманитарные специальности, романтические фильмы и голосуют за демократов.
Критика нашего эксперимента:
1️⃣ «У вас неправильные промпты. Правильные должны быть не короче двух страниц»
Странно оценивать промпты по длине, а не по содержанию.
Но, как бы то ни было, повторение экспериментов с расширенным описанием персон и более детальным сеттингом интервью пока не опровергло наших результатов. Кошатница по-прежнему хочет купить Febreze, а айтишник из Сан-Франциско все также хочет попробовать AI-сервис для проверки договоров аренды.
Добавление в промпт инструкций для снижения конформизма не поменяло результат принципиальным образом.
2️⃣ «Role-prompting не подходит для синтетических респондентов в принципе»
Ксения Воейкова пишет, что ролевой промптинг не работает для reasoning LLM, и для таких задач нужно использовать цифровых двойников – отсылая к статье «Генеративные агенты: моделирование 1000 реальных людей». Авторы получили обнадеживающие результаты: точность цифровых двойников при воспроизведении опросников и экономических игр оказалась выше, чем у агентов, обученных на демографических данных или кратких описаниях.
Проблема в том, что авторы не тестировали никакие концепции - ни на людях, ни на цифровых двойниках. Следовательно, мы не знаем, применимы ли эти цифровые двойники для концепт-тестов – где мы должны не воспроизвести установки и ценности, а оценить конкретный продукт с точки зрения возможной покупки.
Если для создания цифрового двойника, который сможет тестировать концепции новых напитков, нам придется проводить U&A интервью с живыми респондентами, то не проще ли сразу опрашивать живых людей?
В третьей части сравним разные LLM между собой и проверим новые провальные концепции.