PostPostResearch: Константин Ефимов и Анастасия Жичкина

Синтетические респонденты наносят ответный удар
Отвечаем на вопросы и проясняем неясности, оставшиеся с прошлого раза.

❓Кому и зачем нужны синтетические респонденты?
Евангелисты предлагают заменить всех – и исследователей, и респондентов – на LLM. Это позволит ускорить проверку гипотез, вынеся ненадежных людей за скобки.

Очевидно, что нынешний уровень технологий пока не позволяет так сделать. И мы вынужденно переходим к более скромной задаче: отбросить заведомо неудачные идеи, гипотезы и концепции (concept-test).

Как мы писали, никакое интервью не даст вам ответа на вопрос, «взлетит или не взлетит» - но оно может помочь отсечь заведомо провальные концепции. А уже прошедшие фильтр концепции могут быть доработаны и проверены на людях. Именно поэтому мы проверяли концепции, которые провалились. Потому что если LLM из роли респондента может в принципе это сделать, то, наверное, у таких концепт-тестов есть потенциал?

И здесь мы сталкиваемся с двумя проблемами:

🅰️ Конформизм
LLM дают характерный вайб ответов. Это типичные «ходоки». Они очень хотят понравиться исследователю и подстроиться под него. Они одобряют все, что вы им предложите, и со всем согласны.
Виталий Болотаев поставил смелый эксперимент с Grok, предложив ему оценить идею пива с заведомо неприемлемым вкусом. Результат эксперимента - безусловное одобрение. Почему это так? Виталий пишет:

«ИИ может выдавать "угодливые" или "полярные" ответы, если в запросе есть намёк на предпочтение определённой точки зрения. Это не осознанное желание "угодить", а следствие статистической оптимизации: модель стремится максимизировать вероятность положительной оценки».

Возникает вопрос: можно ли решить проблему конформизма LLM с помощью промптинга в принципе? Или же нам нужно двигаться в сторону кастомных LLM и забыть условный Chat GPT как страшный сон? Спойлер: возможно, к этому и идет.

🅱️ Неполнота данных
Можем ли мы вообще полагаться на данные, заложенные в LLM? А что, если они неполны или системно искажены? Есть прекрасная статья «Персона, созданная LLM, - это обещание с подвохом» – где авторы ставят эксперименты. Общий вывод: «чем больше контента, созданного LLM, включалось в персоны, тем больше их смоделированные мнения расходились с реальными данными». Эти синтетические респонденты чаще выбирают экологичные машины, гуманитарные специальности, романтические фильмы и голосуют за демократов.

Критика нашего эксперимента:

1️⃣ «У вас неправильные промпты. Правильные должны быть не короче двух страниц»
Странно оценивать промпты по длине, а не по содержанию.
Но, как бы то ни было, повторение экспериментов с расширенным описанием персон и более детальным сеттингом интервью пока не опровергло наших результатов. Кошатница по-прежнему хочет купить Febreze, а айтишник из Сан-Франциско все также хочет попробовать AI-сервис для проверки договоров аренды.
Добавление в промпт инструкций для снижения конформизма не поменяло результат принципиальным образом.

2️⃣ «Role-prompting не подходит для синтетических респондентов в принципе»
Ксения Воейкова пишет, что ролевой промптинг не работает для reasoning LLM, и для таких задач нужно использовать цифровых двойников – отсылая к статье «Генеративные агенты: моделирование 1000 реальных людей». Авторы получили обнадеживающие результаты: точность цифровых двойников при воспроизведении опросников и экономических игр оказалась выше, чем у агентов, обученных на демографических данных или кратких описаниях.

Проблема в том, что авторы не тестировали никакие концепции - ни на людях, ни на цифровых двойниках. Следовательно, мы не знаем, применимы ли эти цифровые двойники для концепт-тестов – где мы должны не воспроизвести установки и ценности, а оценить конкретный продукт с точки зрения возможной покупки.
Если для создания цифрового двойника, который сможет тестировать концепции новых напитков, нам придется проводить U&A интервью с живыми респондентами, то не проще ли сразу опрашивать живых людей?

В третьей части сравним разные LLM между собой и проверим новые провальные концепции.

💽

@PostPostResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45❤22🔥21

www.tg-me.com/us/PostPostResearch/com.postpostresearch/290

6.78K viewsApr 4 at 06:09

tg-me.com/postpostresearch/290

Create: 2025-04-04
Last Update: 2025-07-09 04:55:32

«ИИ может выдавать "угодливые" или "полярные" ответы, если в запросе есть намёк на предпочтение определённой точки зрения. Это не осознанное желание "угодить", а следствие статистической оптимизации: модель стремится максимизировать вероятность положительной оценки».

💽

@PostPostResearch

PostPostResearch Telegram | DID YOU KNOW?

How to Invest in Bitcoin?

Синтетические респонденты наносят ответный ударОтвечаем на вопросы и проясняем неясности