Telegram Group & Telegram Channel
Синтетические респонденты наносят ответный удар
Отвечаем на вопросы и проясняем неясности, оставшиеся с прошлого раза.

Кому и зачем нужны синтетические респонденты?
Евангелисты предлагают заменить всех – и исследователей, и респондентов – на LLM. Это позволит ускорить проверку гипотез, вынеся ненадежных людей за скобки.

Очевидно, что нынешний уровень технологий пока не позволяет так сделать. И мы вынужденно переходим к более скромной задаче: отбросить заведомо неудачные идеи, гипотезы и концепции (concept-test).

Как мы писали, никакое интервью не даст вам ответа на вопрос, «взлетит или не взлетит» - но оно может помочь отсечь заведомо провальные концепции. А уже прошедшие фильтр концепции могут быть доработаны и проверены на людях. Именно поэтому мы проверяли концепции, которые провалились. Потому что если LLM из роли респондента может в принципе это сделать, то, наверное, у таких концепт-тестов есть потенциал?

И здесь мы сталкиваемся с двумя проблемами:

🅰️ Конформизм
LLM дают характерный вайб ответов. Это типичные «ходоки». Они очень хотят понравиться исследователю и подстроиться под него. Они одобряют все, что вы им предложите, и со всем согласны.
Виталий Болотаев поставил смелый эксперимент с Grok, предложив ему оценить идею пива с заведомо неприемлемым вкусом. Результат эксперимента - безусловное одобрение. Почему это так? Виталий пишет:
«ИИ может выдавать "угодливые" или "полярные" ответы, если в запросе есть намёк на предпочтение определённой точки зрения. Это не осознанное желание "угодить", а следствие статистической оптимизации: модель стремится максимизировать вероятность положительной оценки».

Возникает вопрос: можно ли решить проблему конформизма LLM с помощью промптинга в принципе? Или же нам нужно двигаться в сторону кастомных LLM и забыть условный Chat GPT как страшный сон? Спойлер: возможно, к этому и идет.

🅱️ Неполнота данных
Можем ли мы вообще полагаться на данные, заложенные в LLM? А что, если они неполны или системно искажены? Есть прекрасная статья «Персона, созданная LLM, - это обещание с подвохом» – где авторы ставят эксперименты. Общий вывод: «чем больше контента, созданного LLM, включалось в персоны, тем больше их смоделированные мнения расходились с реальными данными». Эти синтетические респонденты чаще выбирают экологичные машины, гуманитарные специальности, романтические фильмы и голосуют за демократов.

Критика нашего эксперимента:

1️⃣ «У вас неправильные промпты. Правильные должны быть не короче двух страниц»
Странно оценивать промпты по длине, а не по содержанию.
Но, как бы то ни было, повторение экспериментов с расширенным описанием персон и более детальным сеттингом интервью пока не опровергло наших результатов. Кошатница по-прежнему хочет купить Febreze, а айтишник из Сан-Франциско все также хочет попробовать AI-сервис для проверки договоров аренды.
Добавление в промпт инструкций для снижения конформизма не поменяло результат принципиальным образом.

2️⃣ «Role-prompting не подходит для синтетических респондентов в принципе»
Ксения Воейкова пишет, что ролевой промптинг не работает для reasoning LLM, и для таких задач нужно использовать цифровых двойников – отсылая к статье «Генеративные агенты: моделирование 1000 реальных людей». Авторы получили обнадеживающие результаты: точность цифровых двойников при воспроизведении опросников и экономических игр оказалась выше, чем у агентов, обученных на демографических данных или кратких описаниях.

Проблема в том, что авторы не тестировали никакие концепции - ни на людях, ни на цифровых двойниках. Следовательно, мы не знаем, применимы ли эти цифровые двойники для концепт-тестов – где мы должны не воспроизвести установки и ценности, а оценить конкретный продукт с точки зрения возможной покупки.
Если для создания цифрового двойника, который сможет тестировать концепции новых напитков, нам придется проводить U&A интервью с живыми респондентами, то не проще ли сразу опрашивать живых людей?

В третьей части сравним разные LLM между собой и проверим новые провальные концепции.
💽 @PostPostResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4522🔥21



tg-me.com/postpostresearch/290
Create:
Last Update:

Синтетические респонденты наносят ответный удар
Отвечаем на вопросы и проясняем неясности, оставшиеся с прошлого раза.

Кому и зачем нужны синтетические респонденты?
Евангелисты предлагают заменить всех – и исследователей, и респондентов – на LLM. Это позволит ускорить проверку гипотез, вынеся ненадежных людей за скобки.

Очевидно, что нынешний уровень технологий пока не позволяет так сделать. И мы вынужденно переходим к более скромной задаче: отбросить заведомо неудачные идеи, гипотезы и концепции (concept-test).

Как мы писали, никакое интервью не даст вам ответа на вопрос, «взлетит или не взлетит» - но оно может помочь отсечь заведомо провальные концепции. А уже прошедшие фильтр концепции могут быть доработаны и проверены на людях. Именно поэтому мы проверяли концепции, которые провалились. Потому что если LLM из роли респондента может в принципе это сделать, то, наверное, у таких концепт-тестов есть потенциал?

И здесь мы сталкиваемся с двумя проблемами:

🅰️ Конформизм
LLM дают характерный вайб ответов. Это типичные «ходоки». Они очень хотят понравиться исследователю и подстроиться под него. Они одобряют все, что вы им предложите, и со всем согласны.
Виталий Болотаев поставил смелый эксперимент с Grok, предложив ему оценить идею пива с заведомо неприемлемым вкусом. Результат эксперимента - безусловное одобрение. Почему это так? Виталий пишет:

«ИИ может выдавать "угодливые" или "полярные" ответы, если в запросе есть намёк на предпочтение определённой точки зрения. Это не осознанное желание "угодить", а следствие статистической оптимизации: модель стремится максимизировать вероятность положительной оценки».

Возникает вопрос: можно ли решить проблему конформизма LLM с помощью промптинга в принципе? Или же нам нужно двигаться в сторону кастомных LLM и забыть условный Chat GPT как страшный сон? Спойлер: возможно, к этому и идет.

🅱️ Неполнота данных
Можем ли мы вообще полагаться на данные, заложенные в LLM? А что, если они неполны или системно искажены? Есть прекрасная статья «Персона, созданная LLM, - это обещание с подвохом» – где авторы ставят эксперименты. Общий вывод: «чем больше контента, созданного LLM, включалось в персоны, тем больше их смоделированные мнения расходились с реальными данными». Эти синтетические респонденты чаще выбирают экологичные машины, гуманитарные специальности, романтические фильмы и голосуют за демократов.

Критика нашего эксперимента:

1️⃣ «У вас неправильные промпты. Правильные должны быть не короче двух страниц»
Странно оценивать промпты по длине, а не по содержанию.
Но, как бы то ни было, повторение экспериментов с расширенным описанием персон и более детальным сеттингом интервью пока не опровергло наших результатов. Кошатница по-прежнему хочет купить Febreze, а айтишник из Сан-Франциско все также хочет попробовать AI-сервис для проверки договоров аренды.
Добавление в промпт инструкций для снижения конформизма не поменяло результат принципиальным образом.

2️⃣ «Role-prompting не подходит для синтетических респондентов в принципе»
Ксения Воейкова пишет, что ролевой промптинг не работает для reasoning LLM, и для таких задач нужно использовать цифровых двойников – отсылая к статье «Генеративные агенты: моделирование 1000 реальных людей». Авторы получили обнадеживающие результаты: точность цифровых двойников при воспроизведении опросников и экономических игр оказалась выше, чем у агентов, обученных на демографических данных или кратких описаниях.

Проблема в том, что авторы не тестировали никакие концепции - ни на людях, ни на цифровых двойниках. Следовательно, мы не знаем, применимы ли эти цифровые двойники для концепт-тестов – где мы должны не воспроизвести установки и ценности, а оценить конкретный продукт с точки зрения возможной покупки.
Если для создания цифрового двойника, который сможет тестировать концепции новых напитков, нам придется проводить U&A интервью с живыми респондентами, то не проще ли сразу опрашивать живых людей?

В третьей части сравним разные LLM между собой и проверим новые провальные концепции.
💽 @PostPostResearch

BY PostPostResearch: Константин Ефимов и Анастасия Жичкина


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/postpostresearch/290

View MORE
Open in Telegram


PostPostResearch Telegram | DID YOU KNOW?

Date: |

How to Invest in Bitcoin?

Like a stock, you can buy and hold Bitcoin as an investment. You can even now do so in special retirement accounts called Bitcoin IRAs. No matter where you choose to hold your Bitcoin, people’s philosophies on how to invest it vary: Some buy and hold long term, some buy and aim to sell after a price rally, and others bet on its price decreasing. Bitcoin’s price over time has experienced big price swings, going as low as $5,165 and as high as $28,990 in 2020 alone. “I think in some places, people might be using Bitcoin to pay for things, but the truth is that it’s an asset that looks like it’s going to be increasing in value relatively quickly for some time,” Marquez says. “So why would you sell something that’s going to be worth so much more next year than it is today? The majority of people that hold it are long-term investors.”

That strategy is the acquisition of a value-priced company by a growth company. Using the growth company's higher-priced stock for the acquisition can produce outsized revenue and earnings growth. Even better is the use of cash, particularly in a growth period when financial aggressiveness is accepted and even positively viewed.he key public rationale behind this strategy is synergy - the 1+1=3 view. In many cases, synergy does occur and is valuable. However, in other cases, particularly as the strategy gains popularity, it doesn't. Joining two different organizations, workforces and cultures is a challenge. Simply putting two separate organizations together necessarily creates disruptions and conflicts that can undermine both operations.

PostPostResearch from us


Telegram PostPostResearch: Константин Ефимов и Анастасия Жичкина
FROM USA