tg-me.com/ai_machinelearning_big_data/7946
Last Update:
Большие языковые модели все активнее проникают в науку, и кажется, что они вот-вот совершат революцию в генерации исследовательских идей. Первые исследования показывали удивительные результаты: идеи, созданные ИИ, эксперты-люди вслепую оценивали как более новаторские и интересные, чем предложения своих коллег. Возникло ощущение, что мы стоим на пороге эры, где креативность станет прерогативой машин.
Ученые из Стэнфорда решили проверить, что стоит за красивой оберткой ИИ-идей. Ведь хорошая идея должна не просто впечатлять на бумаге, а приводить к реальным результатам.
Для этого они провели эксперимент: наняли 43 опытных исследователей и случайным образом раздали им проекты. Часть идей была сгенерирована Claude 3.5 Sonnet, другая — написана экспертами-людьми. Участники, не зная происхождения своей задачи, потратили в среднем по 100 часов на реализацию каждого проекта: писали код, проводили эксперименты и оформляли результаты в виде короткой научной статьи. Весь эксперимент занял почти 3 месяца.
После практической реализации оценки идей, предложенных ИИ, рухнули по всем ключевым метрикам: новизне, значимости, эффективности и общей привлекательности. В то же время оценки человеческих идей почти не изменились.
Этот феномен назвали «разрывом между идеей и реализацией». Если на начальном этапе ИИ-идеи получали условные 6 баллов из 10 за эффективность, то после выполнения проекта их оценка падала до 4. Человеческие идеи, стартовав с 4.8 балла, финишировали с результатом 4.78. Первоначальное преимущество ИИ полностью испарилось.
Анализ показал, что на этапе идеи легко увлечься красивыми формулировками и проигнорировать технические сложности. ИИ отлично справляется с созданием правдоподобных, но поверхностных концепций.
Например, он часто предлагает амбициозные, но трудновыполнимые эксперименты, вроде масштабных опросов носителей языка, которые в реальности исполнители заменяют на более простые, но менее надежные автоматические метрики. Когда же дело доходит до кода и реальных данных, все недочеты, слабые места и отсутствие глубины становятся очевидны.
Команда, работавшая над этим проектом, предлагает 3 пути:
Без этого автоматизация научных открытий останется красивой иллюзией.
Это исследование - важное напоминание для всех, кто работает в технологической сфере. Оно не обесценивает потенциал ИИ, но показывает, что дьявол, как и прежде, кроется в деталях.