Telegram Group & Telegram Channel
📌Идеи, генерируемые ИИ проваливают проверку реальностью.

Большие языковые модели все активнее проникают в науку, и кажется, что они вот-вот совершат революцию в генерации исследовательских идей. Первые исследования показывали удивительные результаты: идеи, созданные ИИ, эксперты-люди вслепую оценивали как более новаторские и интересные, чем предложения своих коллег. Возникло ощущение, что мы стоим на пороге эры, где креативность станет прерогативой машин.

Ученые из Стэнфорда решили проверить, что стоит за красивой оберткой ИИ-идей. Ведь хорошая идея должна не просто впечатлять на бумаге, а приводить к реальным результатам.

Для этого они провели эксперимент: наняли 43 опытных исследователей и случайным образом раздали им проекты. Часть идей была сгенерирована Claude 3.5 Sonnet, другая — написана экспертами-людьми. Участники, не зная происхождения своей задачи, потратили в среднем по 100 часов на реализацию каждого проекта: писали код, проводили эксперименты и оформляли результаты в виде короткой научной статьи. Весь эксперимент занял почти 3 месяца.

🟡Результаты оказались неожиданными.

После практической реализации оценки идей, предложенных ИИ, рухнули по всем ключевым метрикам: новизне, значимости, эффективности и общей привлекательности. В то же время оценки человеческих идей почти не изменились.

Этот феномен назвали «разрывом между идеей и реализацией». Если на начальном этапе ИИ-идеи получали условные 6 баллов из 10 за эффективность, то после выполнения проекта их оценка падала до 4. Человеческие идеи, стартовав с 4.8 балла, финишировали с результатом 4.78. Первоначальное преимущество ИИ полностью испарилось.

🟡Почему же это происходит?

Анализ показал, что на этапе идеи легко увлечься красивыми формулировками и проигнорировать технические сложности. ИИ отлично справляется с созданием правдоподобных, но поверхностных концепций.

Например, он часто предлагает амбициозные, но трудновыполнимые эксперименты, вроде масштабных опросов носителей языка, которые в реальности исполнители заменяют на более простые, но менее надежные автоматические метрики. Когда же дело доходит до кода и реальных данных, все недочеты, слабые места и отсутствие глубины становятся очевидны.

🟡Как победить эту проблему?

Команда, работавшая над этим проектом, предлагает 3 пути:

🟢создание ИИ-агентов для автономной реализации идей;

🟢разработку прокси-моделей для предсказания успешности идеи до ее запуска;

🟢использование замкнутых циклы с обратной связью по результатам экспериментов.

Без этого автоматизация научных открытий останется красивой иллюзией.

Это исследование - важное напоминание для всех, кто работает в технологической сфере. Оно не обесценивает потенциал ИИ, но показывает, что дьявол, как и прежде, кроется в деталях.


🔜 Читать работу полностью
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7946
Create:
Last Update:

📌Идеи, генерируемые ИИ проваливают проверку реальностью.

Большие языковые модели все активнее проникают в науку, и кажется, что они вот-вот совершат революцию в генерации исследовательских идей. Первые исследования показывали удивительные результаты: идеи, созданные ИИ, эксперты-люди вслепую оценивали как более новаторские и интересные, чем предложения своих коллег. Возникло ощущение, что мы стоим на пороге эры, где креативность станет прерогативой машин.

Ученые из Стэнфорда решили проверить, что стоит за красивой оберткой ИИ-идей. Ведь хорошая идея должна не просто впечатлять на бумаге, а приводить к реальным результатам.

Для этого они провели эксперимент: наняли 43 опытных исследователей и случайным образом раздали им проекты. Часть идей была сгенерирована Claude 3.5 Sonnet, другая — написана экспертами-людьми. Участники, не зная происхождения своей задачи, потратили в среднем по 100 часов на реализацию каждого проекта: писали код, проводили эксперименты и оформляли результаты в виде короткой научной статьи. Весь эксперимент занял почти 3 месяца.

🟡Результаты оказались неожиданными.

После практической реализации оценки идей, предложенных ИИ, рухнули по всем ключевым метрикам: новизне, значимости, эффективности и общей привлекательности. В то же время оценки человеческих идей почти не изменились.

Этот феномен назвали «разрывом между идеей и реализацией». Если на начальном этапе ИИ-идеи получали условные 6 баллов из 10 за эффективность, то после выполнения проекта их оценка падала до 4. Человеческие идеи, стартовав с 4.8 балла, финишировали с результатом 4.78. Первоначальное преимущество ИИ полностью испарилось.

🟡Почему же это происходит?

Анализ показал, что на этапе идеи легко увлечься красивыми формулировками и проигнорировать технические сложности. ИИ отлично справляется с созданием правдоподобных, но поверхностных концепций.

Например, он часто предлагает амбициозные, но трудновыполнимые эксперименты, вроде масштабных опросов носителей языка, которые в реальности исполнители заменяют на более простые, но менее надежные автоматические метрики. Когда же дело доходит до кода и реальных данных, все недочеты, слабые места и отсутствие глубины становятся очевидны.

🟡Как победить эту проблему?

Команда, работавшая над этим проектом, предлагает 3 пути:

🟢создание ИИ-агентов для автономной реализации идей;

🟢разработку прокси-моделей для предсказания успешности идеи до ее запуска;

🟢использование замкнутых циклы с обратной связью по результатам экспериментов.

Без этого автоматизация научных открытий останется красивой иллюзией.

Это исследование - важное напоминание для всех, кто работает в технологической сфере. Оно не обесценивает потенциал ИИ, но показывает, что дьявол, как и прежде, кроется в деталях.


🔜 Читать работу полностью

BY Machinelearning




Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7946

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Find Channels On Telegram?

Telegram is an aspiring new messaging app that’s taking the world by storm. The app is free, fast, and claims to be one of the safest messengers around. It allows people to connect easily, without any boundaries.You can use channels on Telegram, which are similar to Facebook pages. If you’re wondering how to find channels on Telegram, you’re in the right place. Keep reading and you’ll find out how. Also, you’ll learn more about channels, creating channels yourself, and the difference between private and public Telegram channels.

For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.

Machinelearning from us


Telegram Machinelearning
FROM USA