tg-me.com/llm_under_hood/401
Last Update:
Enterprise RAG Challenge - сводная таблица с результатами
Эта таблица по первому раунду нашего challenge. Она заполнена на основе оценки ответов и информации, которую предоставили участники. Последняя версия в CSV: scores.csv.
Описание колонок:
- Score - очки от 0 до 100. Ответы в результате ручной разметки лежат в answers.json. Сам алгоритм оценки - rank.py.
- Local - звездочка, если локальная модель
- Design - краткое описание архитектуры. Хотите узнать больше? См teams.py с той информацией, которую мне предоставили команды.
- Cost - примерная оценка. Ее почти никто не предоставил
- Source - те исходники, которые обещали попозже расшарить. Я опубликую ссылки на них
Дополнительные колонки для прозрачности:
- TTA - тут помечены участники, с которыми я работаю в рамках TimeToAct. Они участвовали на равных со всеми условиях, но ради прозрачности они выделены отдельно.
- AIR - кто участвует в обмене опытом в рамках AI Research или имел доступ к инсайтам на его базе (включая курс и вебинары).
Весь Github repository по этому Challenge - открытый под Apache License. Можно форкать, исправлять и публиковать свои версии лидербордов. Или даже проводить свои соревнования. Единственное, чего там нет - 45GB всех исходных PDF (есть dataset с sha1 и именами компаний). При желании их можно наскрести в интернете по именам компаний.
Кстати, этот RAG Challenge уже планируют включить в программу LLM/AI одного технического университета в Австрии. 🎉
Второй раунд состоится осенью. Структура останется той же, но будет больше участников, а генератор вопросов перебалансируется в сторону большего разнообразия. Это сделает решения "в лоб" на базе Checklist/Knowledge Mapping более дорогими. Плюс я постараюсь собрать больше информации от участников второго раунда.
Кстати, а какие пункты вы бы добавили в опросник для участников?
Вaш, @llm_under_hood 🤗
PS: Авторы наилучшего локального решения, возможно, раскроют карты и расскажут про свою архитектуру побольше.
Update: исходники 4-х решений из этого списка выложены на Github.
BY LLM под капотом

Share with your friend now:
tg-me.com/llm_under_hood/401