Telegram Group & Telegram Channel
🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике

DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).

📦 Что в наборе?
103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).

Каждая задача включает:

📌 Верифицируемый ответ — важно для обучения с подкреплением.

🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.

Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.

📊 Почему это важно?
Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).

🛠 Применение:
Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.

RLHF (reinforcement learning with human feedback) и self-improvement.

Дистилляция сильных моделей в более компактные.

🔜PAPER: https://arxiv.org/abs/2504.11456
🔜CODE: https://github.com/zwhe99/DeepMath
🔜 SET: https://huggingface.co/datasets/zwhe99/DeepMath-103K

@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/data_math/753
Create:
Last Update:

🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике

DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).

📦 Что в наборе?
103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).

Каждая задача включает:

📌 Верифицируемый ответ — важно для обучения с подкреплением.

🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.

Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.

📊 Почему это важно?
Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).

🛠 Применение:
Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.

RLHF (reinforcement learning with human feedback) и self-improvement.

Дистилляция сильных моделей в более компактные.

🔜PAPER: https://arxiv.org/abs/2504.11456
🔜CODE: https://github.com/zwhe99/DeepMath
🔜 SET: https://huggingface.co/datasets/zwhe99/DeepMath-103K

@data_math

BY Математика Дата саентиста




Share with your friend now:
tg-me.com/data_math/753

View MORE
Open in Telegram


Математика Дата саентиста Telegram | DID YOU KNOW?

Date: |

Telegram Gives Up On Crypto Blockchain Project

Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. “The technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. “Unfortunately, a U.S. court stopped TON from happening.”

Математика Дата саентиста from us


Telegram Математика Дата саентиста
FROM USA