Warning: preg_grep(): Compilation failed: quantifier does not follow a repeatable item at offset 165 in /var/www/tg-me/post.php on line 75
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение | Telegram Webview: dsproglib/6625 -
Telegram Group & Telegram Channel
💭 Почему LLM работают с токенами, а не словами

Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.

🔎 Почему не просто слова

Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде running, runs, runner — все о разном, хотя корень один. Слово как единица — слишком «грубая».

🔎 Первые решения

До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например, unhappinessun, happi, ness) и пытался понять смысл по кусочкам.
— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (dockduck? Нет же).

🔎 Взлет LLM: умная токенизация

Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример: loweringlow, er, ing
— Получаем разумные токены, экономим память и длину последовательностей.

🔎 Новые подходы

— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (misunderstandingmis, understand, ing). Хорошо для языков со сложной грамматикой, но требует знаний языка.

🔎 Что дальше: токены уходят

На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость

📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6625
Create:
Last Update:

💭 Почему LLM работают с токенами, а не словами

Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.

🔎 Почему не просто слова

Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде running, runs, runner — все о разном, хотя корень один. Слово как единица — слишком «грубая».

🔎 Первые решения

До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например, unhappinessun, happi, ness) и пытался понять смысл по кусочкам.
— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (dockduck? Нет же).

🔎 Взлет LLM: умная токенизация

Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример: loweringlow, er, ing
— Получаем разумные токены, экономим память и длину последовательностей.

🔎 Новые подходы

— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (misunderstandingmis, understand, ing). Хорошо для языков со сложной грамматикой, но требует знаний языка.

🔎 Что дальше: токены уходят

На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость

📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6625

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA