Telegram Group & Telegram Channel
1. Модели на GeoWAC

Это модели с идентификаторами geowac_lemmas_none_fasttextskipgram_300_5_2020 и geowac_tokens_none_fasttextskipgram_300_5_2020. В них много нового.

Во-первых, они обучены на корпусе GeoWAC, который мы до этого не использовали. На сайте GeoWAC есть больше подробностей, но в основе своей это дампы CommonCrawl для конкретного языка ( в данном случае, русского). Но не просто дампы, а хорошо почищенные и географически сбалансированные.

Сбалансированность тут означает, что создатели корпуса попытались не просто взять случайные страницы на русском из Интернета, а сэмплировать их географически по принципу "чем больше в этой стране процент русскоговорящего населения, тем больше русских текстов из этой страны должно быть в нашем корпусе". Соответственно, в итоге в русском GeoWAC примерно в равной степени представлены русскоязычные тексты из России, Казахстана, Украины и Беларуси. Дальше со всё уменьшающейся долей идут Киргизия, Латвия, Эстония, Узбекистан и так далее. Общий размер корпуса - около 2.1 миллиарда слов.

Самое главное для нас - это относительно современный русский язык в таком виде, в каком он представлен в Сети. В корпусах вроде НКРЯ или Тайги доминируют художественные тексты, и это делает их более "классическими". Есть веб-корпус Araneum, но ему всё-таки уже более 4 лет, и он постепенно устаревает. GeoWAC же совсем свежий (хоть и поменьше Araneum по объёму). Это сразу видно по выдаче моделей, обученных на GeoWAC (смотрите картинку ниже). Это единственная модель из представленных сейчас в веб-интерфейсе RusVectōrēs, которая "видит" семантическую неоднозначность слова "мышь": это и грызун, и компьютерный манипулятор. Модели, обученные на НКРЯ, Тайге и Аранеуме, "не в курсе" о втором значении.

Мы предполагаем, что модели на GeoWAC будут более полезны в задачах, где требуется обработка именно современного русского языка. Впрочем, на наших стандартных тестах SimLex965 и Google Analogies они тоже показывают неплохие результаты.

Во-вторых, сами модели тоже необычны. Их две: первая обучена на леммах, вторая на сырых токенах. Это значит, что во второй модели есть предобученные вектора для словоизменительных форм ("столов", "мыши"). То есть, вы можете не лемматизировать ваши тексты перед извлечением векторов. Конечно, модели обучены при помощи fastText, и, строго говоря, для них вообще нет "незнакомых слов". Однако, вектора для слов, которые модель всё же видела в процессе обучения, почти всегда будут лучше, чем вектора, сгенерированные на основе символьных н-грамм. Это первые не-лемматизированные "статические" эмбеддинги на RusVectōrēs.

Заметим, что лемматизированная версия всё же показывает лучшие результаты на тестовых сетах. Но если вам важнее минимизировать предобработку, модель на токенах к вашим услугам.
Кроме того, из обучающих корпусов для обеих моделей не удалялись функциональные части речи (только пунктуация). Если для вашей задачи важны предлоги и союзы - в моделях имеются вектора для них.

Разумеется, обе модели можно скачать, а с лемматизированной, вдобавок - поэкспериментировать прямо на сайте RusVectōrēs.

В следующем посте мы расскажем о новой модели ELMo.



tg-me.com/rusvectores/58
Create:
Last Update:

1. Модели на GeoWAC

Это модели с идентификаторами geowac_lemmas_none_fasttextskipgram_300_5_2020 и geowac_tokens_none_fasttextskipgram_300_5_2020. В них много нового.

Во-первых, они обучены на корпусе GeoWAC, который мы до этого не использовали. На сайте GeoWAC есть больше подробностей, но в основе своей это дампы CommonCrawl для конкретного языка ( в данном случае, русского). Но не просто дампы, а хорошо почищенные и географически сбалансированные.

Сбалансированность тут означает, что создатели корпуса попытались не просто взять случайные страницы на русском из Интернета, а сэмплировать их географически по принципу "чем больше в этой стране процент русскоговорящего населения, тем больше русских текстов из этой страны должно быть в нашем корпусе". Соответственно, в итоге в русском GeoWAC примерно в равной степени представлены русскоязычные тексты из России, Казахстана, Украины и Беларуси. Дальше со всё уменьшающейся долей идут Киргизия, Латвия, Эстония, Узбекистан и так далее. Общий размер корпуса - около 2.1 миллиарда слов.

Самое главное для нас - это относительно современный русский язык в таком виде, в каком он представлен в Сети. В корпусах вроде НКРЯ или Тайги доминируют художественные тексты, и это делает их более "классическими". Есть веб-корпус Araneum, но ему всё-таки уже более 4 лет, и он постепенно устаревает. GeoWAC же совсем свежий (хоть и поменьше Araneum по объёму). Это сразу видно по выдаче моделей, обученных на GeoWAC (смотрите картинку ниже). Это единственная модель из представленных сейчас в веб-интерфейсе RusVectōrēs, которая "видит" семантическую неоднозначность слова "мышь": это и грызун, и компьютерный манипулятор. Модели, обученные на НКРЯ, Тайге и Аранеуме, "не в курсе" о втором значении.

Мы предполагаем, что модели на GeoWAC будут более полезны в задачах, где требуется обработка именно современного русского языка. Впрочем, на наших стандартных тестах SimLex965 и Google Analogies они тоже показывают неплохие результаты.

Во-вторых, сами модели тоже необычны. Их две: первая обучена на леммах, вторая на сырых токенах. Это значит, что во второй модели есть предобученные вектора для словоизменительных форм ("столов", "мыши"). То есть, вы можете не лемматизировать ваши тексты перед извлечением векторов. Конечно, модели обучены при помощи fastText, и, строго говоря, для них вообще нет "незнакомых слов". Однако, вектора для слов, которые модель всё же видела в процессе обучения, почти всегда будут лучше, чем вектора, сгенерированные на основе символьных н-грамм. Это первые не-лемматизированные "статические" эмбеддинги на RusVectōrēs.

Заметим, что лемматизированная версия всё же показывает лучшие результаты на тестовых сетах. Но если вам важнее минимизировать предобработку, модель на токенах к вашим услугам.
Кроме того, из обучающих корпусов для обеих моделей не удалялись функциональные части речи (только пунктуация). Если для вашей задачи важны предлоги и союзы - в моделях имеются вектора для них.

Разумеется, обе модели можно скачать, а с лемматизированной, вдобавок - поэкспериментировать прямо на сайте RusVectōrēs.

В следующем посте мы расскажем о новой модели ELMo.

BY RusVectōrēs




Share with your friend now:
tg-me.com/rusvectores/58

View MORE
Open in Telegram


RusVectōrēs Telegram | DID YOU KNOW?

Date: |

How Does Bitcoin Work?

Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

RusVectōrēs from vn


Telegram RusVectōrēs
FROM USA