1. Модели на GeoWACЭто модели с идентификаторами geowac_lemmas_none_fasttextskipgram_300_5_2020 и geowac_tokens_none_fasttextskipgram_300_5_2020. В них много нового.Во-первых

RusVectōrēs

1. Модели на GeoWAC

Это модели с идентификаторами geowac_lemmas_none_fasttextskipgram_300_5_2020 и geowac_tokens_none_fasttextskipgram_300_5_2020. В них много нового.

Во-первых, они обучены на корпусе GeoWAC, который мы до этого не использовали. На сайте GeoWAC есть больше подробностей, но в основе своей это дампы CommonCrawl для конкретного языка ( в данном случае, русского). Но не просто дампы, а хорошо почищенные и географически сбалансированные.

Сбалансированность тут означает, что создатели корпуса попытались не просто взять случайные страницы на русском из Интернета, а сэмплировать их географически по принципу "чем больше в этой стране процент русскоговорящего населения, тем больше русских текстов из этой страны должно быть в нашем корпусе". Соответственно, в итоге в русском GeoWAC примерно в равной степени представлены русскоязычные тексты из России, Казахстана, Украины и Беларуси. Дальше со всё уменьшающейся долей идут Киргизия, Латвия, Эстония, Узбекистан и так далее. Общий размер корпуса - около 2.1 миллиарда слов.

Самое главное для нас - это относительно современный русский язык в таком виде, в каком он представлен в Сети. В корпусах вроде НКРЯ или Тайги доминируют художественные тексты, и это делает их более "классическими". Есть веб-корпус Araneum, но ему всё-таки уже более 4 лет, и он постепенно устаревает. GeoWAC же совсем свежий (хоть и поменьше Araneum по объёму). Это сразу видно по выдаче моделей, обученных на GeoWAC (смотрите картинку ниже). Это единственная модель из представленных сейчас в веб-интерфейсе RusVectōrēs, которая "видит" семантическую неоднозначность слова "мышь": это и грызун, и компьютерный манипулятор. Модели, обученные на НКРЯ, Тайге и Аранеуме, "не в курсе" о втором значении.

Мы предполагаем, что модели на GeoWAC будут более полезны в задачах, где требуется обработка именно современного русского языка. Впрочем, на наших стандартных тестах SimLex965 и Google Analogies они тоже показывают неплохие результаты.

Во-вторых, сами модели тоже необычны. Их две: первая обучена на леммах, вторая на сырых токенах. Это значит, что во второй модели есть предобученные вектора для словоизменительных форм ("столов", "мыши"). То есть, вы можете не лемматизировать ваши тексты перед извлечением векторов. Конечно, модели обучены при помощи fastText, и, строго говоря, для них вообще нет "незнакомых слов". Однако, вектора для слов, которые модель всё же видела в процессе обучения, почти всегда будут лучше, чем вектора, сгенерированные на основе символьных н-грамм. Это первые не-лемматизированные "статические" эмбеддинги на RusVectōrēs.

Заметим, что лемматизированная версия всё же показывает лучшие результаты на тестовых сетах. Но если вам важнее минимизировать предобработку, модель на токенах к вашим услугам.
Кроме того, из обучающих корпусов для обеих моделей не удалялись функциональные части речи (только пунктуация). Если для вашей задачи важны предлоги и союзы - в моделях имеются вектора для них.

Разумеется, обе модели можно скачать, а с лемматизированной, вдобавок - поэкспериментировать прямо на сайте RusVectōrēs.

В следующем посте мы расскажем о новой модели ELMo.

RusVectores

Слова, семантически связанные с мышь

РусВекторес: дистрибутивная семантика для русского языка, веб-интерфейс и модели для скачивания

www.tg-me.com/vn/RusVectōrēs/com.rusvectores/58

803 viewsedited Oct 23, 2020 at 10:14