Telegram Group & Telegram Channel
Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.

Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.

Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту



tg-me.com/kantor_ai/378
Create:
Last Update:

Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.

Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.

Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту

BY Kantor.AI





Share with your friend now:
tg-me.com/kantor_ai/378

View MORE
Open in Telegram


Kantor AI Telegram | DID YOU KNOW?

Date: |

Telegram today rolling out an update which brings with it several new features.The update also adds interactive emoji. When you send one of the select animated emoji in chat, you can now tap on it to initiate a full screen animation. The update also adds interactive emoji. When you send one of the select animated emoji in chat, you can now tap on it to initiate a full screen animation. This is then visible to you or anyone else who's also present in chat at the moment. The animations are also accompanied by vibrations. This is then visible to you or anyone else who's also present in chat at the moment. The animations are also accompanied by vibrations.

Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.

Kantor AI from us


Telegram Kantor.AI
FROM USA