tg-me.com/rantiquity/649
Last Update:
Третий модуль «Компьютерного анализа текста» #tar2024 (он же и 2025) подходит к концу, а значит я снова публикую текст и видео к урокам. Почти весь модуль посвящен деревьям и сетям 🕸️
1) Тематическое моделирование с LDA (текст, видео). Датасет: новости Lenta.Ru. Бонус: код и данные для статьи «Танцы, эрос и зачатие: о чем писали “Платоновские исследования” за последние 10 лет». К статье есть видео прошлогоднего выступления на «Цифровой среде».
2) Кластеризация и метод главных компонент (текст, видео). Датасеты: на дом — сценарий сериала «Друзья» из пакета {friends} для кластеризации персонажей; аудиторная — датасет Galbraith из пакета {stylo} на определение авторства романа, написанного Роулинг под псевдонимом. И еще немного пингвинов из {palmerpenguins} для упражнения. Потому что пингвины лишними не бывают.
3) Стилометрический анализ с пакетом stylo (текст, видео). Датасет: древнегреческая литература, собранная автором для статьи «Delta Берроуза для древнегреческих авторов: опыт применения» (выборочно, ссылка на репозиторий). Также очень пригодились данные, опубликованные Даниилом Скоринкиным @fckndh. Даня, спасибо, особенно за Ильфа и Петрова!
4) Консенсусные деревья и сети (текст, видео). Аудиторная работа на том же Galbraith (он же Роулинг), домашняя — датасет Бориса Орехова «Стилеметрические данные “Тихого Дона” и современной ему прозы». Бонус: видео выступления на «Цифровой среде» с докладом «Лес за деревьями: филогенетические методы на службе платоноведения» (дискутант: Артем Юнусов из ИФЕ @philosophy_diary).
5) Сетевые данные в igraph (текст, видео). Датасеты из пакета {networkdata}, а также собранный Борисом Ореховым «Словарь русских писателей XVIII века: сеть персоналий».
6) Графический дизайн сетей с ggraph и visNetwork (текст, видео). Датасет: Тюдоры из пакета {historydata}.
7) Анализ сетей и обнаружение сообществ (текст, видео). Датасет: драматический корпус Dracor. На дом: сети Ходасевича (снова спасибо Борису Орехову) и сети «Войны и мира» (снова спасибо Даниилу Скоринкину).
Ссылка на весь видео-плейлист. Всего там 23 записи за этот учебный год.
Я уползаю готовиться к четвертому модулю, в планах добраться до многослойного перцептрона, но это уж как пойдет