[ru] Текстовый анализ выступлений президента: Что нового?
Интро
Вдохновилась тут видео с Outlier 2021, где Riva Quiroga проанализировала знаки препинания в речи диктаторов и демократов. Получилось интересно, хотела попробовать сделать такое на данных выступлений президентов Казахстана, но получились одни точки и запятые. Но у меня появилась другая идея.
Ищем дату
Сначала нужно достать данные. Я решила сосредоточиться на текущем президенте Токаеве и проанализировать его выступления на расширенных заседаниях правительства. Их можно найти здесь, а тут один из примеров такого выступления. Получилось пять текстов с 15 июля 2019 года по 10 июля 2021. Я вручную скопировала их в отдельные .txt
файлы, но вы можете сделать лучше и написать скрейпер.
Подготовка данных
А теперь идем в R (да) и готовим данные. Анализ осложняется тем, что президент одновременно использует русский и казахский языки, помним об этом. Последовательность обработки после загрузки:
- Токенизируем файлы на предложения и отдельные слова. Предложения будем читать, а слова считать
- На слова русского языка применяем стемминг, он быстрее лемматизации
- Убираем стоп-слова
💡 Помимо стандартных словарей стоп-слов для обоих языков, я исключила слова, которые встречались практически во всех обращениях (n - 1). Например, «правительство должно» в разных склонениях быстро удалось почистить :)
Есть идея – есть икеа
Достаем свежие мысли из обращений, чтобы избавиться от «всё плохо» и «нам следует» и перейти к сути. Я отобрала слова, которые встречались только в одном выступлении, отсортировала по частоте и выбрала топ-5 для каждого текста.
Получаем повестку на дату.
2019-07-15
Год молодежи, АСП, с наукой всё плохо.
Мы ни разу не проводили полномасштабную паспортизацию водных ресурсов и водохозяйственных сооружений.
Это позволило в среднем увеличить размер помощи и расширить круг получателей АСП почти в 3 раза.
Елбасы осы жылды Жастар жылы деп жариялады.
Расходы на науку в нашей стране в т.г. составили всего 0,13 %, в то время как в развитых странах – 2,5 %.
Вместе с тем, мы должны понимать, что десятки тысяч простых государственных служащих – это наши сограждане.
2020-07-10
«Наконец-то появился коронавирус» или Пандемия, қош келдің!
Пандемиямен күрес барысында шұғыл мәселелерді шешу үшін Үкіметтен және өңірлерден 150 миллиард теңге бөлінеді.
Келесі маңызды міндет – толыққанды медициналық көмек көрсету және аса қажетті дәрі-дәрмектерді қолжетімді ету.
Денсаулық сақтау министрлігі басқару ісінде бірқатар өрескел қателіктер жіберді.
Агроөнеркәсіп кешенін дамыту және қоршаған ортаны қорғау Індет елді азық-түлікпен қамтамасыз етудің әлсіз тұстарын көрсетіп берді.
Пандемия кезінде халықтың табысы азайды, бірақ, әлеуметтік маңызы бар азық-түлік тауарлары қымбаттай түсті.
2021-07-10
Подделываем паспорта вакцинации пока ждем Pfizer. С водной инфраструктурой и сельским хозяйством всё очень плохо.
Многими странами уже не ставится цель свести передачу вируса к нулю.
Қазір бұқаралық ақпарат құралдарында екпе салуға қатысты жалған құжаттар туралы деректер пайда болып жатыр.
Тем не менее поставка вакцин Pfizer, выделенных компанией для Казахстана, была сорвана.
Поручаю Правительству совместно с Нацпалатой «Атамекен» оперативно рассмотреть необходимость временного запрета на вывоз кормов.
Атап айтқанда, Алматы қаласында – 58 пайыз, Шығыс Қазақстан облысында – 42 пайыз, Жамбыл облысында – 36 пайыз, Қарағанды облысында – 34 пайыз.
Такие дела. Код тут.