Интро

Вдохновилась тут видео с Outlier 2021, где Riva Quiroga проанализировала знаки препинания в речи диктаторов и демократов. Получилось интересно, хотела попробовать сделать такое на данных выступлений президентов Казахстана, но получились одни точки и запятые. Но у меня появилась другая идея.

Ищем дату

Сначала нужно достать данные. Я решила сосредоточиться на текущем президенте Токаеве и проанализировать его выступления на расширенных заседаниях правительства. Их можно найти здесь, а тут один из примеров такого выступления. Получилось пять текстов с 15 июля 2019 года по 10 июля 2021. Я вручную скопировала их в отдельные .txt файлы, но вы можете сделать лучше и написать скрейпер.

Подготовка данных

А теперь идем в R (да) и готовим данные. Анализ осложняется тем, что президент одновременно использует русский и казахский языки, помним об этом. Последовательность обработки после загрузки:

  • Токенизируем файлы на предложения и отдельные слова. Предложения будем читать, а слова считать
  • На слова русского языка применяем стемминг, он быстрее лемматизации
  • Убираем стоп-слова

💡 Помимо стандартных словарей стоп-слов для обоих языков, я исключила слова, которые встречались практически во всех обращениях (n - 1). Например, «‎правительство должно» в разных склонениях быстро удалось почистить :)

Есть идея – есть икеа

Достаем свежие мысли из обращений, чтобы избавиться от «‎всё плохо» и «‎нам следует» и перейти к сути. Я отобрала слова, которые встречались только в одном выступлении, отсортировала по частоте и выбрала топ-5 для каждого текста.

Получаем повестку на дату.

2019-07-15

Год молодежи, АСП, с наукой всё плохо.

Мы ни разу не проводили полномасштабную паспортизацию водных ресурсов и водохозяйственных сооружений.

Это позволило в среднем увеличить размер помощи и расширить круг получателей АСП почти в 3 раза.

Елбасы осы жылды Жастар жылы деп жариялады.

Расходы на науку в нашей стране в т.г. составили всего 0,13 %, в то время как в развитых странах – 2,5 %.

Вместе с тем, мы должны понимать, что десятки тысяч простых государственных служащих – это наши сограждане.

2020-07-10

«Наконец-то появился коронавирус» или Пандемия, қош келдің!

Пандемиямен күрес барысында шұғыл мәселелерді шешу үшін Үкіметтен және өңірлерден 150 миллиард теңге бөлінеді.

Келесі маңызды міндет – толыққанды медициналық көмек көрсету және аса қажетті дәрі-дәрмектерді қолжетімді ету.

Денсаулық сақтау министрлігі басқару ісінде бірқатар өрескел қателіктер жіберді.

Агроөнеркәсіп кешенін дамыту және қоршаған ортаны қорғау Індет елді азық-түлікпен қамтамасыз етудің әлсіз тұстарын көрсетіп берді.

Пандемия кезінде халықтың табысы азайды, бірақ, әлеуметтік маңызы бар азық-түлік тауарлары қымбаттай түсті.

2021-07-10

Подделываем паспорта вакцинации пока ждем Pfizer. С водной инфраструктурой и сельским хозяйством всё очень плохо.

Многими странами уже не ставится цель свести передачу вируса к нулю.

Қазір бұқаралық ақпарат құралдарында екпе салуға қатысты жалған құжаттар туралы деректер пайда болып жатыр.

Тем не менее поставка вакцин Pfizer, выделенных компанией для Казахстана, была сорвана.

Поручаю Правительству совместно с Нацпалатой «Атамекен» оперативно рассмотреть необходимость временного запрета на вывоз кормов.

Атап айтқанда, Алматы қаласында – 58 пайыз, Шығыс Қазақстан облысында – 42 пайыз, Жамбыл облысында – 36 пайыз, Қарағанды облысында – 34 пайыз.

Такие дела. Код тут.

Всё очень плохо