ВЫЯВЛЕНИЕ ЛОЖНЫХ НОВОСТЕЙ НА КАЗАХСКОМ И РУССКОМ ЯЗЫКАХ TF-IDF-МОДЕЛЯМИ
DOI:
https://doi.org/10.53002/138Ключевые слова:
ложные новости, дезинформация, казахский язык, русский язык, TF-IDF, машинное обучение, кросс-языковая классификация.Аннотация
Автоматическое распознавание ложных новостей становится значимой прикладной задачей обработки естественного языка в условиях быстрого распространения цифрового контента. Для казахского языка эта задача осложняется нехваткой открытых размеченных корпусов и ограниченной адаптацией готовых моделей к локальному медиаконтексту. В статье рассматривается сбалансированный казахско-русский набор данных fake/real, включающий 1808 текстов: по 452 fake и 452 real текста на каждом языке. Экспериментальная схема охватывает билингвальное обучение, отдельные казахский и русский режимы, а также перенос с казахского на русский и с русского на казахский. В качестве признаков использованы word-level и character-level TF-IDF, а в качестве классификаторов применены Logistic Regression, Linear SVM и Complement Naive Bayes. В одноязычных и билингвальном сценариях Macro-F1 достигал 0,985. При кросс-языковой оценке выявлена асимметрия: перенос с казахского на русский дал Macro-F1 = 0,654, тогда как перенос с русского на казахский достиг Macro-F1 = 0,926. Полученные результаты интерпретируются как объяснимый baseline для казахско-русской классификации fake/real с учетом возможных source, topic и temporal bias.
Ключевые слова: ложные новости, дезинформация, казахский язык, русский язык, TF-IDF, машинное обучение, кросс-языковая классификация.
Main Provisions
The study presents an explainable TF-IDF-based baseline for detecting fake/real texts in Kazakh and Russian.
The strong monolingual and bilingual results indicate the model's ability to separate lexical, stylistic and source-related signals within the given corpus rather than its ability to verify factual truth.
Cross-lingual evaluation revealed directional asymmetry: transfer from Kazakh to Russian was weaker, whereas transfer from Russian to Kazakh produced substantially higher performance.
Therefore, the results are interpreted not as a production-ready fact-checking system, but as an initial empirical basis for dataset expansion, source-based splitting, temporal splitting and comparison with multilingual transformer models.
Библиографические ссылки
Hamed S.K., Ab Aziz M.J., Yaakub M.R. A review of fake news detection approaches: A critical analysis of relevant studies and highlighting key challenges associated with the dataset, feature representation, and data fusion // Heliyon. - 2023. - Vol. 9, No. 10. - Article e20382. - DOI: https://doi.org/10.1016/j.heliyon.2023.e20382
Gupta A., Srikumar V. X-Fact: A new benchmark dataset for multilingual fact checking // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). - 2021. - P. 675-682. - DOI: https://doi.org/10.18653/v1/2021.acl-short.86
Harris S., Hadi H.J., Ahmad N., Alshara M.A. Fake news detection revisited: An extensive review of theoretical frameworks, dataset assessments, model constraints, and forward-looking research agendas // Technologies. - 2024. - Vol. 12, No. 11. - Article 222. - DOI: https://doi.org/10.3390/technologies12110222
Providel E., Mendoza M., Solar M. Cross-lingual cross-domain transfer learning for rumor detection // Future Internet. - 2025. - Vol. 17, No. 7. - Article 287. - DOI: https://doi.org/10.3390/fi17070287
Thibault C., Tian J.-J., Péloquin-Skulski G., Curtis T.L., Zhou J., Laflamme F., Guan Y., Rabbany R., Godbout J.-F., Pelrine K. A guide to misinformation detection data and evaluation // Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining. - 2025. - P. 5801-5809. - DOI: https://doi.org/10.1145/3711896.3737437
Sambetbayeva M., Nekessova A., Yerimbetova A., Bayangali A., Kaldarova M., Telman D., Smailov N. A multi-level annotation model for fake news detection: Implementing Kazakh-Russian corpus via Label Studio // Big Data and Cognitive Computing. - 2025. - Vol. 9, No. 8. - Article 215. - DOI: https://doi.org/10.3390/bdcc9080215
Telman D., Yerimbetova A., Sambetbayeva M., Bolatov B. Cross-lingual and multilingual approaches to fake news detection in the Kazakh language // Procedia Computer Science. - 2026. - Vol. 275. - P. 708-715. - DOI: https://doi.org/10.1016/j.procs.2026.01.082
Galli A., Masciari E., Moscato V., Sperlí G. A comprehensive benchmark for fake news detection // Journal of Intelligent Information Systems. - 2022. - Vol. 59. - P. 237-261. - DOI: https://doi.org/10.1007/s10844-021-00646-9
De A., Bandyopadhyay D., Gain B., Ekbal A. A transformer-based approach to multilingual fake news detection in low-resource languages // ACM Transactions on Asian and Low-Resource Language Information Processing. - 2021. - Vol. 21, No. 1. - Article 9. - DOI: https://doi.org/10.1145/3472619
Dementieva D., Panchenko A. Cross-lingual evidence improves monolingual fake news detection // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: Student Research Workshop. - 2021. - P. 310-320. - DOI: https://doi.org/10.18653/v1/2021.acl-srw.32
Dementieva D., Kuimov M., Panchenko A. Multiverse: Multilingual evidence for fake news detection // Journal of Imaging. - 2023. - Vol. 9, No. 4. - Article 77. - DOI: https://doi.org/10.3390/jimaging9040077
Alghamdi J., Lin Y., Luo S. Machine learning and deep learning approaches for fake news detection and related topics in multilingual contexts: A systematic literature review // Multimedia Tools and Applications. - 2026. - Vol. 85. - Article 353. - DOI: https://doi.org/10.1007/s11042-026-21238-1
Shu K., Sliva A., Wang S., Tang J., Liu H. Fake news detection on social media: A data mining perspective // ACM SIGKDD Explorations Newsletter. - 2017. - Vol. 19, No. 1. - P. 22-36. - DOI: https://doi.org/10.1145/3137597.3137600
Zhou X., Zafarani R. A survey of fake news: Fundamental theories, detection methods, and opportunities // ACM Computing Surveys. - 2020. - Vol. 53, No. 5. - Article 109. - DOI: https://doi.org/10.1145/3395046
Vosoughi S., Roy D., Aral S. The spread of true and false news online // Science. - 2018. - Vol. 359, No. 6380. - P. 1146-1151. - DOI: https://doi.org/10.1126/science.aap9559
Wang W.Y. Liar, liar pants on fire: A new benchmark dataset for fake news detection // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). - 2017. - P. 422-426. - DOI: https://doi.org/10.18653/v1/P17-2067
Thorne J., Vlachos A., Christodoulopoulos C., Mittal A. FEVER: A large-scale dataset for fact extraction and verification // Proceedings of NAACL-HLT 2018. - 2018. - P. 809-819. - DOI: https://doi.org/10.18653/v1/N18-1074
Shu K., Mahudeswaran D., Wang S., Lee D., Liu H. FakeNewsNet: A data repository with news content, social context, and spatiotemporal information for studying fake news on social media // Big Data. - 2020. - Vol. 8, No. 3. - P. 171-188. - DOI: https://doi.org/10.1089/big.2020.0062
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of NAACL-HLT 2019. - 2019. - P. 4171-4186. - DOI: https://doi.org/10.18653/v1/N19-1423
Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzmán F., Grave E., Ott M., Zettlemoyer L., Stoyanov V. Unsupervised cross-lingual representation learning at scale // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - 2020. - P. 8440-8451. - DOI: https://doi.org/10.18653/v1/2020.acl-main.747
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2026 Усен Марасулов, Гульнур Казбекова, Оркен Мамырбаев

Это произведение доступно по лицензии Creative Commons «Attribution-ShareAlike» («Атрибуция — На тех же условиях») 4.0 Всемирная.





