Малые языковые модели: компромисс между эффективностью и производительностью  в эпоху больших языковых моделей

И.Р. Дашкин; Г.Д. Когай

doi:10.53002/012

Малые языковые модели: компромисс между эффективностью и производительностью в эпоху больших языковых моделей

Авторы

И.Р. Дашкин Карагандинский технический университет имени Абылкаса Сагинова
Г.Д. Когай Карагандинский технический университет имени Абылкаса Сагинова

DOI:

https://doi.org/10.53002/012

Ключевые слова:

Малые языковые модели, модели с малым числом параметров, обработка естественного языка, сравнение языковых моделей, Llama 3.2 3B и Llama 3 8B, Gemma 2B и 9B, Qwen2.5 3B 7B и 14B, Phi-4 14B, Mistral NeMo 12B, энергоэффективность, производительность.

Аннотация

В данной статье исследуется компромисс между эффективностью и производительностью малых языковых моделей (SLM) с менее чем 15 миллиардами параметров, что представляет собой актуальную альтернативу ресурсоемким большим языковым моделям (LLM). Проведено сравнение современных SLM, таких как Llama 3.2 3B и Llama 3 8B, Gemma 2B и 9B, Qwen2.5 3B, 7B и 14B, Phi-4 14B и Mistral NeMo 12B, с использованием стандартизированных бенчмарков (MMLU-PRO, GPQA, IFEval, MATH, BBH) для оценки их способностей в генерации текста, суммаризации, ответах на вопросы и логических рассуждениях. Результаты показывают, что некоторые SLM демонстрируют производительность, близкую к высокопараметрическим моделям, таким как GPT-4o, при значительно меньших вычислительных затратах. Работа подчеркивает потенциал SLM для создания более доступных и экологичных решений в области искусственного интеллекта, предлагая практические рекомендации для исследователей и разработчиков.

Биографии авторов

И.Р. Дашкин, Карагандинский технический университет имени Абылкаса Сагинова

Карагандинский технический университет имени Абылкаса Сагинова, Караганда, Казахстан.

Г.Д. Когай, Карагандинский технический университет имени Абылкаса Сагинова

Карагандинский технический университет имени Абылкаса Сагинова, Караганда, Казахстан.

Библиографические ссылки

Языковые модели Llama. [Электронный ресурс]. Доступно на: https://www.llama.com/

Языковые модели Gemma. [Электронный ресурс]. Доступно на: https://blog.google/technology/developers/google-gemma-2/

Языковые модели Qwen. [Электронный ресурс]. Доступно на: https://qwen2.org/qwen2-5/

Языковые модели Phi. [Электронный ресурс]. Доступно на: https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090

Языковые модели Mistral. [Электронный ресурс]. Доступно на: https://mistral.ai/en/news/mistral-nemo

Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J., Measuring massive multitask language understanding (MMLU), International Conference on Learning Representations, 2021, [Электронный ресурс]. Доступно на: https://openreview.net/pdf?id=d7KBjmI3GmQ

Rein D., Hou B.L., Stickland A.C., Petty J., Pang R.Y., Dirani J., Michael J., Bowman S.R., GPQA: A Graduate-Level Google-Proof Q&A Benchmark, 2023, New York. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2311.12022

Zhou J., Lu T., Mishra S., Brahma S., Basu S., Luan Y., Zhou D., Hou L., Instruction-Following Evaluation for Large Language Models, 2023. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2311.07911

Hendrycks D., Burns C., Kadavath S., Arora A., Basart S., Tang E., Song D., Steinhardt J., Measuring Mathematical Problem Solving with the MATH Dataset, 2021. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2103.03874

Suzgun M., Scales N., Schärli N., Gehrmann S., Tay Y., Chung H.W., Chowdhery A., Le Q.L., Chi E.H., Zhou D., Wei J., Challenging BIG-Bench tasks and whether chain-of-thought can solve them, 2022. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2210.09261

Загрузки

Опубликован

2025-03-31

Как цитировать

Дашкин, И., & Когай, Г. (2025). Малые языковые модели: компромисс между эффективностью и производительностью в эпоху больших языковых моделей. Вестник Карагандинского государственного индустриального университета, 48(1), 66–75. https://doi.org/10.53002/012

Скачать ссылку

Выпуск

Том 48 № 1 (2025): Вестник КГИУ 1 (48) 2025

Раздел

IT-технологии, энергетика, автоматизация и вычислительная техника.

Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution-ShareAlike» («Атрибуция — На тех же условиях») 4.0 Всемирная.

Наиболее читаемые статьи этого автора (авторов)

М.А. Куцев, Г.Д. Когай, А.А. Калинин, Разработка единой SCADA/OPC UA-платформы для управления космическими аппаратами , Вестник Карагандинского государственного индустриального университета: Том 52 № 1 (2026): Вестник КГИУ 1 (52) 2026
В.В. Волков, В.Н. Головачева, Г.Д. Когай, Х. Харон, Перспективы искусственного интеллекта для компьютерного зрения , Вестник Карагандинского государственного индустриального университета: Том 40 № 1 (2023): Вестник КГИУ 1 (40) 2023
К.И. Кулешов, Г.Д. Когай, А.А. Калинин, Применение технологии блокчейн в транспортно-логистической сфере , Вестник Карагандинского государственного индустриального университета: Том 52 № 1 (2026): Вестник КГИУ 1 (52) 2026

Малые языковые модели: компромисс между эффективностью и производительностью в эпоху больших языковых моделей

Авторы

DOI:

Ключевые слова:

Аннотация

Биографии авторов

И.Р. Дашкин, Карагандинский технический университет имени Абылкаса Сагинова

Г.Д. Когай, Карагандинский технический университет имени Абылкаса Сагинова

Библиографические ссылки

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

Лицензия

Наиболее читаемые статьи этого автора (авторов)

Похожие статьи

menu

Информация

Отправить материал

Загрузки

Политика журнала

Индексируется

Проверка на плагиат