Малые языковые модели: компромисс между эффективностью и производительностью в эпоху больших языковых моделей
DOI:
https://doi.org/10.53002/012Ключевые слова:
Малые языковые модели, модели с малым числом параметров, обработка естественного языка, сравнение языковых моделей, Llama 3.2 3B и Llama 3 8B, Gemma 2B и 9B, Qwen2.5 3B 7B и 14B, Phi-4 14B, Mistral NeMo 12B, энергоэффективность, производительность.Аннотация
В данной статье исследуется компромисс между эффективностью и производительностью малых языковых моделей (SLM) с менее чем 15 миллиардами параметров, что представляет собой актуальную альтернативу ресурсоемким большим языковым моделям (LLM). Проведено сравнение современных SLM, таких как Llama 3.2 3B и Llama 3 8B, Gemma 2B и 9B, Qwen2.5 3B, 7B и 14B, Phi-4 14B и Mistral NeMo 12B, с использованием стандартизированных бенчмарков (MMLU-PRO, GPQA, IFEval, MATH, BBH) для оценки их способностей в генерации текста, суммаризации, ответах на вопросы и логических рассуждениях. Результаты показывают, что некоторые SLM демонстрируют производительность, близкую к высокопараметрическим моделям, таким как GPT-4o, при значительно меньших вычислительных затратах. Работа подчеркивает потенциал SLM для создания более доступных и экологичных решений в области искусственного интеллекта, предлагая практические рекомендации для исследователей и разработчиков.
Библиографические ссылки
Языковые модели Llama. [Электронный ресурс]. Доступно на: https://www.llama.com/
Языковые модели Gemma. [Электронный ресурс]. Доступно на: https://blog.google/technology/developers/google-gemma-2/
Языковые модели Qwen. [Электронный ресурс]. Доступно на: https://qwen2.org/qwen2-5/
Языковые модели Phi. [Электронный ресурс]. Доступно на: https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090
Языковые модели Mistral. [Электронный ресурс]. Доступно на: https://mistral.ai/en/news/mistral-nemo
Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J., Measuring massive multitask language understanding (MMLU), International Conference on Learning Representations, 2021, [Электронный ресурс]. Доступно на: https://openreview.net/pdf?id=d7KBjmI3GmQ
Rein D., Hou B.L., Stickland A.C., Petty J., Pang R.Y., Dirani J., Michael J., Bowman S.R., GPQA: A Graduate-Level Google-Proof Q&A Benchmark, 2023, New York. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2311.12022
Zhou J., Lu T., Mishra S., Brahma S., Basu S., Luan Y., Zhou D., Hou L., Instruction-Following Evaluation for Large Language Models, 2023. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2311.07911
Hendrycks D., Burns C., Kadavath S., Arora A., Basart S., Tang E., Song D., Steinhardt J., Measuring Mathematical Problem Solving with the MATH Dataset, 2021. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2103.03874
Suzgun M., Scales N., Schärli N., Gehrmann S., Tay Y., Chung H.W., Chowdhery A., Le Q.L., Chi E.H., Zhou D., Wei J., Challenging BIG-Bench tasks and whether chain-of-thought can solve them, 2022. [Электронный ресурс]. Доступно на: https://arxiv.org/pdf/2210.09261
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2025 И.Р. Дашкин, Г.Д. Когай

Это произведение доступно по лицензии Creative Commons «Attribution-ShareAlike» («Атрибуция — На тех же условиях») 4.0 Всемирная.





