Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Фондовое подспорье: где найти деньги для экономики Фондовое подспорье: где найти деньги для экономики

Путь к улучшению состояния экономики РФ: фондовый рынок как источник инвестиций

РБК
«Кто придумал землю? Путеводитель по геофилософии от Делёза и Деррида до Агамбена и Латура» «Кто придумал землю? Путеводитель по геофилософии от Делёза и Деррида до Агамбена и Латура»

Правильно ли противопоставлять природу и культуру

N+1
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы» Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы»

Альберт Филозов — о том, как любовь продлила ему жизнь

Коллекция. Караван историй
Сила адаптогенов Сила адаптогенов

Есть растения, которые повышают сопротивляемость организма инфекциям и стрессу

Лиза
«Медицина стала точной наукой» «Медицина стала точной наукой»

Революция в изучении человека и новые методы терапии рака: мнение профессора РАН

Монокль
Когда прибывает поезд Когда прибывает поезд

Рассказ Ольги Брейнингер о желании сбежать из реального мира в иллюзорный

Правила жизни
Связь с народом: зачем медицинским чиновникам блоги в соцсетях Связь с народом: зачем медицинским чиновникам блоги в соцсетях

Насколько эффективно органы власти используют цифровую открытость?

Forbes
Пластик, металл, стекло: какая посуда подходит для микроволновки Пластик, металл, стекло: какая посуда подходит для микроволновки

Какая посуда безопасна для микроволновки, а от какой лучше отказаться?

CHIP
Чем минивэн отличается от микроавтобуса: простой вопрос, неочевидный ответ Чем минивэн отличается от микроавтобуса: простой вопрос, неочевидный ответ

Минивэн и микроавтобус: есть ли разница?

ТехИнсайдер
Что открыть в нежилом помещении: топ-5 бизнес-идей Что открыть в нежилом помещении: топ-5 бизнес-идей

Под какой бизнес можно сдать нежилое помещение, чтобы получать прибыль?

Inc.
Без крыши дороже Без крыши дороже

Стоят ли кабриолеты своих денег

Деньги
Печать дьявола Печать дьявола

В модной индустрии тоже есть свои инновации, и одна из них – 3D-печать

Правила жизни
Стимулы вместо принуждения Стимулы вместо принуждения

Чем биржевая торговля сельхозпродукцией может быть интересна бизнесу

Агроинвестор
Глубокий политэконом Глубокий политэконом

Как Адам Смит заложил основы современной экономической теории

Деньги
Cвадебный бум Cвадебный бум

Прическа для важного дня: 5 идей для волос разной длины

Лиза
«Нет на свете страны, где нет магазинов» «Нет на свете страны, где нет магазинов»

Розница в России: как справиться с кризисом и что будет с брендами?

Монокль
«Тренд золотых девочек»: как женщины ищут компаньонок для совместной жизни на пенсии «Тренд золотых девочек»: как женщины ищут компаньонок для совместной жизни на пенсии

Женские коммуны вместо домов престарелых — как женщины борются с одиночеством

Forbes
Детский плач в возрасте пяти месяцев связали с наследственностью Детский плач в возрасте пяти месяцев связали с наследственностью

Генетические факторы отвечают за 70 процентов плача

N+1
Вершины олимпиадников Вершины олимпиадников

Почему растет число абитуриентов, поступающих в упрощенном порядке

Ведомости
Рыбный день Рыбный день

Рыба — один из древнейших символов в ювелирном искусстве...

Y Magazine
CAR-T-клетки получили прямо в организме четырех пациентов CAR-T-клетки получили прямо в организме четырех пациентов

Результаты испытаний технологии для получения противоопухолевых Т-лимфоцитов

N+1
На чистые волосы и не чаще раза в неделю? Как  на самом деле следует пользоваться сухим шампунем На чистые волосы и не чаще раза в неделю? Как  на самом деле следует пользоваться сухим шампунем

Как правильно использовать сухой шампунь и каков его смысл на чистых волосах?

ТехИнсайдер
Долгая совместная жизнь: сколько в России платят за преданность супругам Долгая совместная жизнь: сколько в России платят за преданность супругам

Платят за брак: как регионы поощряют семейные пары

Ведомости
Неандертальцы сделали ретушеры из костей пещерного льва Неандертальцы сделали ретушеры из костей пещерного льва

Неандертальцы изготавливали предметы из костей пещерных львов

N+1
Рабби Давид из люфтваффе Рабби Давид из люфтваффе

В 2019 году Бундестаг одобрил введение в Германии военного раввината

Дилетант
Вьетнамский вклад в импортозамещение Вьетнамский вклад в импортозамещение

Концерн TH Group открыл завод по переработке молока в Калужской области

Агроинвестор
Грудное молоко помешало бактерии вызвать воспаление в кишечнике новорожденного Грудное молоко помешало бактерии вызвать воспаление в кишечнике новорожденного

Как материнское грудное молоко защает ребенка от дисбиоза и воспаления кишечника

N+1
В ожидании Меркурия В ожидании Меркурия

Меркурий единственная планета Солнечной системы без атмосферы с магнитным полем

Наука и жизнь
История профессора Либреску! Он пережил Холокост и пожертвовал собой при стрельбе в университете История профессора Либреску! Он пережил Холокост и пожертвовал собой при стрельбе в университете

История профессора Ливиу Либреску — это не просто рассказ о героизме

ТехИнсайдер
Открыть в приложении