1. LLM — Large Language ModelЭто базовая и наиболее известная разновидность ИИ-моделей, например GPT или Claude.
Назначение: обработка и генерация текста.
Как работает: обучается на огромных корпусах текста, предсказывая следующее слово или токен.
Примеры задач: чат-боты, копирайтинг, переводы, анализ документов, программирование.
2. LCM — Latent Concept ModelФокусируется на понимании скрытых концептов и связей между понятиями.
Назначение: семантическое осмысление контекста, выявление смысловых паттернов.
Как работает: строит латентные представления (векторные смыслы), объединяя близкие концепты.
Примеры задач: поиск по смыслу, рекомендации, анализ знаний.
3. LAM — Language-Action ModelМодель, связывающая язык с действием.
Назначение: интерпретация текстовых инструкций с последующим выполнением действий в среде.
Как работает: превращает команду (“перемести файл”, “включи свет”) в конкретное действие.
Примеры: голосовые ассистенты, управляемые роботы, automation-агенты.
4. MoE — Mixture of ExpertsАрхитектура, состоящая из множества специализированных “экспертов”, каждый отвечает за свой тип данных.
Назначение: повышение эффективности и масштабируемости больших моделей.
Как работает: маршрутизатор выбирает, какой “эксперт” обрабатывает вход, оптимизируя вычисления.
Примеры: Gemini 1.5, Mixtral; ускоренные гига-модели.
5. VLM — Vision-Language ModelСоединяет обработку изображения и языка.
Назначение: понимание визуальной информации с помощью слов.
Как работает: объединяет визуальные признаки и текстовые описания в единое пространство.
Примеры: GPT‑4V, Claude 3 Opus, Gemini Vision; подписи к изображениям, анализ видео.
6. SLM — Speech-Language ModelРаботает с аудио и текстом.
Назначение: понимание речи, генерация речи, транскрибация.
Как работает: сочетает NLP и распознавание речи, часто используется энкодер-декодер архитектура.
Примеры: Whisper, GPT‑4 Voice, Speechify; голосовые боты.
7. MLM — Multimodal Language ModelСамый универсальный тип, объединяющий текст, изображения, видео, аудио и другие данные.
Назначение: межмодальное понимание и генерация.
Как работает: обучается на данных разных модальностей и умеет связывать их.
Примеры: Gemini 2.0, GPT‑5 Omni, Claude 3.5 Sonnet; мультимедийный анализ.
8. SAM — Segment Anything ModelМодель от Meta, предназначенная для сегментации изображений (выделение объектов).
Назначение: компьютерное зрение, разметка, графический анализ.
Как работает: принимает изображение, “понимает” объекты и выделяет их границы.
Примеры: SAM, Segment-Anything 2; применяется в медицине, дизайне, робототехнике.