Red Hat запускає llm-d - платформу для масштабованого виведення ШІ на базі Kubernetes
15:27, 22.05.2025
Red Hat представила llm-d — новий open source-проєкт, призначений для високопродуктивного розподіленого виведення великих мовних моделей (LLM). Платформа розроблена на базі Kubernetes і орієнтована на спрощення масштабування генеративного ШІ. Вихідний код доступний на GitHub під ліцензією Apache 2.0.
Ключові особливості llm-d
Серед головних функцій платформи:
- оптимізований планувальник виведення (Inference Scheduler) для vLLM;
- дезагрегована архітектура обслуговування;
- повторне використання префіксних кешів;
- гнучке масштабування залежно від трафіку, завдань і доступних ресурсів.
Співпраця провідних гравців ШІ-індустрії
Розробка ведеться в партнерстві з такими компаніями, як Nvidia, AMD, Intel, IBM Research, Google Cloud, CoreWeave, Hugging Face та іншими. Така співпраця підкреслює серйозність підходу до llm-d і потенціал платформи як галузевого стандарту.
Технологічна основа та архітектура
Проєкт використовує бібліотеку vLLM для розподіленого inference, а також такі компоненти, як LMCache для вивантаження KV-кешу, інтелектуальну маршрутизацію трафіку з підтримкою ШІ, високоефективні комунікаційні API та автоматичне масштабування під навантаження й інфраструктуру.
Усе це дає змогу адаптувати систему під різні сценарії використання та вимоги до продуктивності. А сам запуск llm-d може стати значним кроком у бік демократизації потужних ШІ-систем та їхньої доступності для широкої аудиторії розробників і дослідників.