Потужна мультимодальна модель Qwen3-VL від Alibaba
16:04, 15.10.2025
Нова модель Qwen3-VL була нещодавно випущена Alibaba. Вона доступна в 2 версіях і працює з зображенням, текстом, і підтримує контент в 256 тисяч токенів, також довжину можна розширити до 1 мільйона.
Основні особливості Qwen3-VL
Підтримка відкритої лексики – це одна з основних особливостей нової моделі. Qwen3-VL розпізнає безліч деталей, таких як архітектурні об'єкти, логотипи, побутові товари та багато іншого. Тому можливо не тільки аналізувати, але й інтерпретувати контекст.
У проекті доступні 2 основні режими функціонування: Thinking і Instruct. Thinking використовується для більш складних обчислювальних завдань, де потрібно задіяти поетапне мислення. Instruct потрібен для генерації інтерактивних процесів, таких як код, текст або простий аналіз даних.
Система OCR навчена на інформації з поганою якістю сканування. Модель може легко розпізнати дані з нахилених або трохи розмитих сканів і підтримує 32 мови.
Qwen3-VL доступна під ліцензією Apache 2.0, таким чином дана модель стає найдоступнішою і найпотужнішою серед варіантів з відкритим вихідним кодом. Код вже доступний на Hugging Face, а також найближчим часом готується інтеграція моделі з сервісами ModelScope і AI Workspace.