Рекордна продуктивність: 17 000 токенів на секунду у нового рішення від стартапу Taalas
15:13, 20.02.2026
Нещодавно стартап з Канади Taalas повідомив про свій перший продукт – чип HC1 з Llama 3.1 8B. Особливість підходу компанії полягає в тому, що модель не завантажується в пам'ять, а безпосередньо впаюється в кремній на етапі виробництва. Внаслідок чого можна досягти рекордного результату в 17 000 токенів в секунду на одного користувача. Такий результат майже в 10 разів швидший за рішення на GPU, а також досягається значна економія енергії і мінімізується вартість виробництва.
Компанія Taalas
Стартап заснували Любіша Баїч, колишній директор з проектування інтегральних схем в AMD, його дружина Лейла Баїч (колишній технологічний менеджер та інженер в AMD, ATI, Altera) і Драго Ігнятович (колишній директор з ASIC-дизайну в AMD).
Основний підхід компанії можна назвати тотальною специфікацією. Для кожної моделі компанія планує виробляти окремий чип. Мікросхема складатиметься приблизно зі 100 шарів, і лише 2 верхні будуть кастомізовані належним чином, в них вбудовується mask ROM recall fabric. Таким чином можна буде випускати чип за 2 місяці замість 6. Також обчислення і пам'ять будуть об'єднані на одному кристалі.
На даному етапі така агресивна квантизація знижує якість у порівнянні з GPU-бенчмарками. Стартап визнає цей факт, тому і позиціонує продукт як бета-сервіс. Мінімальна гнучкість чипа зберігається завдяки можливості донавчання через LaRA-адаптери та наявності контекстного вікна.
Компанія залучила інвестицій на суму $200 млн і планує незабаром випустити новий чип середнього розміру, а ближче до кінця року можливий запуск на платформі HC2 передової LLM.
Сподіваємося, стаття виявилася корисною - а як ви вважаєте? Поставте лайк і підпишіться на наш блог, щоб отримувати більше практичних порад і останніх новин про технології від HostZealot.