Сжатие смыслов (TurboQuant от Google)
Физика ограничений: как «двойное квантование» спасает искусственный интеллект от вычислительного тупика
Первое «квантование» — это метод оптимизации уже существующих моделей. Суть проблемы в точности вычислений: стандартные веса нейросетей хранятся в формате FP32 (32 бита на число). Модель со 175 миллиардами параметров в таком виде требует около 700 ГБ видеопамяти — это больше, чем могут предложить несколько топовых видеокарт вместе взятых (Bento).
Инженеры Google представили технологию
TurboQuant, которая переводит веса модели в форматы низкой точности — INT8, INT4 или даже INT2.
- Эффект: Модель, занимавшая 700 ГБ, «сжимается» до 87 ГБ в формате INT4.
- Результат: Согласно отчету Google Research, использование квантования весов позволяет запускать тяжелые модели на потребительском железе, сохраняя до 95−98% исходного качества ответов. Это превращает ИИ из «облачного монолита» в локальный инструмент, способный работать на обычном ноутбуке.
Квантовый скачок в робототехнике (Иннополис)
Второе «квантование» относится уже не к сжатию данных, а к использованию квантовых компьютеров для решения сверхсложных задач. Пока Google учит нейросети «быть проще», ученые из Университета Иннополиса ищут способы радикального ускорения движений роботов.
В статье, опубликованной в Scientific Reports, описан метод использования квантового отжига (Quantum Annealing) для планирования траекторий. Традиционные алгоритмы часто «застревают» в поиске оптимального пути, если среда слишком сложная. Ученые применили подход QUBO (Quadratic Unconstrained Binary Optimization), который позволяет квантовому процессору находить решение в 30 раз быстрее классических систем (The Quantum Insider).
Это не теоретическое изыскание: ранее, в июле 2025 года, та же группа исследователей протестировала метод MTF (Mini-Scale Traffic Flow Optimization) на реальном квантовом процессоре D-Wave Advantage. В экспериментах по оптимизации трафиков на картах со сложным рельефом квантовый алгоритм показал превосходство в скорости принятия решений над классическими итерационными методами.
Где сходятся параллельные прямые?
Несмотря на терминологическую путаницу, оба процесса — и сжатие весов от Google, и квантовые вычисления Иннополиса — решают одну и ту же фундаментальную задачу: преодоление «стены производительности».
Классические архитектуры уперлись в потолок: объем KV-кеша (памяти контекста) растет быстрее, чем пропускная способность шин памяти. Оба исследования показывают, что путь к следующему поколению ИИ лежит не в простом наращивании количества транзисторов, а в изменении самой математики взаимодействия с данными.
В современной ИИ-индустрии сложилась парадоксальная ситуация: математические модели растут быстрее, чем возможности железа по их обслуживанию. В 2026 году разработчики столкнулись с физическим пределом — даже флагманские GPU не всегда справляются с объемом данных, необходимых для работы нейросетей уровня GPT-4 или Claude 3.5. Решение пришло с двух сторон, объединенных общим термином «квантование», который, впрочем, скрывает под собой два принципиально разных технологических процесса.