VLA от Li Auto: как Ли Сян создаёт ИИ-водителя, способного заменить человека

CEO Li Auto рассказал о стратегии создания VLA — визуально-языкового действия-агента, который должен стать полноценной заменой водителя. В интервью он поделился инсайтами по DeepSeek, трендам в AI и новым вызовам в автопроме.

Компания Li Auto официально раскрыла стратегическое направление в области автономного вождения — создание VLA (Vision-Language-Action) модели, которую глава компании Ли Сян называет «водительским ИИ следующего поколения». В откровенном диалоге с Tencent News он поделился видением того, как автомобили станут самостоятельными участниками дорожного движения, не требуя постоянного контроля со стороны человека.

В центре внимания — тренировка модели на уникальных данных: 3D и 2D визуальных потоках, связанных с реальным вождением, языковых данных из сферы трафика и дорожной семантики, а также особых VL-сценариев, где сочетается визуальное восприятие с языковой интерпретацией. Далее следует «школа вождения» для модели, RLHF-подход, и, наконец, этап чистого reinforcement learning, где ИИ учится превосходить человека по эффективности, безопасности и плавности езды.

Ли Сян отметил, что именно DeepSeek стал катализатором для ускоренного развития VLA. Открытая модель DeepSeek позволила Li Auto сэкономить девять месяцев R&D, что, по словам Ли, стало поводом для ответного шага — открытие кода собственной ОС StarRing OS.

VLA рассматривается не как надстройка над существующим L2+/L3 ассистентом, а как отдельная архитектура, аналогичная роли Android в мобильном мире. Цель — довести ИИ до состояния, в котором он будет восприниматься не как инструмент, а как полноправный водитель.

Основные тезисы интервью.

VLA от Li Auto: как Ли Сян создаёт ИИ-водителя, способного заменить человека

В новом выпуске AI Talk — открытом интервью с Tencent News — генеральный директор Li Auto Ли Сян делится амбициозным планом по созданию VLA (Vision-Language-Action model): искусственного интеллекта, который не просто помогает водителю, а способен полноценно заменить его за рулём.

“Когда ИИ станет не просто информационным или вспомогательным инструментом, а производственным — вот тогда и наступит настоящая революция”, — говорит Ли Сян.

От муравья до человека: как эволюционирует водительский ИИ

Ли Сян описывает эволюцию ассистента вождения как переход от «интеллекта муравья» к «интеллекту человека»:

Этап 1: Правила и карты — ИИ, как муравей, ориентируется только по заранее заданным правилам и картам.
Этап 2: End-to-End и VLM — он как дрессированное животное: повторяет, но не понимает.
Этап 3: VLA — полноценный ИИ-водитель, который видит (3D/2D), понимает (язык, навигацию, среду), действует (как человек) и обучается (через RL и RLHF).

DeepSeek как катализатор и причина открытого кода

Ли признаёт: появление DeepSeek изменило всё.

“Они ускорили нас на девять месяцев. Мы в ответ открыли исходный код StarRing OS. Это просто благодарность”.

Li Auto не боится строить на плечах гигантов. Базовая языковая часть VLA использует DeepSeek, но всё остальное (vision, action, агентная архитектура) создаётся с нуля под задачи вождения. Компания инвестирует в 3 раза больше GPU-ресурсов, чем планировала в 2024 году.

Как тренируют водителя-агента

VLA — не просто модель, а целый процесс:

Предобучение: на 3D и 2D изображениях, семантике навигации, визуально-языковых связках.
Имитационное обучение: как в автошколе — «ученик» копирует поведение опытного водителя.
RLHF и RL: как в жизни — модель обучается через вмешательства человека и самостоятельную оптимизацию по правилам, безопасности и комфорту.

Почему именно транспорт станет первым “человеко-агентом”

VLA, по мнению Ли Сяна, имеет три преимущества:

Определённые правила: дороги, светофоры и ПДД — идеальное пространство для RL.
Ограниченные степени свободы: у машины их 3–4, у робота-гуманоида — десятки.
Масштабируемые данные: 10+ млн видеоклипов, 100+ человек в команде SuperAlignment.

“Мы не просто учим машину — мы растим водителя”

“Только когда Agent соединяется с CoT, памятью и способностью понимать — появляется доверие. VLA — это профессионал, которому вы доверяете семью и жизнь.”

От ответа на вопрос — к действию

В отличие от ChatGPT, который выдаёт токены, VLA должен принимать решения в физическом мире: повернуть, затормозить, объехать. Поэтому он не просто LLM. Это embodied AI.

Будущее: VLA как Android для автопилота

Ли Сян считает, что DeepSeek — это Linux, а VLA — Android. И это не метафора: речь о полноценной платформе, на которую в будущем смогут опираться другие производители.

А человек? Что оставим себе?

“Чем больше у нас времени, тем больше у нас мудрости. Мы не для работы рождены. Мы рождены, чтобы жить, чувствовать, общаться. ИИ должен дать нам это”.

___________

🔥 Присоединяйтесь к крупнейшему сообществу Li Auto в России и СНГ! Более 36 000 участников ждут вас 👉 https://t.me/lixiangautorussia

Клубный сайт и магазин: www.liautorussia.ru

CEO Li Auto - Ли Сян: VLA — не просто автопилот, а путь к профессиональному ИИ-водителю