DeepSeek выпускает модель V3.1: что нового?

Китайская компания DeepSeek представила обновлённую версию своего флагманского LLM — DeepSeek V3.1. Главные новшества: расширенный контекст до 128 000 токенов и рост числа параметров до 685 млрд. Что изменилось в V3.1: контекст теперь равен целой книге на 300–400 страниц, что даёт улучшения для анализа длинных документов, генерации больших текстов и многотуровых диалогов. Архитектура Mixture-of-Experts (MoE) остаётся: при обработке токена активны только 37 млрд параметров. Поддержка форматов BF16, FP8 и F32 обеспечивает гибкость для разных сред развертывания. Модель доступна через API и Hugging Face по MIT open-source лицензии. Результаты тестов показали 71.6% на Aider coding test — выше, чем у Claude Opus 4, что делает V3.1 одним из сильнейших open-source LLM для программирования. Укрепились навыки в математике и логике, но пользователи отмечают отсутствие заметного роста в «reasoning» по сравнению с прошлой моделью R1-0528. Интерфейс DeepSeek больше не упоминает серию R1. V3.1 совмещает обычные и «reasoning»-задачи в одной гибридной архитектуре. Обучение оригинальной V3 стоило примерно 5.6 миллиона долларов (2.8 млн GPU-часов на Nvidia H800). Попытка тренировки R2 на чипах Huawei Ascend провалилась из-за проблем совместимости и производительности. В итоге DeepSeek использует гибридную схему: обучение на Nvidia, инференс на Ascend. Это усложнило разработку и задержало выход R2. Основатель Лян Вэньфэн, по сообщениям, выразил недовольство затягиванием сроков....

20.08.2025

Рубрика: «Наука и Техника» Поделиться:

Китайская Baidu выпускает новую модель ИИ, чтобы конкурировать с DeepSeek Китайский поисковый гигант Baidu в воскресенье представил новую модель рассуждений на основе искусственного интеллекта и сделал свои услуги чат-ботов ...

Midjourney выпускает новую модель для создания изображений V7: что нового? Midjourney выпустила альфа-версию своей новой модели генерации изображений V7, которая значительно улучшает обработку текстовых запросов. В компании ...

Midjourney выпускает V7 первую за год новую ИИ-модель Midjourney выпускает V7 – первую за год новую ИИ-модель Midjourney, платформа генерации изображений с поддержкой ИИ, анонсировала новую модель – V7. Альфа-версия новой модели уже доступна для теста. ИИ-мод ...

Китайская DeepSeek обновила ИИ-модель Китайский DeepSeek обновил свою модель искусственного интеллекта (ИИ) V3. Обновление V3−0324 появилось на платформе Hugging Face без официального объ ...

Xiaomi выпускает инновационную open-source модель ИИ для обработки звука Китайский технологический гигант Xiaomi анонсировал новую голосовую ИИ-модель MiDashengLM-7B с открытым исходным кодом. ...

Alibaba представила думающую ИИ-модель QwQ-32B, которая лучше DeepSeek R1 Alibaba представила «думающую» ИИ-модель QwQ-32B, которая лучше DeepSeek R1 Китайская компания Alibaba Group Holding представила модель QwQ-32B на основе искусственного интеллекта (ИИ) с открытым исходным кодом со способность ...

DeepSeek обновила открытую модель V3, улучшив её навыки программирования DeepSeek выпустила обновление ИИ-модели V3, получившее название V3-0324, которое, как сообщается, предоставляет лучшие возможности для программирован ...

Mistral AI планирует создать превосходящую DeepSeek модель ИИ на открытом коде Компания рассматривает создателей DeepSeek как потенциальных союзников в конкуренции с использующими закрытый код гигантами IT-рынка вроде создавшей ...