DeepSeek выпускает модель V3.1: что нового?

DeepSeek выпускает модель V3.1: что нового?

Китайская компания DeepSeek представила обновлённую версию своего флагманского LLM — DeepSeek V3.1. Главные новшества: расширенный контекст до 128 000 токенов и рост числа параметров до 685 млрд. Что изменилось в V3.1: контекст теперь равен целой книге на 300–400 страниц, что даёт улучшения для анализа длинных документов, генерации больших текстов и многотуровых диалогов. Архитектура Mixture-of-Experts (MoE) остаётся: при обработке токена активны только 37 млрд параметров. Поддержка форматов BF16, FP8 и F32 обеспечивает гибкость для разных сред развертывания. Модель доступна через API и Hugging Face по MIT open-source лицензии. Результаты тестов показали 71.6% на Aider coding test — выше, чем у Claude Opus 4, что делает V3.1 одним из сильнейших open-source LLM для программирования. Укрепились навыки в математике и логике, но пользователи отмечают отсутствие заметного роста в «reasoning» по сравнению с прошлой моделью R1-0528. Интерфейс DeepSeek больше не упоминает серию R1. V3.1 совмещает обычные и «reasoning»-задачи в одной гибридной архитектуре. Обучение оригинальной V3 стоило примерно 5.6 миллиона долларов (2.8 млн GPU-часов на Nvidia H800). Попытка тренировки R2 на чипах Huawei Ascend провалилась из-за проблем совместимости и производительности. В итоге DeepSeek использует гибридную схему: обучение на Nvidia, инференс на Ascend. Это усложнило разработку и задержало выход R2. Основатель Лян Вэньфэн, по сообщениям, выразил недовольство затягиванием сроков....
20.08.2025
Сообщает: Источник  
Рубрика: «Наука и Техника»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Китайская Baidu выпускает новую модель ИИ, чтобы конкурировать с DeepSeekКитайская Baidu выпускает новую модель ИИ, чтобы конкурировать с DeepSeek Китайский поисковый гигант Baidu в воскресенье представил новую модель рассуждений на основе искусственного интеллекта и сделал свои услуги чат-ботов ...

Midjourney выпускает новую модель для создания изображений V7: что новогоMidjourney выпускает новую модель для создания изображений V7: что нового? Midjourney выпустила альфа-версию своей новой модели генерации изображений V7, которая значительно улучшает обработку текстовых запросов. В компании ...

Midjourney выпускает V7  первую за год новую ИИ-модельMidjourney выпускает V7 – первую за год новую ИИ-модель Midjourney, платформа генерации изображений с поддержкой ИИ, анонсировала новую модель – V7. Альфа-версия новой модели уже доступна для теста. ИИ-мод ...

Китайская DeepSeek обновила ИИ-модельКитайская DeepSeek обновила ИИ-модель Китайский DeepSeek обновил свою модель искусственного интеллекта (ИИ) V3. Обновление V3−0324 появилось на платформе Hugging Face без официального объ ...

Xiaomi выпускает инновационную open-source модель ИИ для обработки звукаXiaomi выпускает инновационную open-source модель ИИ для обработки звука Китайский технологический гигант Xiaomi анонсировал новую голосовую ИИ-модель MiDashengLM-7B с открытым исходным кодом. ...

Alibaba представила думающую ИИ-модель QwQ-32B, которая лучше DeepSeek R1Alibaba представила «думающую» ИИ-модель QwQ-32B, которая лучше DeepSeek R1 Китайская компания Alibaba Group Holding представила модель QwQ-32B на основе искусственного интеллекта (ИИ) с открытым исходным кодом со способность ...

DeepSeek обновила открытую модель V3, улучшив её навыки программированияDeepSeek обновила открытую модель V3, улучшив её навыки программирования DeepSeek выпустила обновление ИИ-модели V3, получившее название V3-0324, которое, как сообщается, предоставляет лучшие возможности для программирован ...

Mistral AI планирует создать превосходящую DeepSeek модель ИИ на открытом кодеMistral AI планирует создать превосходящую DeepSeek модель ИИ на открытом коде Компания рассматривает создателей DeepSeek как потенциальных союзников в конкуренции с использующими закрытый код гигантами IT-рынка вроде создавшей ...