ByteDance unveils Seed-Thinking-v1.5: Revolutionary AI Model Set to Transform STEM Reasoning, But Access Still Unclear

Опубликовано: 14 апреля, 2025

История началась с объявления о модели OpenAI o1 в сентябре 2024 года, но значительный прогресс был отмечен с выходом DeepSeek R1 в январе 2025 года. В настоящее время многие ведущие компании, занимающиеся разработкой и обучением искусственного интеллекта, вступили в новую гонку, стремясь предложить более эффективные и дешевые модели «рассуждений». Эти модели могут требовать немного больше времени на ответ, но в итоге обеспечивают более качественные и аргументированные ответы, применяя метод «цепочки мыслей», позволяющий им обдумывать свои выводы и проверять их достоверность перед тем, как предоставить ответ.

Китайский интернет-гигант ByteDance, владелец TikTok, также присоединился к этому процессу, анонсировав и выпустив технический документ по Seed-Thinking-v1.5 — перспективной языковой модели, нацеленной на улучшение процессов рассуждения в науке, технологиях, математике и инженерии (STEM), а также в широком спектре других областей.

На данный момент модель недоступна для скачивания или использования, и пока неясно, какие условия лицензирования будут применяться — будет ли она закрытой или открытой для использования и модификации. Тем не менее, технический документ содержит интересные детали, которые стоит учитывать уже сейчас в ожидании доступности модели.

Как и новая Llama 4 от Meta и предыдущая Mixtral от Mistral, Seed-Thinking-v1.5 построена на архитектуре Mixture-of-Experts (MoE). Эта архитектура улучшает эффективность моделей, комбинируя возможности нескольких специализированных моделей в одной.

В данной модели MoE позволяет активировать только 20 миллиардов из 200 миллиардов параметров одновременно. ByteDance в своем техническом документе подчеркивает, что Seed-Thinking-v1.5 ориентирована на структурированное рассуждение и генерацию осмысленных ответов.

Результаты говорят сами за себя: Seed-Thinking-v1.5 обходит DeepSeek R1 и приближается к недавно представленным Google Gemini 2.5 Pro и o3-mini-high reasoner от OpenAI по ряду сторонних оценок. Она даже превосходит эти модели в тесте ARC-AGI, который оценивает прогресс в алгоритмах искусственного интеллекта. Эта модель демонстрирует лучшие результаты по большинству экономически значимых задач, как определено OpenAI.

Seed-Thinking-v1.5 позиционируется как компактная, но мощная альтернатива большим современным моделям, достигая конкурентных результатов в различных бенчмарках. Она внедряет новшества в области обучения с подкреплением, а также в кураторстве данных для обучения и инфраструктуре AI.

Модель успешно справляется с рядом сложных задач, показывая 86,7% на AIME 2024, 55% pass@8 на Codeforces и 77,3% на научном бенчмарке GPQA, что позволяет сопоставить ее с o3-mini-high от OpenAI и Gemini 2.5 Pro от Google по определённым метрикам рассуждения.

В задачах, не требующих рассуждений, модель была протестирована по сравнению с предвзятыми предпочтениями и продемонстрировала на 8% большее количество побед по сравнению с DeepSeek R1, что указывает на её универсальность в решении не только логических и математических задач.

Для борьбы с перенасыщением в традиционных бенчмарках, таких как AIME, ByteDance представила BeyondAIME — новый, более сложный математический бенчмарк с кураторами задач, разработанным для минимизации запоминания и повышения точности оценки производительности модели. Ожидается, что этот набор и сочетание оценок Codeforces будут опубликованы для поддержки будущих исследований.

[Источник](https://venturebeat.com/ai/now-its-tiktok-parent-bytedances-turn-for-a-reasoning-ai-enter-seed-thinking-v1-5/)