Дом > Новости > Компактная сила ИИ: бросает вызов GPT?

Компактная сила ИИ: бросает вызов GPT?

Автор:Kristen Обновлять:May 02,2025

В последние годы сообщество ИИ было очаровано замечательными достижениями крупных языковых моделей (LLMS). Первоначально созданные для обработки естественного языка, эти модели превратились в сложные инструменты рассуждения, способные решать сложные проблемы с пошаговым процессом мышления, сродни человеческим рассуждениям. Однако, несмотря на их расширенные возможности, LLM имеют заметные недостатки, в том числе высокие вычислительные затраты и медленные скорости развертывания, что делает их менее возможными для реальных приложений в настройках с ограниченными ресурсами, такими как мобильные устройства или краевые вычисления. Это вызвало большой интерес к разработке более мелких и более эффективных моделей, которые могут обеспечить сопоставимые способности рассуждения, при этом минимизировать затраты и потребности в ресурсах. Эта статья углубляется в появление этих небольших моделей рассуждений, исследуя их потенциал, проблемы и будущие последствия для ландшафта ИИ.

Сдвиг в перспективе

В течение значительного периода в недавней истории ИИ область придерживалась принципа «законов масштабирования», который утверждает, что производительность модели улучшается в предсказуемо, поскольку данные, вычисление мощности и увеличение размера модели. Хотя этот подход действительно создал мощные модели, он также привел к значительным компромиссам, таким как высокие затраты на инфраструктуру, воздействие на окружающую среду и проблемы с задержкой. Не все приложения требуют полных возможностей массовых моделей с сотнями миллиардов параметров. Во многих практических сценариях, таких как ассистенты на поступлении, здравоохранение и образование, модели, модели, могут достичь сопоставимых результатов, при условии, что они могут эффективно рассуждать.

Понимание рассуждений в ИИ

Рассуждение в ИИ охватывает способность модели следовать логическим последовательностям, понимать причину и следствие, вывести последствия, процедурные шаги планирования и выявлять противоречия. Для языковых моделей это включает не только получение информации, но и манипулирование и вывод данных с помощью структурированного пошагового подхода. Достижение этого уровня рассуждений, как правило, требует тонкой настройки LLM для выполнения многоэтапных рассуждений, прежде чем прийти к выводу. Несмотря на эффективные, эти методы являются ресурсными и могут быть медленными и дорогостоящими для развертывания, что вызывает опасения по поводу их доступности и воздействия на окружающую среду.

Понимание небольших моделей рассуждений

Небольшие модели рассуждений направлены на то, чтобы воспроизвести возможности рассуждений крупных моделей, но с большей эффективностью с точки зрения вычислительной мощности, использования памяти и задержки. Эти модели часто используют технику, известную как дистилляция знаний, где меньшая модель («ученик») учится на более крупной, предварительно обученной модели («учитель»). Процесс дистилляции включает в себя обучение меньшей модели данных, генерируемым более крупной, направленной на передачу способности рассуждения. Студенческая модель затем настраивается, чтобы повысить свою производительность. В некоторых случаях обучение подкреплению со специализированными функциями вознаграждения, специфичных для домена, используется для дальнейшего уточнения способности модели выполнять специфические для задачи рассуждения.

Рост и достижения малых моделей рассуждений

Ключевой момент в разработке небольших моделей рассуждений был отмечен выпуском DeepSeek-R1. Обученный на относительно скромном кластере более старых графических процессоров, DeepSeek-R1 достиг уровней производительности, сравнимых с более крупными моделями, такими как O1 Openai, на контрольных показателях, таких как MMLU и GSM-8K. Этот успех вызвал переоценку традиционного подхода к масштабированию, который предполагал, что более крупные модели были по своей природе превосходными.

Успех DeepSeek-R1 может быть связан с его инновационным процессом обучения, который сочетал в комбинации крупномасштабного обучения подкреплению, не полагаясь на контролируемую тонкую настройку на ранних стадиях. Это инновация привела к созданию DeepSeek-R1-Zero, модели, которая продемонстрировала впечатляющие возможности рассуждения по сравнению с большими моделями рассуждений. Дальнейшие улучшения, такие как использование данных о холодном начале, улучшили когерентность и выполнение задач модели, особенно в таких областях, как математика и кодирование.

Кроме того, методы дистилляции оказались инструментальными в разработке более мелких и более эффективных моделей из более крупных. Например, DeepSeek выпустила дистиллированные версии своих моделей, размером от 1,5 до 70 миллиардов параметров. Используя эти модели, исследователи обучили значительно меньшую модель, DeepSeek-R1-Distill-QWEN-32B, которая превзошла O1-Mini OpenAI по различным критериям. Эти модели в настоящее время развернуты на стандартном оборудовании, что делает их более жизнеспособным вариантом для широкого спектра приложений.

Могут ли небольшие модели соответствовать рассуждениям на уровне GPT?

Чтобы определить, могут ли небольшие модели рассуждений (SRM) соответствовать мощности рассуждений крупных моделей (LRM), таких как GPT, важно оценить их производительность по стандартным критериям. Например, модель DeepSeek-R1 набрала около 0,844 на тесте MMLU, сравнимой с более крупными моделями, такими как O1. На наборе данных GSM-8K, который фокусируется на математике школы класса, дистиллированная модель DeepSeek-R1 достигла производительности высшего уровня, превысив как O1, так и O1-Mini.

В задачах кодирования, таких как задачи на LiveCodebench и Codeforces, дистиллированные модели DeepSeek-R1 выполняли аналогично O1-Mini и GPT-4O, демонстрируя сильные возможности рассуждения в программировании. Тем не менее, более крупные модели по-прежнему имеют преимущество в задачах, требующих более широкого понимания языка или обработки длинных контекстных окон, поскольку более мелкие модели, как правило, более специфичны для задач.

Несмотря на их сильные стороны, небольшие модели могут бороться с расширенными задачами рассуждений или при столкновении с данными за пределами распределения. Например, при шахматном моделировании LLM DeepSeek-R1 совершал больше ошибок, чем более крупные модели, что указывает на ограничения в его способности поддерживать фокус и точность в течение длительных периодов.

Компромиссы и практические последствия

Компромисс между размером модели и производительностью имеют решающее значение при сравнении SRM с LRM на уровне GPT. Меньшие модели требуют меньше памяти и вычислительной мощности, что делает их идеальными для устройств, мобильных приложений или ситуаций, где необходим автономный вывод. Эта эффективность приводит к более низким эксплуатационным затратам, при этом модели, такие как DeepSeek-R1, на 96% дешевле, чем более крупные модели, такие как O1.

Тем не менее, эти повышения эффективности поставляются с некоторыми компромиссами. Меньшие модели, как правило, настраиваются на определенные задачи, которые могут ограничить их универсальность по сравнению с более крупными моделями. Например, в то время как DeepSeek-R1 превосходит по математике и кодированию, ему не хватает мультимодальных возможностей, таких как способность интерпретировать изображения, с которыми могут обращаться более крупные модели, такие как GPT-4O.

Несмотря на эти ограничения, практическое применение малых моделей рассуждений обширно. В здравоохранении они могут питать диагностические инструменты, которые анализируют медицинские данные на стандартных больничных серверах. В образовании их можно использовать для разработки персонализированных систем обучения, обеспечивая пошаговую обратную связь для студентов. В научных исследованиях они могут помочь с анализом данных и тестированием гипотез в таких областях, как математика и физика. Характер с открытым исходным кодом, таких как DeepSeek-R1, также способствует сотрудничеству и демократизирует доступ к ИИ, что позволяет небольшим организациям извлечь выгоду из передовых технологий.

Суть

Эволюция языковых моделей в более мелкие модели рассуждений представляет собой значительный прогресс в ИИ. Хотя эти модели еще не могут полностью соответствовать широким возможностям крупных языковых моделей, они предлагают ключевые преимущества в эффективности, экономической эффективности и доступности. Выразив баланс между рассуждением силой и эффективностью ресурсов, более мелкие модели готовы играть решающую роль в различных приложениях, что делает ИИ более практичным и устойчивым для реального использования.

Слухи о Switch 2 предполагают «Лето Switch 2» в следующем году
Предыдущая статья>

Слухи о Switch 2 предполагают «Лето Switch 2» в следующем году

As of recent reports, Devolver Digital—the publisher behind Gone Home, Outer Wilds, and Balances—has announced a significant restructuring at Bend Studio, the developer best known for the Sydney series and The Last of Us Part I (a remake). While the official statement from Devolver Digital confirms that Bend Studio has undergone a workforce reduction, the company has not disclosed specific details about the exact number of layoffs.
The move comes amid a broader shift in the studio’s direction. Devolver Digital stated that Bend Studio is
Следующая статья>

As of recent reports, Devolver Digital—the publisher behind Gone Home, Outer Wilds, and Balances—has announced a significant restructuring at Bend Studio, the developer best known for the Sydney series and The Last of Us Part I (a remake). While the official statement from Devolver Digital confirms that Bend Studio has undergone a workforce reduction, the company has not disclosed specific details about the exact number of layoffs. The move comes amid a broader shift in the studio’s direction. Devolver Digital stated that Bend Studio is "transitioning" into a new phase, focusing on "exploring new opportunities and creative directions" beyond its current projects. However, the nature of the next project remains officially unknown, with no details provided about its genre, platform, or timeline. This development has sparked speculation across the gaming community, especially given Bend Studio’s strong reputation for narrative-driven, emotionally resonant experiences. Fans are concerned about the future of the studio’s creative vision, particularly since it has not previously been involved in major franchise reboots or sequels. In summary: Bend Studio has cut jobs as part of a restructuring. The studio is shifting focus to an unknown new project. Devolver Digital confirmed the change but did not reveal specifics about the next game. The transition marks a potential evolution in Bend Studio’s identity, but its future remains uncertain. For now, the gaming world waits for more clarity—though if history is any guide, Bend Studio may be laying the groundwork for something ambitious, even if it’s not yet ready to share.