Ru  Kz
Все новости

Как открытый код меняет ML-индустрию

Как открытый код меняет ML-индустрию

Открытый код в машинном обучении перестал быть делом энтузиастов. Сегодня он превращается в важнейший инструмент для развития индустрии: помогает снижать издержки, ускоряет внедрение решений и делает доступ к ИИ-технологиям возможным даже без инфраструктуры уровня Big Tech.

Руслан Васильев — эксперт в области генеративного ИИ, языковых моделей и масштабируемой архитектуры LLM, активный участник open source-сообществ. Он сыграл ключевую роль в релизе YaLM 100B — крупнейшей на момент выхода языковой модели с открытым исходным кодом от Яндекса, которая сделала передовые ИИ-технологии доступными для глобального сообщества разработчиков. В интервью Руслан рассказал, как открытый код меняет подход к созданию ИИ и какие вызовы стоят перед экосистемой open source.

Open source — это больше, чем просто доступ к коду

Open source (открытый исходный код) — это подход к разработке программного обеспечения, при котором код доступен всем: его можно скачать, свободно изучать, использовать, изменять и распространять. Главная его ценность состоит в том, что технологии становятся доступнее: любой разработчик или команда может не начинать с нуля, а взять готовое решение, адаптировать его под свои задачи и развивать дальше. Это экономит ресурсы, ускоряет работу и помогает всему сообществу двигаться вперед быстрее. Но сегодня — это не просто открытые модели или строки кода, а полноценная экосистема, объясняет Руслан Васильев. В нее входят научные статьи, библиотеки, инструменты и сообщества, которые вместе двигают индустрию вперед — от исследований до прикладных решений.

Библиотеки вроде PyTorch и CatBoost стали отраслевым стандартом. Ими пользуются не только крупные технологические компании, но и независимые исследователи по всему миру. Такие платформы как Hugging Face значительно упростили работу с моделями и данными, сделав их доступными буквально в несколько кликов.

«Сегодня любой разработчик может за считанные минуты начать работать с высококачественными моделями — от генерации текста до изображений», — подчёркивает Руслан.

Благодаря этому даже небольшие команды, не обладающие собственной инфраструктурой, могут запускать и адаптировать крупные языковые модели. Это открывает доступ к передовым технологиям и позволяет быстрее переходить от идеи к готовому продукту.

Кроме того, открытый код стимулирует здоровую конкуренцию и сотрудничество

«После выхода модели Llama сообщество сразу начало создавать улучшенные версии — Alpaca, Vicuna, WizardLM. Параллельно появились альтернативы от других компаний — Falcon, MPT, Mistral. Это произошло именно благодаря открытости», — отмечает Руслан.

Почему компании выкладывают модели в открытый доступ

Мотивация компаний, публикующих модели в открытый доступ, редко сводится к одной цели. В отличие от независимых исследователей, у бизнеса чаще всего сразу несколько причин — от технологических до имиджевых.

Один из ключевых факторов — ускорение развития. 

«Когда модель становится доступной, десятки команд начинают её использовать, тестировать, адаптировать. Это дает компании быструю обратную связь и идеи для улучшения», — объясняет он.

Второй важный аспект — гибкость. Открытая модель позволяет охватить сразу несколько сценариев: от работы по API до полного внедрения в продукт. Это особенно важно в экосистеме, где у клиентов разные уровни зрелости и ресурсов.

Наконец, открытость — это инструмент для привлечения талантов. 

«После релиза YaLM 100B и YaFSDP мы начали получать отклики от кандидатов, которые уже работали с этими проектами. Людям было интересно стать частью команды, которая стоит за технологией», — вспоминает Руслан.

Открыть — не значит упростить

Сделать большую языковую модель действительно открытой — это не просто выложить архив, подчёркивает Руслан Васильев. Особенно если речь идёт о масштабной системе вроде YaLM 100B. 

«Наша задача была не в том, чтобы просто дать доступ, а в том, чтобы модель можно было реально использовать — даже без собственной серверной», — говорит он.

Чтобы это стало возможным, команде пришлось упростить запуск, адаптировать инструменты и описать понятные сценарии работы. То же самое — с библиотекой YaFSDP, которую изначально создавали под внутренние задачи. Чтобы она стала полезной для сообщества, её пришлось доработать, собрать документацию и интегрировать с популярными платформами. «Open source — это не про код в вакууме. Это про удобство и практическую пользу», — подытоживает Руслан.

Кто сегодня двигает open source в ML

Open source в машинном обучении объединяет самых разных участников — от технологических гигантов до энтузиастов-одиночек. У всех — свои мотивации, но общая цель — развитие доступных и мощных инструментов для работы с ИИ.

Крупные компании по-прежнему играют ключевую роль: они публикуют фреймворки, масштабные модели и инфраструктурные решения. Но не меньший вклад делают небольшие команды. 

«Стартапы вроде Stability AI и Mistral показали, что даже компактная команда может задать индустрии темп — если выпускает качественный open source», — отмечает Руслан Васильев.

Не стоит списывать со счетов и независимых разработчиков. Яркий пример — Георги Герганов, автор llama.cpp. Его проект позволил запускать крупные языковые модели на обычных CPU без необходимости в мощных видеокартах. 

«Этот проект сделал локальное использование LLM доступным широкому кругу пользователей, существенно изменив представления о том, какие ресурсы нужны для работы с большими моделями», — подчёркивает Руслан.

LLM для всех, а не только для гигантов

Использовать открытые языковые модели в реальных продуктах сегодня можно даже без инфраструктуры уровня Big Tech — и таких кейсов становится всё больше, подчёркивает Руслан Васильев. По сути, есть два основных подхода: локальный запуск с помощью специализированных библиотек или обращение к облачным провайдерам.

Первый сценарий — локальный. Библиотеки вроде llama.cpp позволяют запускать большие модели прямо на обычных CPU, без мощных видеокарт. Высокая производительность достигается за счёт агрессивной квантизации, которая снижает точность вычислений, однако при грамотном подходе это лишь незначительно влияет на итоговое качество модели. При этом существенно уменьшаются требования к памяти и сокращается время генерации. Такой подход уже активно используют в десктопных приложениях и edge-решениях.

Второй путь — работа через APIПлатформы вроде Hugging Face предоставляют доступ к инференсу десятков моделей и сотрудничают с инфраструктурными партнёрами, которые берут на себя всё «тяжёлое». Это особенно удобно для прототипов и быстрого масштабирования: не нужно думать об инфраструктуре, можно сосредоточиться на продукте.

«В итоге open source даёт выбор: можно запустить LLM у себя, можно — через облако. И оба варианта работают», — резюмирует Руслан.

Открытость против закрытости: как найти баланс?

Противопоставлять открытые и закрытые подходы к разработке моделей сегодня уже не имеет смысла, считает Руслан Васильев. Скорее речь идёт о поиске устойчивого баланса. Открытые решения становятся основой для исследований, стартапов и образовательных проектов — они ускоряют прогресс, позволяют переиспользовать наработки и дают доступ к передовым технологиям даже небольшим командам. 

«Мы видим, как из open source-инициатив вырастают целые компании — например Stability AI», — говорит он.

Но и закрытые модели остаются важным элементом экосистемы. Особенно когда на первый план выходит вопрос безопасности и этики. 

«Джеффри Хинтон неслучайно предупреждал о рисках: мощные модели могут использоваться во вред, и к их открытию стоит подходить осознанно», — подчёркивает Руслан. 

По его словам, ключ — не в выборе одного пути, а в понимании, что, зачем и для кого открывается. Открытость может ускорять развитие, но требует ответственности.

«Мы движемся к модели, в которой оба подхода — открытый и закрытый — не конкурируют, а дополняют друг друга. И это хорошо: индустрия развивается устойчивее, когда есть выбор», — подводит итог Руслан.


Комментарии отсутствуют
Будьте первым, кто оставит комментарий!
для добавления комментариев
Уже зарегистрированы?
Работаем за еду? За 20 лет у казахстанцев значительно выросла доля затрат на продукты
Казахстан поднялся в мировом пенсионном рейтинге на восемь строчек, обойдя Сингапур, Китай, Испанию и Турцию
В каких регионах Казахстана сильнее всего подорожал бензин
В Казахстане кратно увеличилось число абонентов спутникового интернета
Казахстанцы активизировали закупки товаров через маркетплейсы