ИТМО провёл исследование open source в сферах машинного обучения и анализа данных

Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса оказались «Яндекс», Сбер и Т-Банк.

Исследование состояло из двух частей, сообщают в ИТМО. В первой части авторы проанализировали использование опенсорс-решений в России и выяснили, что почти все компании ориентируются как на отечественный, так и на международный рынок. Пользователи же выбирают решения по их эффективности, не обращая внимания на страну происхождения разработчика.

Опросив экспертов рынка и проанализировав данные с GitHub и PyPI, исследователи составили топ-5 проектов в различных категориях: ML и алгоритмы, математика, инфраструктура, визуализация бизнеса, хранение данных и MLOps. Топ решений выглядит так:

ML и алгоритмы:

  • CatBoost

  • LightAutoML

  • PyTorch

  • Scikit-learn

  • TensorFlow

Математика:

Инфраструктура:

  • YTsaurus

  • Spark

  • Hadoop

  • Pandas

  • Caffe

Визуализация и BI:

Хранение данных:

  • MongoDB

  • Tarantool

  • PostgreSQL

  • ClickHouse

  • YDB

MLOps:

  • LangChain

  • Kubeflow

  • MLflow

  • WandB

  • GigaChain

Вторая часть исследования была посвящена определению лидеров в опенсорс-сообществе среди российских компаний-разработчиков. Авторы учли несколько критериев: количество опенсорс-проектов в тематических категориях, их использование в России, качество репозиториев, число контрибьюторов и их активность. По большинству показателей лидирует «Яндекс», за ним следуют Сбер и Т-Банк. В десятку также вошли Postgres Pro, VK, «Авито», Evrone, МТС, Selectel и ведущие университеты, включая сам ИТМО.

«”Яндекс” определяется как лидер благодаря нескольким факторам:

  • Большое количество активно развивающихся open-source проектов, охватывающих все тематические категории в области Data/ML. Проекты включают в себя открытые модели и данные.

  • Лучшие показатели используемости этих проектов в России по сравнению с другими российскими компаниями. Это подтверждается как информацией от экспертов, так и открытыми данными (звёздами, форками, скачиваниями и т. д.). Особенно выделяется CatBoost, который активно используется как в России, так и во всём мире.

  • Высокий уровень качества реализации репозиториев, большое количество контрибьюторов и их высокая активность.

  • Участие в развитии сообщества через организацию мероприятий в сфере open-source и грантовых программ для поддержки независимых разработчиков», — пишут в ИТМО.

Исследователи также определили ключевые тенденции и мнения касательно глобального опенсорс-движения. Так, GitHub остаётся основным стандартом для размещения открытого кода, однако интерес к альтернативным платформам, таким как Gitee и GitVerse, сохраняется. Перспективы развития опенсорса включают сохранение ключевой роли человека в условиях роста влияния ИИ, демократизацию и автоматизацию ИИ-решений, а также интернационализацию сообщества. А вот тезис о том, что вклад в опенсорс помогает конкурентам, становится менее актуальным: всё больше компаний стремятся развивать отрасль в целом.

Также эксперты, которых опросили авторы исследования, подчёркивают необходимость финансовых вложений в опенсорс-проекты, поскольку у крупных компаний есть ресурсы, но важно правильно их использовать для сохранения позиций на рынке.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"