ИТМО провёл исследование open source в сферах машинного обучения и анализа данных
Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса оказались «Яндекс», Сбер и Т-Банк.
Исследование состояло из двух частей, сообщают в ИТМО. В первой части авторы проанализировали использование опенсорс-решений в России и выяснили, что почти все компании ориентируются как на отечественный, так и на международный рынок. Пользователи же выбирают решения по их эффективности, не обращая внимания на страну происхождения разработчика.
Опросив экспертов рынка и проанализировав данные с GitHub и PyPI, исследователи составили топ-5 проектов в различных категориях: ML и алгоритмы, математика, инфраструктура, визуализация бизнеса, хранение данных и MLOps. Топ решений выглядит так:
ML и алгоритмы:
CatBoost
LightAutoML
PyTorch
Scikit-learn
TensorFlow
Математика:
NumPy
Читайте так же:Optuna
SciPy
Theano
Statsmodels
Инфраструктура:
YTsaurus
Spark
Hadoop
Pandas
Caffe
Визуализация и BI:
Metabase
Читайте так же:Superset
DataLens
Matplotlib
Plotly
Хранение данных:
MongoDB
Tarantool
PostgreSQL
ClickHouse
YDB
MLOps:
LangChain
Kubeflow
MLflow
WandB
GigaChain
Вторая часть исследования была посвящена определению лидеров в опенсорс-сообществе среди российских компаний-разработчиков. Авторы учли несколько критериев: количество опенсорс-проектов в тематических категориях, их использование в России, качество репозиториев, число контрибьюторов и их активность. По большинству показателей лидирует «Яндекс», за ним следуют Сбер и Т-Банк. В десятку также вошли Postgres Pro, VK, «Авито», Evrone, МТС, Selectel и ведущие университеты, включая сам ИТМО.
«”Яндекс” определяется как лидер благодаря нескольким факторам:
Большое количество активно развивающихся open-source проектов, охватывающих все тематические категории в области Data/ML. Проекты включают в себя открытые модели и данные.
Лучшие показатели используемости этих проектов в России по сравнению с другими российскими компаниями. Это подтверждается как информацией от экспертов, так и открытыми данными (звёздами, форками, скачиваниями и т. д.). Особенно выделяется CatBoost, который активно используется как в России, так и во всём мире.
Высокий уровень качества реализации репозиториев, большое количество контрибьюторов и их высокая активность.
Участие в развитии сообщества через организацию мероприятий в сфере open-source и грантовых программ для поддержки независимых разработчиков», — пишут в ИТМО.
Исследователи также определили ключевые тенденции и мнения касательно глобального опенсорс-движения. Так, GitHub остаётся основным стандартом для размещения открытого кода, однако интерес к альтернативным платформам, таким как Gitee и GitVerse, сохраняется. Перспективы развития опенсорса включают сохранение ключевой роли человека в условиях роста влияния ИИ, демократизацию и автоматизацию ИИ-решений, а также интернационализацию сообщества. А вот тезис о том, что вклад в опенсорс помогает конкурентам, становится менее актуальным: всё больше компаний стремятся развивать отрасль в целом.
Также эксперты, которых опросили авторы исследования, подчёркивают необходимость финансовых вложений в опенсорс-проекты, поскольку у крупных компаний есть ресурсы, но важно правильно их использовать для сохранения позиций на рынке.
Написать комментарий