Вышел Qwen2.5-VL от Alibaba: распознавание часовых видео, агенты, структурные данные
Астрологи объявили неделю китайских нейросетей. На этот раз у нас апдейт Qwen2.5-VL.
Вышел Qwen2.5-VL от Alibaba
Это модель, умеющая принимать на вход на текст, так и изображения, обладает более развитой способностью "понимать" нарисованное на картинках, в том числе прекрасно справляется с обработкой видео длительности до 1 часа.
Ключевые улучшения
Взято из https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct и переведено на русский с небольшой редактурой для понятности:
Визуальное понимание
Модель Qwen2.5-VL не только умеет распознавать привычные объекты (цветы, птицы, рыбы, насекомые), но и способна анализировать тексты, диаграммы, иконки, графику и макеты внутри изображений.
Работа в формате ИИ-агента:
Qwen2.5-VL может напрямую выступать в роли визуального агента, который умеет рассуждать и динамически использовать различные инструменты, в том числе компьютер или телефон. [Привет, OpenAI Operator!]
Понимание длинных видео и фиксация событий:
Qwen2.5-VL способна разбирать видео длительностью более 1 часа.
Новая возможность — находить конкретные события, выделяя нужные фрагменты видео.
Точная локализация в разных форматах:
Читайте так же:Модель умеет точно находить объекты на изображении, создавая bounding-box или указывая точки.
Она также может выдавать JSON с координатами и характеристиками объектов.
Генерация структурированных данных:
При работе со сканами счетов, форм, таблиц и т.п. Qwen2.5-VL поддерживает структурированный вывод их содержимого, что полезно в финансах, торговле и других сферах.
Обновления архитектуры модели
Динамическое разрешение и частота кадров при обучении видео:
Была расширена идея динамического разрешения, было добавлено временное измерение, и переменная частота кадров (FPS). Это помогает модели понимать видео с разными скоростями воспроизведения.
Также был обновлен mRoPE во временном измерении с помощью использования ID и абсолютной привязки ко времени. Это позволяет модели лучше понимать последовательность событий и скорость, чтобы точнее находить конкретные моменты в видео.
Упрощённый и быстрый визуальный энкодер:
Ускорено обучение и вывод результатов, используя оконное внимание (window attention) в ViT.
Архитектуру ViT оптимизировали с использованием SwiGLU и RMSNorm, чтобы она соответствовала структуре языковой модели Qwen2.5.
Бенчмарки
Тут всё не так однозначно. В каких-то (MathVista_MINI) Qwen2.5-VL уступает моделям от OpenAI, в каких-то лидирует.
Бенчмарки по иозбражений:
Benchmarks | GPT4o | Claude3.5 Sonnet | Gemini-2-flash | InternVL2.5-78B | Qwen2-VL-72B | Qwen2.5-VL-72B |
---|---|---|---|---|---|---|
MMMUval | 70.3 | 70.4 | 70.7 | 70.1 | 64.5 | 70.2 |
MMMU_Pro | 54.5 | 54.7 | 57.0 | 48.6 | 46.2 | 51.1 |
MathVista_MINI | 63.8 | 65.4 | 73.1 | 76.6 | 70.5 | 74.8 |
MathVision_FULL | 30.4 | 38.3 | 41.3 | 32.2 | 25.9 | 38.1 |
Hallusion Bench | 55.0 | 55.16 | 57.4 | 58.1 | 55.16 | |
MMBench_DEV_EN_V11 | 82.1 | 83.4 | 83.0 | 88.5 | 86.6 | 88 |
AI2D_TEST | 84.6 | 81.2 | 89.1 | 88.1 | 88.4 | |
ChartQA_TEST | 86.7 | 90.8 | 85.2 | 88.3 | 88.3 | 89.5 |
DocVQA_VAL | 91.1 | 95.2 | 92.1 | 96.5 | 96.1 | 96.4 |
MMStar | 64.7 | 65.1 | 69.4 | 69.5 | 68.3 | 70.8 |
MMVet_turbo | 69.1 | 70.1 | 72.3 | 74.0 | 76.19 | |
OCRBench | 736 | 788 | 854 | 877 | 885 | |
OCRBench-V2(en/zh) | 46.5/32.3 | 45.2/39.6 | 51.9/43.1 | 45/46.2 | 47.8/46.1 | 61.5/63.7 |
CC-OCR | 66.6 | 62.7 | 73.0 | 64.7 | 68.7 | 79.8 |
Бенчмарки по видео:
Benchmarks | GPT4o | Gemini-1.5-Pro | InternVL2.5-78B | Qwen2VL-72B | Qwen2.5VL-72B |
---|---|---|---|---|---|
VideoMME w/o sub. | 71.9 | 75.0 | 72.1 | 71.2 | 73.3 |
VideoMME w sub. | 77.2 | 81.3 | 74.0 | 77.8 | 79.1 |
MVBench | 64.6 | 60.5 | 76.4 | 73.6 | 70.4 |
MMBench-Video | 1.63 | 1.30 | 1.97 | 1.70 | 2.02 |
LVBench | 30.8 | 33.1 | - | 41.3 | 47.3 |
EgoSchema | 72.2 | 71.2 | - | 77.9 | 76.2 |
PerceptionTest_test | - | - | - | 68.0 | 73.2 |
MLVU_M-Avg_dev | 64.6 | - | 75.7 | 74.6 | |
TempCompass_overall | 73.8 | - | - | 74.8 |
Бенчмарки по "агентским" спосоностям:
Benchmarks | GPT4o | Gemini 2.0 | Claude | Aguvis-72B | Qwen2VL-72B | Qwen2.5VL-72B |
---|---|---|---|---|---|---|
ScreenSpot | 18.1 | 84.0 | 83.0 | 87.1 | ||
ScreenSpot Pro | 17.1 | 1.6 | 43.6 | |||
AITZ_EM | 35.3 | 72.8 | 83.2 | |||
Android Control High_EM | 66.4 | 59.1 | 67.36 | |||
Android Control Low_EM | 84.4 | 59.2 | 93.7 | |||
AndroidWorld_SR | 34.5% (SoM) | 27.9% | 26.1% | 35% | ||
MobileMiniWob++_SR | 66% | 68% | ||||
OSWorld | 14.90 | 10.26 | 8.83 |
Заключение
Alibaba выпустили модель в 3 вариантах - 3, 7 и 72 миллиарда параметров. Более подробное описание можно посмотреть на HuggingFace, а сама модель лежит на GitHub.
Вот уж мощное начало года для китайских специалистов в ИИ.
---
P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!
Написать комментарий