Mozilla планирует использовать ИИ в Firefox для улучшения доступности

Mozilla объявила о том, что Firefox будет использовать искусственный интеллект для улучшения доступности браузера. В грядущей версии Firefox 130, которая уже доступна в бета-версии Nightly, появится новая функция: автоматическая генерация текстовых описаний для изображений с помощью ИИ.

Текстовые описания изображений (или "альтернативный текст") помогают пользователям скринридеров понимать контекст изображений. Однако многие веб-сайты не предоставляют такие описания, делая контент недоступным для значительной части пользователей. Согласно Web Almanac 2022, почти половина изображений в интернете не имеет альтернативного текста.

Как работает?

Mozilla интегрировала в Firefox локальную модель машинного обучения, которая генерирует описания изображений, не отправляя данные на внешние серверы. Модель основана на архитектуре трансформаторов, которая демонстрирует высокую точность в обработке изображений и доступна для различных типов устройств.

Модель, генерирующая текстовые описания, занимает около 200 МБ дискового пространства. Она обучена на основе данных модели DistilGPT2 и включает в себя 182 миллиона параметров. Для анализа изображений используется декодировщик, построенный на базе модели Vision Transformer (ViT).

Для эффективной работы модели в браузер интегрированы ONNX Runtime (скомпилированный в формате WASM) и библиотека Transformers.js. Модель загружается только при первом использовании, что оптимизирует расход ресурсов.

В первом релизе функция будет генерировать описания только для изображений в файлах PDF. В будущем Mozilla планирует расширить функциональность, чтобы сделать доступными описания изображений на всех веб-страницах.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"