Впечатляющие результаты системы обусловлены обучением на огромном наборе данных, содержащем 1,6 миллиона медицинских текстов и изображений. Чтобы обеспечить точность на обоих языках, команда использовала GPT-4o для создания начальных переводов на арабский, которые затем проверялись медицинскими экспертами на качество. Под капотом BiMediX2 работает на архитектуре Llama 3.1, специально настроенной для медицинских приложений. В тестах она оказалась лучше GPT-4o в выявлении некорректной медицинской информации.
Хотя результаты обнадеживают, исследователи подчеркивают, что BiMediX2 в настоящее время предназначена только для исследований, а не для клинического использования. Как и все системы AI, она все еще может совершать ошибки или генерировать некорректную информацию. Команда сделала модели BiMediX2 доступными на Hugging Face и представила BiMed-MBench, новый двуязычный бенчмарк для тестирования аналогичных систем.
Источник
Обсудить