Новости и события в мире LLM

Последние достижения и исследования в области LLM

13 Октября 2025
daniilshat

Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов

ML-инженер и бывший разработчик OpenAI Андрей Карпатый представил nanochat — это открытый проект полного цикла создания LLM. Обучение модели обойдётся примерно в 100 долларов, если арендовать мощности у облачного провайдера.
Подробнее
24 Августа 2025
Qwertcoser

DeepSeek-V3.1 теперь можно запускать локально

Unsloth сделали то, что еще год назад казалось невозможным — ужали модель весом 715 ГБ до 170 ГБ, почти без потерь в качестве.
Они использовали динамическую квантовку: важные слои остаются в 6–8 бит, а менее критичные ужимаются до меньшей разрядности. При этом для калибровки брали 2–3 миллиона токенов хороших данных
Подробнее
24 Марта 2025

FuriosaAI, занимающийся разработкой чипов AI, отклонил предложение Meta* о покупке за $800 млн

FuriosaAI, южнокорейский стартап, производящий чипы для приложений искусственного интеллекта, отклонил предложение Meta* о приобретении за 800 миллионов долларов, решив вместо этого сосредоточиться на разработке и производстве своих чипов искусственного интеллекта, сообщают местные СМИ.
Подробнее
23 Марта 2025

Microsoft Research разработала новый способ включения знаний в LLM

Microsoft Research разработала более эффективный способ включения внешних знаний в языковые модели. Новая система, называемая Knowledge Base-Augmented Language Models , использует подход plug-and-play, который не требует изменения существующих моделей.
Подробнее
15 Марта 2025

Cohere представляет Command A: инструмент AI для быстрого реагирования в бизнесе и науке

Канадский стартап Cohere в области искусственного интеллекта, соучредителем которого является один из авторов оригинальной статьи о трансформаторах, положившей начало революции в области больших языковых моделей в 2017 году, представил Command A — свою новейшую генеративную модель искусственного интеллекта, разработанную для корпоративных приложений.
Подробнее
Meta* в центре судебного спора во Франции из-за нарушения авторских прав на ИИ

Meta* в центре судебного спора во Франции из-за нарушения авторских прав на ИИ

Французские авторы и издатели подали в суд на Meta, обвинив компанию в нарушении авторских прав на ИИ. По их мнению, Meta использует ИИ в своих интересах, не выплачи...

Yelp адаптирует технологии ИИ для улучшения пользовательского опыта

Yelp адаптирует технологии ИИ для улучшения пользовательского опыта

Во время недавнего всплеска интереса к технологиям ИИ приложение для отзывов Yelp столкнулось с препятствиями при использовании современных LLM для некоторых функций...

Великая перестройка ПО: ИИ не просто поглощает всё, он и есть всё

Великая перестройка ПО: ИИ не просто поглощает всё, он и есть всё

Когда-то ПО поглотило мир. Теперь ИИ переваривает то, что осталось. Старая модель вычислений, в которой доминировали приложения, доступ к которым контролировали торг...

Turing, ключевой поставщик кодирования для OpenAI и других производителей LLM, привлек $111 млн при оценке в $2,2 млрд

Turing, ключевой поставщик кодирования для OpenAI и других производителей LLM, привлек $111 млн при оценке в $2,2 млрд

В то время как компании AI стремятся повысить точность LLM и приложений, созданных на их основе, стартап, который стал ключевым партнером в этих усилиях, объявляет о...

A-MEM: как новая структура памяти для агентов ИИ помогает решать сложные задачи

A-MEM: как новая структура памяти для агентов ИИ помогает решать сложные задачи

Специалисты из Университета Рутгерса, Ant Group и Salesforce Research разработали новую структуру, которая позволяет агентам ИИ выполнять более сложные задачи, интег...

Ceramic.ai Анны Паттерсон стремится помочь предприятиям создавать модели AI быстрее и эффективнее

Ceramic.ai Анны Паттерсон стремится помочь предприятиям создавать модели AI быстрее и эффективнее

У Анны Паттерсон была легендарная карьера в Кремниевой долине. Она основала три стартапа, включая поисковые стартапы Xift и Cuil, а также recall.archive.org, который...

Salesforce обновила платформу Agentforce: теперь их ИИ-агенты могут автономно управлять корпоративными системами

Salesforce обновила платформу Agentforce: теперь их ИИ-агенты могут автономно управлять корпоративными системами

Сегодня Salesforce объявила о запуске Agentforce 2dx — крупного обновления своей платформы цифрового труда, которое даёт автономным ИИ-агентам возможность проактивно...

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспеч...

Как сократить затраты на системы ИИ: новый метод исследователей Zoom Communications

Как сократить затраты на системы ИИ: новый метод исследователей Zoom Communications

Команда исследователей из Zoom Communications разработала революционную технологию, которая может значительно сократить затраты и вычислительные ресурсы, необходимые...

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

В недавно опубликованных данных Deepseek говорится о том, что языковые модели могут приносить ощутимую выгоду, даже если их стоимость будет ниже, чем у OpenAI.

YandexGPT заняла первое место в англо‑русском переводе среди нейросетей по результатам бенчмарка DiBiMT

YandexGPT заняла первое место в англо‑русском переводе среди нейросетей по результатам бенчмарка DiBiMT

«Яндекс Переводчик» с YandexGPT стал мировым лидером по качеству перевода с английского на русский по итогам международного независимого бенчмарка DiBiMT, сообщили в...

Ставка ИИ на $305 миллионов: модели логического вывода увеличивают спрос на графические процессоры

Ставка ИИ на $305 миллионов: модели логического вывода увеличивают спрос на графические процессоры

Когда DeepSeek-R1 только вышел на рынок, в отрасли преобладал страх, что сложные вычисления можно будет производить с использованием менее сложной инфраструктуры.

Инновационный подход NYU Langone Health к медицинскому образованию с использованием искусственного интеллекта

Инновационный подход NYU Langone Health к медицинскому образованию с использованием искусственного интеллекта

Записи данных о пациентах могут быть запутанными, а иногда и неполными, а это значит, что у врачей не всегда есть под рукой вся необходимая информация. К этому следу...

Проблемы языковых моделей при анализе длинных текстов: выводы исследования

Проблемы языковых моделей при анализе длинных текстов: выводы исследования

В результате исследования, проведённого учёными из Мюнхенского университета Людвига-Максимилиана, Мюнхенского центра машинного обучения и Adobe Research, было устано...