«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка

«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка

Исследователи МГУ и Яндекса создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. О разработках Яндекс рассказал в рамках Конгресса молодых ученых. Сгенерировано нейросетью Midjourney Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов. В Яндексе рассказали: Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил. Датасет Института ИИ МГУ и Яндекса охватывает 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предлож...
18:55, 26.11.2025
Сообщает источник: www.ixbt.com  
Рубрика: «Наука и Техника»   Поделитесь: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языкаИсследователи МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка Исследователи Института ИИ МГУ и «Яндекса» создали LORuGEC — первый открытый наб ...

Нейросети научили сложным правилам русского языкаНейросети научили сложным правилам русского языка Специалисты Института искусственного интеллекта МГУ и «Яндекса» разработали мето ...

Мигранты будут проходить тестирование на знание русского языка по новым правиламМигранты будут проходить тестирование на знание русского языка по новым правилам Проведение экзамена для мигрантов на знание русского языка, истории России и осн ...

В России создали крупнейший в мире датасет для умных кассВ России создали крупнейший в мире датасет для умных касс Российские ученые выпустили самый большой в мире открытый набор данных PackEat д ...

В России создали крупнейший в мире датасет для распознавания фруктов и овощей в магазинахВ России создали крупнейший в мире датасет для распознавания фруктов и овощей в магазинах Инженер Яндекса, исследователи Центра искусственного интеллекта Сколтеха и Санкт ...

Исследователи создали крупнейший в мире датасет для умных касс и систем учета магазиновИсследователи создали крупнейший в мире датасет для умных касс и систем учета магазинов Инженер «Яндекса», исследователи Центра искусственного интеллекта «Сколтеха» и С ...

Разработан способ обучения нейросетей на мемристорахРазработан способ обучения нейросетей на мемристорах В Китае разработан способ обучения нейросетей на мемристорах, который может сокр ...

Когнитив Пилот представила новую технологию обучения нейросетей«Когнитив Пилот» представила новую технологию обучения нейросетей «Когнитив Пилот» представила новую технологию обучения нейросетей. Одной из ключ ...

90 ГБ видеопамяти в 2 литрах объема: JWIPC представила мини-ПК для обучения нейросетей90 ГБ видеопамяти в 2 литрах объема: JWIPC представила мини-ПК для обучения нейросетей Компания JWIPC представила компактную настольную рабочую станцию W144, которая п ...

В России разработали инновационный метод обучения нейросетей на миллионах уникальных объектовВ России разработали инновационный метод обучения нейросетей на миллионах уникальных объектов Компания «Криптонит» (входит в «ИКС Холдинг») разработала модификацию метода обу ...

Боуз: посол Германии опозорился из-за русского языкаБоуз: посол Германии опозорился из-за русского языка Журналист Чей Боуз выразил мнение, что немецкое правительство поступает нелепо, ...

Путин подписал закон о защите русского языкаПутин подписал закон о защите русского языка Президент России Владимир Путин подписал закон о защите русского языка, который ...

Музыкант GRILLYAZH назвал мат золотом русского языкаМузыкант GRILLYAZH назвал мат золотом русского языка Любая цензура — курирование симптома, заниматься воспитанием детей нужно дома, т ...

Жапаров: Без русского языка далеко от Киргизии не уехатьЖапаров: Без русского языка далеко от Киргизии не уехать Киргизия нуждается в русском языке, так как им пользуется половина мира, заявил ...

День русского языка отметят в Псковском музееДень русского языка отметят в Псковском музее Музейная акция «Великий и могучий», приуроченная ко Дню русского языка, пройдет ...

День русского языка отметили в Псковском музееДень русского языка отметили в Псковском музее Музейная акция «Великий и могучий» прошла в минувшую субботу Палатах у Сокольей ...

В орфографический словарь русского языка РАН добавили 264 словаВ орфографический словарь русского языка РАН добавили 264 слова Орфографический словарь Института русского языка РАН пополнился 264 новыми слова ...

Слово зажировка вошло в словарь русского языкаСлово «зажировка» вошло в словарь русского языка Слово «зажировка», обозначающее процесс накопления жирового запаса у животных в ...

МИД оценит эффективность продвижения русского языка в АзербайджанеМИД оценит эффективность продвижения русского языка в Азербайджане Социсследование за 34,8 млн рублей также проведут в Узбекистане и странах дальне ...

Мигрантам усложнили тест на знание русского языкаМигрантам усложнили тест на знание русского языка Иностранцам необходимо успешно сдать тест, чтобы претендовать на гражданство, ви ...

VSMI.DAY Поиск в новостях