rss Twitter Добавить виджет на Яндекс
Реклама:
     
 
 
 
     
     
 

Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС», показал наилучшие характеристики в конкурсной части состоявшейся в Москве XXIII Международной конференции «Диалог 2017», посвященной актуальной оценке уровня развития российских машинно-лингвистических технологий.

При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов.

В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%.

По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «Dialogue Evaluation» подтвердила отличное качество морфологического анализа текстов, используемого в компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке».

«Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM® – современного отечественного продукта в области Big Data, по ряду функционала не имеющего аналогов на российском и мировом рынках» – подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина.

Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация – корректное восстановление начальной формы этих слов.

Представленная технология лингвистической обработки позволяет более качественно и с минимальным участием человека анализировать большие объемы текстовой информации на естественных языках.  

Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков.

Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора:

  • Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии;
  • Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (Support Vector Machine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой.

Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого.

Научно-практический форум «Диалог» ежегодно собирает ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «Dialogue Evaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ.

Редактор раздела: Тимофей Белосельцев (info@mskit.ru)

Рубрики: Интернет, Интеграция, Маркетинг, ПО, Web

наверх
 
 
     
Оставить комментарий
Имя:
E-mail:
Комментарий (не более 2000 знаков):



     
 

ITSZ.RU: последние новости Петербурга и Северо-Запада

20.07.2017 «Билайн» намерен заработать на бесплатном безлимите

17.07.2017 «ВКонтакте» доставляет. Мобильно и безлимитно

06.07.2017 Не уронить велосипед

04.07.2017 Скажи мне, что ты смотришь

03.07.2017 Богатые тоже плачут. От технологий

03.07.2017 Бизнес на новых территориях. Планирует «МегаФон»

28.06.2017 Десять лет компетенций

27.06.2017 IoT под угрозой

MSKIT.RU: последние новости Москвы и Центра

NNIT.RU: последние новости Нижнего Новгорода