27 октября 2011 г. - Ю.Н.Орлов

27 октября 2011 г.

Ю.Н. Орлов (Институт прикладной математики им. М.В. Келдыша РАН)

"Методы статистического анализа литературных текстов"

Рассматриваются задачи классификации и идентификации литературных текстов (определение наиболее вероятного автора произведения, ответы на вопросы, переводное это произведение или написанное на языке автора, сколько авторов участвовало в его написании) на европейских языках.

Эти задачи решаются с помощью методов изучения статистических закономерностей распределений букв и буквосочетаний, основанных на кинетическом подходе к анализу нестационарных временных рядов. Для выборочного распределения фрагмента текста по буквам вводится оператор эволюции и выписывается уравнение Лиувилля. Строится спектральный портрет этого оператора и находятся инвариантные подпространства, специфические для каждого автора. Даются оценки точности метода.

При идентификации автора текста внутри библиотеки текстов, авторы которых известны, используется квазинорма Кульбака-Лэйблера для расстояния между распределениями. При изучении текста на однородность (в случае нескольких авторов) применяется индикативная статистика «горизонтных рядов» для распределения расстояний между одинаковыми буквами.

Тестирование метода идентификации автора на достаточно большой выборке (100 авторов, 1000 текстов) показало очень высокую точность: только 16 текстов были ошибочно отнесены не к своим авторам.

Наверх