Тексты 537 английских авторов, живших начиная с 1550 года и создавших как минимум пять произведений, исследователи почерпнули в электронной библиотеке "Гутенберг”.
В качестве маркера литературного стиля математики использовали характерные особенности употребления писателями служебных слов. Эти слова (такие как to, than, it, if, but, do, be и так далее) служат для грамматического скрепления предложений и включают в себя артикли, предлоги, вспомогательные глаголы. Использование только служебных слов в анализе позволило сравнивать между собой произведения разных жанров, которые сильно отличаются между собой лексически.
Всего было проанализировано употребление 307 слов. При этом авторы не учитывали контекст, в том числе не разделяли разные слова с одинаковым написанием.
Для каждого писателя исследователи выделяли наиболее статистически значимые сходства в стиле между данным автором и его коллегами, и строили граф взаимных влияний.
Как исследователи и ожидали, оказалось, что на литературный стиль авторов текстов больше всего влиял стиль их непосредственных предшественников. Неожиданным было то, что разнообразие индивидуальных стилей росло увеличивающимися со временем темпами.
Исследователи объясняют это тем, что раньше количество текстов было сравнительно небольшим, и большая часть из них прочитывалась всеми членами литературного цеха, таким образом, помещая писателей в единое "стилистическое поле". По мере того как число произведений увеличивалось, литераторам приходилось выбирать для чтения отдельные тексты, которые составляли все меньшую долю от общего объема, что вызывало все увеличивающуюся стилистическую фрагментацию литературы.
Недавно с помощью подобных методов статистического анализа лингвисты установили, что, несмотря на активное словообразование, вызванное наступлением эпохи интернета, общий объем современных языков сокращается. Это происходит из-за того, что появление новых слов не успевает компенсировать потерю старых.
Ранее ученые из Корнелльского университета сформулировали несколько отличительных признаков популярных цитат из фильмов. В рамках исследования ученые взяли 1000 известных цитат из фильмов. После этого они подобрали схожие по длине фразы персонажей и провели среди добровольцев тест, в котором предлагали угадать, какая из фраз - известная, а какая - рядовая цитата из кино. В 75 процентах случаев участники эксперимента угадывали известную фразу.
http://techno.bigmir.net/discovery/1519184-Matematiki-sozdali-metod-analiza-stilei-v-literatyre