System of a structural and genre tokenization on the basis of its formal genre structure
Annotation
в данной статье описывается система сегментации текста, использующая жанровую модель документов. Система позволяет определить принадлежность документа определенному жанру и разделить его на сегменты текста. Такой подход во время предварительной обработки документов позволяет уменьшить нагрузки на основной анализирующий модуль за счет уменьшения объема рассматриваемых текстов.
more