Алгоритм препроцессорной обработки ЕЯ-текста на Python
Аннотация
в статье рассматривается препроцессорная обработка естественно-языкового текста, которая является важным этапом подготовки текста к решению различных задач: машинный перевод, автореферирование, понимание смысла текста и многих других. В работе рассмотрены основные этапы подготовки текста: токенизация, фильтрация и нормализация. Полученный результат может использоваться для построения векторной модели текста и в дальнейшем в разных алгоритмах машинного обучения.
подробнее