|
link 24.11.2017 10:11 |
Subject: анализатор текста gen. Добрый день!Вы никогда не сталкивались с задачей анализа больших текстов? Мне поручили прочитать большой объем стандартов и выделить в них словосочетания (3-5 слов), из которых в дальнейшем будет составлен словарь. И я задумалась, есть ли инструменты для вычленения фраз, которые часто употребляются в тексте? Простой пример - http://www.textanalyzer.ru/. Но недостаток подобных ему систем - он ищет отдельные слова и их частотность по тексту... Кто-то сталкивался с чем-то подобным? |
Приветствую! Вы, конечно-же, видели справа внизу окошко "последовательности слов". Почему оно вам не подходит, можете пояснить? Отлично работает на вашем кусочке, с небольшим дополнением. Вы никогда не сталкивались с задачей анализа больших текстов? Мне поручили прочитать большой объем стандартов и выделить в них словосочетания (3-5 слов), из которых в дальнейшем будет составлен словарь. И я задумалась, есть ли инструменты для вычленения фраз, которые часто употребляются в тексте? Простой пример - http://www.textanalyzer.ru/. Но недостаток подобных ему систем - он ищет отдельные слова и их частотность по тексту... Кто-то сталкивался с чем-то подобным? Подобных ему систем. подобных ему систем. подобных ему систем |
|
link 24.11.2017 10:46 |
ну, в моих текстах выводит буквально одну толковую фразу. А их реально больше. Не знаю, может текст слишком большой для анализа. Вот пример того что он мне выводит: power plant 54 nuclear power 54 nuclear power plant 50 the nuclear 49 shall be 37 a nuclear 37 the site 27 a nuclear power 27 a nuclear power plant 27 nuclear energy 25 of the nuclear 25 nuclear facility 24 of a nuclear 24 the nuclear energy 21 the nuclear power 19 the plant 18 of a nuclear power 18 of a nuclear power plant 18 the nuclear power plant 18 |
Автоматическое выделение словосочетаний -- нетривиальная задача. Известны алгоритмы поиска повторяющихся вхождений, но среди результатов всегда огромное количество мусора и лишенных смысла обрывков, типа "energy of the" и того хуже, полноценные словосочетания тонут в этом хаосе. То, что вам нашли, весьма неплохого качества, а все остальное, в том числе и полезное, видимо, зарезал очень суровый выходной фильтр. Сам выполняю поиск в полуручном-полуавтоматическом режиме, написав для этого специальные программы. Проблема мусора при этом решается хорошо, находятся только осмысленные словосочетания. Но насколько полно будут найдены все цели -- зависит от внимательности оператора. |
У SDL была платная программа для этого, но они бросили ее развивать. Но да, мусор будет, зависит от фильтров видимо. Еще сейчас они рекламируют приложение к традосу, вроде бесплатное, в SDL App Store можно посмотреть, если есть там аккаунт. |
You need to be logged in to post in the forum |