DictionaryForumContacts

 laya shkoda

link 24.11.2017 10:11 
Subject: анализатор текста gen.
Добрый день!

Вы никогда не сталкивались с задачей анализа больших текстов? Мне поручили прочитать большой объем стандартов и выделить в них словосочетания (3-5 слов), из которых в дальнейшем будет составлен словарь. И я задумалась, есть ли инструменты для вычленения фраз, которые часто употребляются в тексте? Простой пример - http://www.textanalyzer.ru/. Но недостаток подобных ему систем - он ищет отдельные слова и их частотность по тексту... Кто-то сталкивался с чем-то подобным?

 nbondarev

link 24.11.2017 10:33 
Приветствую!
Вы, конечно-же, видели справа внизу окошко "последовательности слов". Почему оно вам не подходит, можете пояснить?

Отлично работает на вашем кусочке, с небольшим дополнением.

Вы никогда не сталкивались с задачей анализа больших текстов? Мне поручили прочитать большой объем стандартов и выделить в них словосочетания (3-5 слов), из которых в дальнейшем будет составлен словарь. И я задумалась, есть ли инструменты для вычленения фраз, которые часто употребляются в тексте? Простой пример - http://www.textanalyzer.ru/. Но недостаток подобных ему систем - он ищет отдельные слова и их частотность по тексту... Кто-то сталкивался с чем-то подобным? Подобных ему систем. подобных ему систем. подобных ему систем

 laya shkoda

link 24.11.2017 10:46 
ну, в моих текстах выводит буквально одну толковую фразу. А их реально больше. Не знаю, может текст слишком большой для анализа. Вот пример того что он мне выводит:
power plant 54
nuclear power 54
nuclear power plant 50
the nuclear 49
shall be 37
a nuclear 37
the site 27
a nuclear power 27
a nuclear power plant 27
nuclear energy 25
of the nuclear 25
nuclear facility 24
of a nuclear 24
the nuclear energy 21
the nuclear power 19
the plant 18
of a nuclear power 18
of a nuclear power plant 18
the nuclear power plant 18

 PicaPica

link 25.11.2017 7:14 
Автоматическое выделение словосочетаний -- нетривиальная задача. Известны алгоритмы поиска повторяющихся вхождений, но среди результатов всегда огромное количество мусора и лишенных смысла обрывков, типа "energy of the" и того хуже, полноценные словосочетания тонут в этом хаосе. То, что вам нашли, весьма неплохого качества, а все остальное, в том числе и полезное, видимо, зарезал очень суровый выходной фильтр.

Сам выполняю поиск в полуручном-полуавтоматическом режиме, написав для этого специальные программы. Проблема мусора при этом решается хорошо, находятся только осмысленные словосочетания. Но насколько полно будут найдены все цели -- зависит от внимательности оператора.

 Petrelnik

link 25.11.2017 11:33 
У SDL была платная программа для этого, но они бросили ее развивать. Но да, мусор будет, зависит от фильтров видимо.
Еще сейчас они рекламируют приложение к традосу, вроде бесплатное, в SDL App Store можно посмотреть, если есть там аккаунт.

 

You need to be logged in to post in the forum