Как найти ключевые слова в тексте русский язык

Как найти ключевые слова в тексте русский язык

Это открытый вопрос в НЛП, поэтому нет простого ответа.

Моя рекомендация по быстрому и грязному «работа для меня» topia.termextract.

Yahoo имеет службу извлечения ключевых слов (http://developer.yahoo.com/search/content/V1/termExtraction.html), которая является низкой, но высокой точностью. Другими словами, это дает вам небольшое количество высококачественных терминов, но пропускает многие термины в ваших документах.

В Python есть topia.termextract(http://pypi.python.org/pypi/topia.termextract/). Он относительно шумный и предлагает много фиктивных ключевых слов, но он прост в использовании.

Termine (http://www.nactem.ac.uk/software/termine/) — это веб-сервис в Великобритании, который также является относительно шумным и предлагает множество фиктивных ключевых слов. Однако мне кажется, что он немного точнее, чем topia.termextract. YMMV.

Один способ уменьшить результаты с помощью слишком большого количества ключевых слов (например, topia.termextract и termine) — это создать словарь терминов, которые встречаются часто, а затем выкинуть предложенные термины, которые не входят в словарь. Другими словами, сделайте два прохода над своим корпусом: первый проход, подсчитайте частоту каждого ключевого слова. Во втором проходе отбросьте ключевые слова, которые слишком редки.

Если вы хотите написать свое собственное, возможно, лучшее введение написано парком, который сейчас находится в IBM:

  • «Автоматическое извлечение глоссария: вне терминологической идентификации» доступно на http://portal.acm.org/citation.cfm?id=1072370
  • «Извлечение и использование глоссария в системе поиска и доставки информации для технической поддержки IBM»

Вот еще несколько ссылок, если вы хотите узнать больше:

  • http://en.wikipedia.org/wiki/Terminology_extraction
  • «CorePhrase: извлечение ключевой фразы для кластеризации документов»
  • Liu et al 2009 от NAACL HLT
  • «Автоматическая идентификация не-композиционных фраз»
  • «Data Mining встречает обнаружение Collocations»
  • Как и множество других ссылок, вы можете вырыть на эту тему.



Источник: qaru.site


Добавить комментарий