Пакет для сравнения показателей LSA, TFIDF, косинуса и языковых моделей

Я ищу пакет (любой язык, на самом деле), который я могу использовать на корпусе из 50 документов для выполнения проверки сходства между документами в различных показателях, таких как tfidf, okapi, языковые модели, lsa и т. Д.

В результате я хочу получить матрицу сходства документов, т.е. doc1 на x% похож на doc2 и т. Д. ... Это для исследовательских целей, а не для производства. Я специально хочу матрицу сходства документов, поскольку хочу соотнести это с человеческими рейтингами.

Заранее спасибо!

12.10.2009 21:12:48
1 ОТВЕТ

Если вы знаете Python, вы можете использовать http://www.nltk.org - там есть все, что вам нужно, плюс плюс документация и язык Python

0
2.05.2010 17:48:56