Apache Lucene - Apache Lucene

Lucene
Логотип Lucene green.svg
Разработчики)Фонд программного обеспечения Apache
изначальный выпуск1999; 21 год назад (1999)
Стабильный выпуск
8.7.0 / 3 ноября 2020 г.; 30 дней назад (2020-11-03)[1]
Репозиторий Отредактируйте это в Викиданных
Написано вЯва
Операционная системаКроссплатформенность
ТипПоиск и показатель
ЛицензияЛицензия Apache 2.0
Интернет сайтЛюцен.apache.org

Apache Lucene это бесплатно и с открытым исходным кодом поисковый движок библиотека программного обеспечения, изначально написано полностью на Ява от Дуг Каттинг. Поддерживается Фонд программного обеспечения Apache и выпущен под Лицензия на программное обеспечение Apache.

Lucene был перенесен на другие языки программирования, включая Object Pascal, Perl, C #, C ++, Python, Рубин и PHP.[2]

История

Дуг Каттинг Первоначально написал Lucene в 1999 году.[3] Lucene была его пятой поисковой системой: до этого он писал две в Xerox PARC, одну в Apple и четвертую в Excite.[4] Первоначально он был доступен для загрузки из домашней сети по адресу SourceForge интернет сайт. Он присоединился к Apache Software Foundation Джакарта семейство продуктов Java с открытым исходным кодом в сентябре 2001 г. и стало его собственным проектом Apache верхнего уровня в феврале 2005 г. Имя Lucene - это отчество жены Дуга Каттинга и имя ее бабушки по материнской линии.[5]

Lucene ранее включала ряд подпроектов, таких как Lucene.NET, Mahout, Тика и Nutch. Эти три теперь являются независимыми проектами верхнего уровня.

В марте 2010 г. Apache Solr поисковый сервер присоединился как подпроект Lucene, объединив сообщества разработчиков.

Версия 4.0 была выпущена 12 октября 2012 г.[6]

Особенности и общее использование

Хотя подходит для любого приложения, требующего полного текста индексация и возможности поиска, Lucene известна своей полезностью в реализации Поисковые системы в Интернете и локальный поиск по одному сайту.[7][8]

Lucene включает функцию нечеткого поиска на основе редактировать расстояние.[9]

Lucene также использовался для внедрения систем рекомендаций.[10] Например, класс MoreLikeThis в Lucene может создавать рекомендации для похожих документов. При сравнении подхода «MoreLikeThis», основанного на векторном подходе к подобию, с критериями подобия документов на основе цитирования, такими как совместное цитирование и анализ близости цитирования, подход Lucene превосходно рекомендовал документы с очень похожими структурными характеристиками и более узкой взаимосвязью.[11] Напротив, меры схожести документов на основе цитирования, как правило, более подходят для рекомендации более общих документов, связанных,[11] это означает, что подходы, основанные на цитировании, могут быть более подходящими для создания счастливый рекомендации, если рекомендуемые документы содержат цитаты в тексте.

Проекты на основе Lucene

Сама Lucene представляет собой просто библиотеку для индексации и поиска и не содержит ползать и HTML разбор функциональность. Однако несколько проектов расширяют возможности Lucene:

Смотрите также

использованная литература

  1. ^ «Добро пожаловать в Apache Lucene». Раздел новостей Lucene ™. В архиве из оригинала 14 августа 2020 г.. Получено 14 августа 2020.
  2. ^ "LuceneImplementations". apache.org. В архиве из оригинала от 6 октября 2015 г.. Получено 23 сентября 2015.
  3. ^ KeywordAnalyzer«Улучшенный поиск с Apache Lucene и Solr» (PDF). 19 ноября 2007 г. Архивировано с оригинал (PDF) 31 января 2012 г.
  4. ^ Режущий, Дуг (2019-06-07). «Я написал пару поисковых систем в Xerox PARC, затем V-Twin в Apple, затем переписал поисковый запрос Excite, затем Lucene. Итак, Lucene может считаться V-Twin 3.0? Почти 25 лет спустя V-Twin все еще жив как Mac OS X Search Kit! ". @ резка. Получено 2019-06-19.
  5. ^ Баркер, Дин (2016). Управление веб-контентом. О'Рейли. п. 233. ISBN  1491908106.
  6. ^ "Apache Lucene - Добро пожаловать в Apache Lucene". apache.org. В архиве из оригинала 4 февраля 2016 г.. Получено 4 февраля 2016.
  7. ^ МакКэндлесс, Майкл; Хэтчер, Эрик; Gospodnetić, Отис (2010). Lucene в действии, второе издание. Мэннинг. п.8. ISBN  1933988177.
  8. ^ «Система семантического хранения GNU / Linux» (PDF). glscube.org. Архивировано из оригинал (PDF) на 01.06.2010.
  9. ^ «Apache Lucene - синтаксис парсера запросов». lucene.apache.org. В архиве из оригинала от 02.05.2017.
  10. ^ Дж. Бил, С. Лангер и Б. Гипп, «Архитектура и наборы данных рекомендательной системы исследовательских работ Docear», в материалах 3-го Международного семинара по научным публикациям в горнодобывающей отрасли (WOSP 2014) на совместной конференции ACM / IEEE по цифровым технологиям. Библиотеки (JCDL 2014), Лондон, Великобритания, 2014 г.
  11. ^ а б М. Шварцер, М. Шуботц, Н. Меушке, К. Брайтингер, В. Маркл и Б. Гипп, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf «Оценка рекомендаций для Википедии на основе ссылок» в материалах 16-й совместной конференции ACM / IEEE-CS по электронным библиотекам (JCDL), Нью-Йорк, штат Нью-Йорк, США, 2016 г., стр. 191-200.
  12. ^ «Будущее компаса и эластичного поиска». чувак пребывает. Архивировано из оригинал на 2015-10-15. Получено 2015-10-14.
  13. ^ Уэйнер, Питер. «11 передовых баз данных, которые стоит изучить сейчас». InfoWorld. В архиве из оригинала 21 сентября 2015 г.. Получено 21 сентября 2015.
  14. ^ «Elasticsearch: RESTful, распределенный поиск и аналитика - эластичный». elastic.co. В архиве из оригинала 8 октября 2015 г.. Получено 23 сентября 2015.
  15. ^ а б Нативидад, Анджела. "Поиск обновлений Socialtext, Goes Kino". CMS Wire. В архиве из оригинала от 29.09.2012. Получено 2011-05-31.
  16. ^ Марвин Хамфри. "KinoSearch - библиотека поисковых систем. - metacpan.org". p3rl.org. Получено 23 сентября 2015.
  17. ^ Димент, Кирен; Траут, Мэтт С (2009). "Поваренная книга катализаторов". Полное руководство по Catalyst. Apress. п.280. ISBN  978-1-4302-2365-8.
  18. ^ «HMDB: база знаний о метаболоме человека». Nucleic Acids Res. 37 (Выпуск базы данных): D603–10. Январь 2009 г. Дои:10.1093 / nar / gkn810. ЧВК  2686599. PMID  18953024.
  19. ^ «T3DB: всесторонне аннотированная база данных распространенных токсинов и их целей». Нуклеиновые кислоты Res. 38 (Выпуск базы данных): D781–6. Январь 2010 г. Дои:10.1093 / нар / gkp934. ЧВК  2808899. PMID  19897546.

Список используемой литературы

внешние ссылки