Поисковик @ Tigra

Tigra
28-07-2025 21:38

Поисковик

Shmuel Leib Melamud, а как работает поиск? Какой там запрос к OpenSearch и как он генерируется?

#humor #programming - работает как OR, причем без влияния на ренкинг, в топе у меня пост с тегами mindmap и programming
#humor AND #programming - работает как ожидается - с обоими тегами - в топе, но есть и с каким-то одним внизу
#humor AND #programming AND (NOT #ai) - вытягивает пост со всеми тремя тегами вверх

👍2

19 comments

Comments (19)

Shmuel Leib Melamud 11 mo

#humor #programming - запрос только с хештегом или несколькими хештегами - это отдельный вид запросов, он работает без OpenSearch и возвращает посты в обратном хронологическом порядке.

👍1

Tigra 11 mo

Shmuel Leib Melamud #humor #programming - запрос только с хештегом или несколькими хештегами - это о…

● Как работает поиск в Moera Search

Поиск реализован через два основных эндпоинта:

1. Полнотекстовый поиск (/search/entries/by-text)

Генерация запроса к OpenSearch:

1. MultiMatch запрос - основной поисковый запрос с учётом языка:
- Для русского текста: subject^2, text, mediaText, subjectRu^2, textRu, mediaTextRu
- Для английского: subject^2, text, mediaText
- Поле subject имеет boost=2 (более важное)
2. Фильтры (через bool.filter):
- Тип записи: posting или comment (через exists/not exists для commentId)
- Хештеги: точное совпадение по полю hashtags
- Публикаторы: по полям publishers или news
- Владельцы: по полю ownerName
- Ответы: по полю repliedToName
- Количество изображений: range запрос по imageCount
- Наличие видео: по полю videoPresent
- Дата создания: range запрос по createdAt
- Права доступа: по полю viewPrincipal (public или отсутствует)
3. Пагинация: через параметры from и size

2. Поиск по хештегам (/search/entries/by-hashtag)

Использует Neo4j напрямую без OpenSearch для более эффективной работы с графовой структурой.

Структура индекса

Документы в OpenSearch содержат:
- Текстовые поля с языковыми анализаторами (english/russian)
- Метаданные (ID, временные метки, владельцы)
- Медиа-информацию (количество изображений, наличие видео)
- Хештеги и права доступа

Язык текста определяется автоматически библиотекой Lingua, и текст индексируется в соответствующие поля с правильным анализатором.

👍1

Tigra 11 mo

Shmuel Leib Melamud #humor #programming - запрос только с хештегом или несколькими хештегами - это о…

(попросил Клод Код разобраться 🙂 )

Shmuel Leib Melamud 11 mo

Остальные запросы работают через OpenSearch и результаты отсортированы по релевантности. Но операторы в них не работают. Дело в том, что мне нужен многоязычный поиск, поэтому я пользуюсь multi_match. Но он не поддерживает операторы.

👍1

Shmuel Leib Melamud 11 mo

Tigra (попросил Клод Код разобраться 🙂 )

Ну, он неплохо разобрался 😉

👍1

Tigra 11 mo

Shmuel Leib Melamud Остальные запросы работают через OpenSearch и результаты отсортированы по релева…

#humor AND #programming

Shmuel Leib Melamud 11 mo

Tigra 📜

Он просто игнорирует этот AND.

Tigra 11 mo

Shmuel Leib Melamud Он просто игнорирует этот AND .

Улетел коммент недописанный. Получается, это такой хак обнаружился, чтобы обойти поиск через Neo4j.

👍1

Tigra 11 mo

Shmuel Leib Melamud Он просто игнорирует этот AND .

Можно завернуть в `bool` > `should`, и в качестве одного `should` clause положить этот `multi_match`, далее query string query для поддержки операторов, заодно и `phrase` можно запихнуть. В результате заматчится всё, что матчится каждым отдельным `should`, а ренкинг получится комбинированный (соответственно, например, то, где матчится полностью фраза, поднимется наверх). Хотя нормально поддержать NOT это не даст, но у меня, например, и потребности такой нет, мне интересно AND, которое работает через обнаруженный хак.

Query string

Query string query

OpenSearch Documentation•DOCS.OPENSEARCH.ORG

👍1

Tigra 11 mo

Shmuel Leib Melamud составил схемку Neo4j 🙂

Shmuel Leib Melamud 11 mo

Tigra Shmuel Leib Melamud составил схемку Neo4j 🙂 🖼

Никогда не любил такие схемы, они всё запутывают 😉

Tigra 11 mo

Shmuel Leib Melamud Никогда не любил такие схемы, они всё запутывают 😉

А как ты схемы баз данных у себя в голове визуализируешь? 🙂

Shmuel Leib Melamud 11 mo

Tigra А как ты схемы баз данных у себя в голове визуализируешь? 🙂

По кусочкам. Вот эти два, три объекта и связи между ними, которые относятся к этой фиче.

👍1

Tigra 11 mo

Из каких соображений ты решил сделать самописный workflow engine?

Shmuel Leib Melamud 11 mo

Tigra Из каких соображений ты решил сделать самописный workflow engine?

Ты о чём?

Tigra 11 mo

Shmuel Leib Melamud Ты о чём?

Ну вот эти все jobs, которые персистятся в Neo4j.

Shmuel Leib Melamud 11 mo

Tigra Ну вот эти все jobs, которые персистятся в Neo4j.

А что, есть что-то готовое похожее и достаточно простое? 😉 Я просто взял идею из oVirt, там это было реализовано нами, и никто никогда не предлагал взять что-то уже существующее.

Tigra 11 mo

Мне в голову сразу приходят Airflow (но, не знаю, как оно тебе бы подошло для задач мелкой гранулярности), или beanstalkd.

Tigra 11 mo

Tigra Мне в голову сразу приходят Airflow (но, не знаю, как оно тебе бы подошло для за…

А если бы писал на Python, то взял бы celery.

Shmuel Leib Melamud 11 mo

Tigra Мне в голову сразу приходят Airflow (но, не знаю, как оно тебе бы подошло для за…

beanstalkd

Это ж целый отдельный процесс. Для Java и мелких задач это перебор.