Технология начала работать несколько месяцев назад. О том, как она работает с технической точки зрения можно почитать на «Хабрахабре». Чтобы понять, что фактически произошло, несколько цитат из официального блога компании:
- В нашем случае мы имеем дело не с картинками, а с текстами - это тексты поисковых запросов и заголовков веб-страниц, - но обучение проходит по той же схеме: на положительных и отрицательных примерах. Каждый пример - это пара «запрос - заголовок». Подобрать примеры можно с помощью накопленной поиском статистики. Обучаясь на поведении пользователей, нейросеть начинает «понимать» смысловое соответствие между запросом и заголовками страниц.
- Такой способ обработки запроса и его сопоставления с вероятными ответами мы назвали семантическим вектором. Этот подход хорошо работает в тех случаях, когда запрос относится к области «длинного хвоста». Семантические векторы позволяют нам лучше находить ответы на сложные низкочастотные запросы, по которым имеется слишком мало пользовательской статистики. Более того, представляя запрос и веб-страницу в виде вектора в трёхсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова.
- Семантический вектор применяется не только в поиске Яндекса, но и в других сервисах - например, в Картинках. Там он помогает находить в интернете изображения, которые наиболее точно соответствуют текстовому запросу.
- Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов - это позволит ещё точнее сопоставлять запросы и веб-страницы.