EdTrend

От семантики к смыслу: будущее поисковых технологий

Никакого смысла нет иметь доступ к необъятным данным,

если вы не способны разобраться в них.


Ноам Хомский, профессор

Массачусетского технологического института

От семантики к смыслу: будущее поисковых технологий

Поисковая строка, куда мы вносим то, что ищем в любой базе данных, — привычная часть интерфейса, и пользователь, как правило, даже не задумывается над тем, как работает этот механизм, как находит то, что мы запрашиваем. Его роль незаметна, но крайне важна, особенно на образовательном ресурсе, в электронной библиотеке, где люди ищут информацию в целях обучения и хотят получить максимально релевантную своему запросу выдачу.

Как поиск развивается и совершенствуется, способен ли он подстраиваться под то, как мы ищем информацию и формулируем запросы, и как он может измениться в ближайшее время — эти вопросы с технической и пользовательской точки зрения мы обсудили с экспертами из ЭБС Лань: руководителем отдела разработки Станиславом Тихоновым и руководителем отдела маркетинга Владиславом Никифоровым.
Далее по тексту:

Станислав Тихонов — С. Т.

Владислав Никифоров — В. Н.

Следующее поколение поиска — это GPT-технологии

Станислав, первый вопрос из Вашей экспертной области: прямо сейчас искусственный интеллект форсирует технологический прорыв во многих сферах деятельности. Как это может повлиять на способы поиска информации? Вообще как поиск развивается последние лет 20, что с ним будет дальше, в эпоху нейросетей?

С. Т.

Поиск информации изменялся эволюционным способом. Раньше при изучении учебной или научной литературы приходилось «вгрызаться» в смысл прочитанного, самостоятельно анализировать содержание источников. Теперь, когда интернет обрушил на нас такие объемы информации, что можно предположить с высокой долей вероятности, что там есть почти все, глубинный, вдумчивый поиск и столь же долгое постижение его результатов становятся просто не оптимальным занятием. Так продолжают работать с источниками только люди с определенным складом ума, они называются учеными. Но для основной массы пользователей информации в открытых источниках так много, что главной задачей стало быстро найти в ней конкретный ответ на свой вопрос. Иногда это так же сложно, как отыскать иголку в стоге сена.

Второе важное изменение связано с механизмами поиска. Когда-то поиск в библиотеках осуществлялся по названиям источников, он не был полнотекстовым и мало отличался от поиска по каталогу. Дальше, с увеличением доступных вычислительных мощностей и систем хранения данных, поиск стал семантическим полнотекстовым с дополнительными алгоритмами, повышающими релевантность выдачи. По такому же принципу сейчас работает поисковое окно в ЭБС Лань, и очевидно, что пришло время двигаться дальше, к следующему поколению поиска.

Поисковая система может быть самостоятельным сайтом, как, например, поисковик Google или Яндекса, а может быть частью какого-либо ресурса (поисковая строка на любом сайте или в приложении). Мы говорим о поисковике конкретно в электронно-библиотечных системах, ЭБС. Каким Вы видите будущий поиск в электронных библиотеках?

С. Т.

Технология искусственного интеллекта позволяет по-другому классифицировать информацию. Раньше поиск и выдача его результатов осуществлялись при помощи семантики, то есть по ключевым словам. У поискового механизма нового поколения задача не найти источники с нужными словами в содержании, а понять смысл запроса и выделить его контекст. Для этого текст нужно найти в базе данных и сравнить — соответствует ли он по смыслу запросу пользователя.

Такой поиск уже не будет выдавать многостраничный список со ссылками на источники по теме вашего запроса, даже с учетом всех плюсов релевантности сортировки, фильтрации и других подобных опций. Результатом поиска будет один или несколько вариантов готового сгенерированного ответа на ваш запрос.

Новый способ поиска информации позволит воспринимать весь этот процесс на принципиально другом уровне — не как работу алгоритма, а как общение с чем-то, наделенным интеллектом, то есть способностью распознавать в запросе пользователя намного больше смыслов и потребностей. Иначе говоря, общение человека с поисковиком нового поколения будет на обычном человеческом языке.

(Подробнее о развитии ИИ и сервисов поиска можно узнать в интервью бывшего главного исполнительного директора Google Эрика Шмидта — Прим. ред.)

Вы описываете технологию ChatGPT. Это и есть будущее поиска?

С. Т.

Я в этом убежден. Следующее поколение поиска — это GPT-технологии.

Это означает, что всем пользователям, привыкшим к сценарию семантического поиска, предстоит переучиваться общаться с поиском как с чат-ботом с генеративным искусственным интеллектом?

С. Т.

Думаю, это будет довольно просто, потому как психологический рубеж принятия того, что мы, люди, можем взаимодействовать с искусственным интеллектом, с роботами, в значительной степени уже преодолен. Окончательно он будет пройден, когда мы перестанем воспринимать машину как машину и, соответственно, задавая ей вопрос, будем ожидать от нее такого же разумного ответа, как при общении с человеком. Когда привычным станет задавать поиску уточняющие вопросы или контекст по нужной вам тематике.

Вы говорите о результате нового поиска как о готовом сгенерированном ответе, информационном концентрате, который соответствует запросу пользователя. И совсем не упоминаете книгу как единицу поисковой выдачи. Почему?

С. Т.

Потому что, на мой взгляд, в скором времени электронная библиотека вообще перестанет выдавать в качестве источника информации всю книгу целиком. В ситуации, когда ChatGPT генерирует сразу из разных источников наиболее релевантный вашему запросу ответ в сборном виде, — все еще мыслить категорией «книга»?.. По-моему, в контексте информационного поиска об этом понятии пора забыть.

В. Н.

При этом мы как электронная библиотека учебной литературы сохраняем позицию, что работа с первоисточниками крайне важна в образовательном процессе, вне зависимости от того, какой вид поисковика используется на ресурсе. Что это будет за источник — книга или какой-то другой формат — время покажет, но он должен сохранить свое ключевое свойство — содержать верифицированную информацию. Отступать от этого принципа исключительно в сторону сгенерированных искусственным интеллектом ответов мы не можем, потому что за первоисточником всегда стоит автор, исследователь, эксперт, а за ним — наука, методологии.

Пользователи приходят в ЭБС с разными целями, и каждый из них использует поиск для решения своей задачи. Одним нужен готовый краткий ответ, и в этом им поможет GPT-технология, другие ищут источники, с которыми можно поработать самостоятельно, поизучать, проанализировать, поискать в них информацию, чтобы разобраться в какой-либо теме, третьи ищут не что-то конкретное, а в целом литературу по интересующему их вопросу. Умный поиск потому так и называется, что должен выдавать результат на любой из этих пользовательских запросов.

То есть GPT-технологии — это лишь инструмент, который дополнит возможности поиска, но это не значит, что весь он превратится в чат-бот. По аналогии с телефонией: когда у нас появилась возможность общаться по видеосвязи со своего смартфона, мы не перестали друг другу звонить по мобильной связи или отправлять сообщения. Мы получили еще один способ коммуникации, сохранив все прежние.

В. Н.

Вероятно, под влиянием технологий пользовательский опыт со временем будет меняться, и баланс между новым и нынешним видом поиска в будущем сместится в сторону большего взаимодействия человека с искусственным интеллектом. Но это не исключает, что поиск как сохранит традиционный формат выдачи результатов запроса, так и предложит пользователям дополнительные возможности получения ответов.

Даже мировые технологические гиганты, вроде Google, по прогнозам, не откажутся от классической версии своего поисковика. Цитату одного из экспертов на эту тему приводит издание «Ведомости», отмечая, что «у компании [Google] есть планы не только по обновлению своей поисковой системы, но и по созданию совершенно новой <…> “Скорее всего, основной поисковик останется таким же, как и сейчас, а вот новый уже будет в формате чата, чтобы не потерять пользователей, которые привыкли к текущей версии и не готовы сразу перестраиваться”» (источник цитаты: Google внедрит искусственный интеллект в свой поиск, Ведомости).

Поиск кажется привычным механизмом, и изменения, которые с ним происходят, могут быть незаметны, но на самом деле он постоянно развивается, совершенствуется, чтобы все больше соответствовать потребностям пользователей.

А что Вы думаете по поводу рисков при получении сгенерированных нейросетью ответов? В издании TechInsider по этому поводу есть интересное замечание, что в этом случае «… пользователь видит уже финальный ответ, не утруждая себя чтением информации по разным ссылкам, следовательно, это резко снижает возможность пользователя “столкнуться” с альтернативной точкой зрения» (источник цитаты: Что умеет ИИ-поиск: возможности и риски следующего поколения поисковых систем, TechInsider).

В. Н.

Риски появления в сгенерированных ответах неверифицированной информации уже выявлены в практике университетов, и здесь мы снова возвращаемся к тому, насколько это важный вопрос для высшей школы: обеспечить своим студентам доступ к проверенным первоисточникам. Образование, а тем более наука не терпят неточностей. Это значит, что с развитием технологий еще большую значимость будет иметь пользовательский навык критично анализировать полученный в ходе поиска ответ и проверять, соответствует ли он действительности. Это глобальный вызов в целом для поисковых систем и для ниши образовательных ресурсов в частности, но это и новые возможности для роста и развития.

Каким будет поиск нового поколения, в целом ясно. А на каком этапе развития он находится сейчас в электронных библиотеках, если сравнить его эволюцию, например, с уровнями изучения иностранного языка?

С. Т.

По аналогии с изучением иностранного языка, мы сейчас на базовом элементарном уровне, который позволяет объясниться в заграничной поездке в отеле или аэропорту. Более продвинутые уровни владения — это когда мы начинаем понимать специфику культуры, тонкости юмора, особенности произношения, сленг. В этом смысле мы пока делаем первые шаги в сторону того «умного» поиска, о котором говорим.

В чем состоят эти первые шаги? И почему именно сейчас пришло время их сделать?

С. Т.

За последние 5–7 лет изменились штатные механизмы поиска. Если говорить совсем упрощенно, появилась база данных, которая позволила сделать определенный шаг от семантического поиска к векторному.

Семантический поиск выполняется непосредственно по тексту. Если в нем нет нужного или синонимичного термина из запроса, источник этого текста не окажется в топе выдачи.

Структура семантики состоит из метаданных: названий источников, года издания, авторов, уровней образования, для которого предназначено издание. Все это в базу данных заносит человек, а значит, имеет место быть человеческий фактор: невысокая, по сравнению с машиной, скорость обработки, риск ошибки и так далее. Хорошо обученный алгоритм векторного поиска проделает ту же работу быстрее, в больших объемах и без ограничений по времени. Он «видит» содержание сразу всей книги и находит в нем ответ на запрос читателя, а не выдает источник по названию, году выпуска, автору или категории каталога, к которой принадлежит книга.

Векторизация текста полностью переведет поиск в следующее поколение (в векторизованном тексте входные данные преобразованы в векторы, понятные моделям машинного обучения, то есть с таким текстом может работать искусственный интеллект — Прим. ред.).

Разница между семантическим и векторным поиском аналогична разнице между бумажным и цифровым каталогом в библиотеке. Первому типу уже некуда развиваться, он максимально доработан, у второго же возможности и перспективы гораздо обширнее.

Что о нас знают библиотека и поиск

Сможет ли поисковый механизм нового поколения в электронных библиотеках учитывать индивидуальные особенности пользователя? Библиотекарь умеет это делать: он может выяснить возраст читателя, учебный курс и направление подготовки, его уровень читательской культуры, его книжные предпочтения и ожидания, может порекомендовать дополнительную литературу. Наконец, человек умеет наладить контакт, поддержать разговор. А как с этим будет справляться поиск? Предположу, что через формирование профиля пользователя.

В. Н.

Основная цель любого поискового окна — удовлетворить поисковый запрос пользователя. Чем лучше у ресурса система предугадывания, какую информацию ищет пользователь, тем выше эффективность этого взаимодействия.

Новый поиск и новые технологии на базе нейросетей в электронной библиотеке все равно будут зависеть от запросов читателя и на их основе совершенствоваться, чтобы предоставлять ему более персонализированный результат и предвосхищать его потребности.

С. Т.

Я добавлю, что мы все как пользователи, с точки зрения IT, представляем собой профили — для любой информационной системы мы не люди, а набор данных о людях. Если вы заходите в интернет, о вас уже многое становится известно: вы же там что-то ищите, читаете, покупаете.

Наши профили содержат собранную по нам информацию, которая используется в том числе для того, чтобы оптимизировать наш пользовательский опыт с учетом того, что мы ищем, что предпочитаем, чем интересуемся.

Как еще, помимо анализа истории запросов, можно собирать на пользователя его «читательское досье»? Сможет ли поиск учесть, что конкретный пользователь, допустим, плохо воспринимает сложные тексты и ему нужен ответ попроще?

С. Т.

Думаю, все будет очень по-капиталистически: крупные коммерческие базы данных будут за деньги предоставлять тем же ЭБС профиль пользователя, по которому о человеке можно составить вполне определенный портрет: его успеваемость, интересы и так далее. С учетом всех этих данных поиск в электронных библиотеках сможет представлять читателю результаты, соответствующие его ожиданиям, привычкам и другим индивидуальным особенностям.

Потребности читателей из цифрового поколения

Мы обсудили, как будет развиваться поиск в электронной библиотеке с технической стороны. Библиотека же прежде всего про читателя и для него. Предлагаем поговорить о пользовательской стороне, о том, как со всеми этими технологиями будет работать основная аудитория ЭБС — студенты.

У многих студентов, особенно на первом курсе, работа с научным поиском в электронных образовательных ресурсах вызывает затруднения. Навык пользования поисковыми системами им помогают развивать библиотекари и преподаватели. Получается, в контексте того, о чем мы сегодня говорим, в будущем такой проблемы не будет?

С. Т.

В текущей версии поиска необходимо уметь корректно формулировать запрос. Если вы сами не знаете, что ищете, поиск вам не поможет.

В следующей итерации, когда мы пройдем этап векторизации и начнем применять GPT-технологии, запрос будет принципиально другой, о чем мы уже говорили. Необходимость уточнений будет возникать значительно реже, но не исчезнет совсем. Даже в поиске нового поколения, если вы без контекста зададите запрос с недостаточным количеством слов, векторы могут не совпасть, и запрос придется уточнять.

Можно ли будет как-то оценить удовлетворенность пользователей от полученных результатов поиска? В том же ChatGPT можно отправить реакцию, если ответ не устроил, или написать словами.

С. Т.

Да, это возможно, но для этого нужно будет анализировать информацию по пользователям, а это потребует подключения отдельных специалистов, даже не IT, а, скорее, аналитиков.

Поговорим о конкретных инструментах, связанных с поиском, и о том, как они будут развиваться. Что, например, будет с поисковыми подсказками, которые появляются при наборе запроса в поисковой строке? Они как-то усовершенствуются?

С. Т.

На мой взгляд, это уже сейчас малополезная опция. К тому же для нового поколения поиска под это нужно будет разрабатывать новый отдельный сервис, который тоже должен быть векторизованным и выводить не просто окончания к набираемым словам, а предлагать подходящие по смыслу варианты. Но опять же — если выдача будет более широкая и будет включать смежные области знаний, связанные по смыслу слова и аналогии, то отпадет и необходимость в поисковых подсказках.

Есть ли куда дальше развиваться такому инструменту, как оглавление книг?

С. Т.

В классической версии нашего поиска у оглавления сохранится высокий приоритет. При этом, если у книги оглавление не полностью отражает содержание, то ее позиция в выдаче будет низкой, даже если информация более ценная.

При переходе на GPT-технологии релевантность будет определять нейросеть на основе множества критериев, основные из которых, такие как качество обучения по тематике и используемые алгоритмы, будут находиться у нее «под капотом». С одной стороны, ее настройка станет задачей нетривиальной, с другой стороны, и качество ответа станет более точным, так как анализироваться будет прежде всего сам текст.

То, что фонд любой ЭБС постоянно пополняется новинками, как-то нагружает поиск, делает его медленнее или менее точным?

С. Т.

И да и нет. С одной стороны, чем больше данных, тем больше сырья для формирования ответа. С другой стороны, в классической версии вы получите больший перечень, соответственно, потребуется больше времени на анализ, а в GPT мы столкнемся с понятием специализации нейросети на конкретной тематике. Как у человека: мозг имеет ограниченную емкость, значит, есть специалисты, превосходно знающие все тонкости своего дела, а есть люди, знающие обо всем, но поверхностно. Но в отличие от классического поиска, с нейросетями есть решение, о котором догадаются те, кто когда-нибудь организовывал сложный мультитехнологичный проект.

Что касается скорости: обычно есть пространство для оптимизации, особенно в новых областях и продуктах, но при относительном технологическом плато, на котором мы все находимся последние годы, пока не будет совершено революционных прорывов, по большому счету производительность масштабируется экстенсивно.

Коллеги, спасибо за интересный разговор. Возможно, многое из того, о чем мы с вами говорим, кому-то из наших читателей может показаться отдаленным будущим. С другой стороны, лет через пять в вузах и колледжах будут учиться люди, для которых использование чат-ботов будет уже естественным навыком, и сама технология будет доступна в каждом смартфоне. Очевидно, что у молодежи сформируется привычка искать информацию через общение с искусственным интеллектом. А значит, заходя на любой ресурс, в том числе в электронную библиотеку, студенты будут ожидать увидеть там инструмент поиска, к которому они уже привыкли...

С. Т.

Этот переломный момент случится скоро, максимум через год. И пользователи электронных библиотек быстро на него отреагируют. Когда несколько лет назад в ЭБС Лань мы перешли на новый интерфейс, наши пользователи тут же начали ожидать от нас следующих доработок, как в поисковике Яндекса. Так и писали в техподдержку: «У Яндекса это есть, а почему у вас нет?». В то время для рынка электронных библиотек такой интерфейс был прорывом, но в понимании пользователей и этого недостаточно, нужно не отставать от технологических гигантов. Люди быстро привыкают к технологиям, которые упрощают их жизнь, и хотят пользоваться ими везде.

Когда человек привыкнет воспринимать роботов и чат-ботов как нечто, наделенное разумом, будет общаться с ними на человеческом языке, очевидно, что это повлияет и на его опыт при поиске информации, в том числе в библиотеке. Ответить на эти вызовы — одна из наших наиболее интересных задач на сегодня.

Вопросы: Александр Никифоров, Екатерина Позднякова

Текст: Екатерина Позднякова