Блог CACTUS media

Что такое BERT? Как работает алгоритм и как связан с ИИ и Google?

Как и обещала в прошлой статье о SEO-трендах в 2020 году, рассказываю об алгоритме BERT. Без затянутых вступлений, сразу к делу, так как инфы достаточно😉.

Итак, 25 октября 2019 года в Twitter Google SearchLiaison появилось сообщение вида:

Дословно: Встречайте BERT, новый способ понимания языка в поисковой системе Гугл для улучшения результатов поиска. В настоящее время используется в США с английским языком, помогая в каждом 10 поиске. В будущем будут задействованы еще больше стран и языков.

На самом деле, само понятие появилось еще в 2018 году, когда компания Google анонсировала BERT как нейронную сеть - один из способов реализации искусственного интеллекта (далее - ИИ).

BERT - Bidirectional Encoder Representations from Transformers - рус. двунаправленная нейронная сеть кодировщик.

Конечно, сложно уложить в голове, как так машина, в виде компьютера, научилась понимать обычный текст и его интент. Если постараться объяснить проще, а сложнее я и сама не смогу, то есть такое направление математической лингвистики и ИИ - Natural Language Processing (NLP) - обработка естественного языка.

ИИ призван с помощью NLP понимать язык и уметь генерировать естественный и грамотный текст. А сам NLP базируется на применении алгоритмов машинного обучения для текста и речи.

Во многих встроенных программах смартфона или компьютера используется NLP, самые простые примеры из обычной жизни: Siri для ОС от Apple и Gmail, как и другие почтовые сервисы, которые используют NLP для определения спама.

Стало страшно, что компьютеры, с их ИИ, скоро станут совсем умными и поработят человечество? Постараюсь немного успокоить.

Дело в том, что по факту это симуляция понимания, что и было целью NLP. Сейчас все станет понятнее.

Есть отличный мысленный эксперимент, который был опубликован еще в 1980 году Джоном Сёрлом - “Китайская комната”.

Суть эксперимента (я напомню, что он мысленный!):

В изолированной комнате сидит человек, который совсем не знает китайский язык, вообще ничего о нем. Но в комнате много книг с правилами, не самого языка, а инструкции как принимать в комнату вопросы, написанные китайскими символами, и как выдавать ответы на китайском. Например: “возьмите такой-то китайский иероглиф и положить его рядом с таким-то иероглифом”, но там совсем нет информации о том, что эти иероглифы означают.

Другой человек передает в комнату вопросы, написанные на китайском (китайскими иероглифами), а на выходе должен получить логичный ответ на свой вопрос и получает. Человек в комнате просто обращается к алгоритму в инструкциях и составляет грамотный ответ, но не понимает при этом, что все это значит. Он по-прежнему не понимает вопроса и не понимает ответ, который дает.

Не буду грузить еще терминами и сложносочиненными предложениями, а просто скажу, что многие годы исследователи NLP пытались научить нейросети предсказывать слова в предложении. Т.е. если дать входную информацию “Столица Германии это..”, то нейросеть должна была продолжить предложение вида “Берлин”.

И появился BERT в 2018 году, который работал с нейросетью с такой тонкой подстройкой, что ИИ прекрасно справлялся с задачами по обработке текста. И уже в 2019 Google добавил BERT в качестве ядра алгоритмов своей поисковой системы.

На данный момент не доказано, что алгоритм, сам по себе, может влиять на ранжирование органической выдачи, хотя такие мнения есть. Но он точно призван лучше понимать интент запросов пользователей.

Повторюсь текстом из своей прошлой статьи:

Больше не будет проблем с предлогами в запросах, раньше Google мог путаться, поисковый запрос: «2019 нужна ли виза бразильцу для путешествия в США». Из-за предлога «в» («to») поисковик не верно понимал интент. До применения алгоритма BERT в выдаче была информация о поездке граждан США в Бразилию, а с алгоритмом BERT – все наоборот.

BERT уже работает с русским языком, но будем честными, на момент написания статьи (июль 2020 года), у BERT все еще большие проблемы с распознаванием контекста предложения на русском. Я лишь хотела узнать, как посадить самолет на радиоуправлении, а вместо этого Google предлагает мне посадить самолет на рассаду помидоров, ну или петуний, выбор тут большой😄

Конечно, улавливается огромная связь BERT с:

голосовым поиском, ведь в нем есть все, что нужно для поиска наиболее релевантного ответа на запросы с длинными “хвостами” и все еще впереди;
низкочастотными длинными запросами, которых в большей степени и коснулся алгоритм;
разделом быстрых ответов Google, ведь алгоритм теперь подбирает более релевантные результаты;
предлогами, есть такая вероятность, ведь ранее они не играли особой роли при сборе семантического ядра.

Но алгоритм еще допиливать и допиливать под русский сегмент, так что это будет видно позже. Пока все предположения основаны лишь на опыте наших западных коллег.

Нужно ли оптимизировать сайт под BERT?

Этот алгоритм не наказывает сайты, а лишь призван упростить жизнь маркетологам и владельцам бизнеса, т.к. исключает нерелевантный трафик с сайтов. Не буду прямо отвечать на этот вопрос и брать на себя ответственность, пока в Google я не работаю😉, а лишь скажу, что единственная неугасаемая рекомендация: пишите естественно и для людей, и будет Вам счастье.

На этом у меня все, ставьте лайки, подписывайтесь на наш Инстаграм - без шуток🙌. Мы пишем много о нужном.

Будьте здоровы, процветайте с SEO и уважайте нейронные связи пользователей🖖

Бурло Ольга

Co-founder/ Head of SEO

seo@cactus-media.by