Google применил технологии Deep Learning для борьбы с поисковым спамом

18 сентября был опубликован патент Google на классификацию поискового спама «Классификация ресурсов с использованием самообучающейся сети» (Classifying Resources Using a Deep Network ). Об этом сообщает SEO-эксперт Билл Славски (Bill Slawski). 

Запатентованная технология была изобретена разработчиками компании Цинчжоу Ван (Qingzhou Wang), Ю Лян(Yu Liang), Ке Ян (Ke Yang) и Кай Чэнь (Kai Chen).

Последние несколько лет лидер поиска был занят построением самообучающейся сети, известной как Google Brain.

Google Brain – неофициальное название исследовательского проекта Google, посвященного глубокому обучению (Deep Learning). В рамках этого проекта исследователи компании смогли создать примерную модель работы нейронов головного мозга – «нейрональную» самообучающуюся сеть, соединив 16,000 процессоров и подключив её к сети Интернет. Полученная система сумела самостоятельно обучиться распознавать образ котов.

Теперь компания использует эти технологии для идентификации поискового спама, что нашло выражение в разработке патента на его классификацию. 

Патент описывает методы, которые включают:

  • прием входящей информации, содержащей множество характеристик ресурса, в котором каждая характеристика – это значение соответствующего атрибута ресурса;
  • обработку каждой характеристики, используя соответствующую функцию вложения для генерации одного или нескольких числовых значений;
  • обработку числовых значений, используя один или несколько нейронных сетевых уровней для создания альтернативного представления о характеристиках ресурса, в котором обработка значений с эластичными параметрами включает применение к ним одного или нескольких нелинейных преобразований;
  • обработку альтернативного представления входа с использованием классификатора для генерации соответствующей оценки для каждой категории в их заранее определенном наборе, где каждая из соответствующих оценок измеряет прогнозированную вероятность, что ресурс принадлежит к соответствующей категории.

«Предопределенный набор категорий» может включать категорию спама поисковых систем. Оценка категории (category score) для ресурса измеряет предсказанную вероятность, что ресурс является поисковым спамом.

J7V7Bn.jpg

Предопределенный набор категорий может включать в себя соответствующую категорию для каждого из множества типов поискового спама.

Оценки категорий могут быть использованы для:

  • определения, следует ли добавлять эти ресурсы в индекс поисковых систем;
  • генерирования и упорядочивания результатов поиска в ответ на поисковые запросы.

Самообучающаяся сеть может быть эффективно использована для классификации ресурсов в категории. Например, ресурсы могут быть классифицированы как являющиеся или не являющиеся спамом, как являющиеся одним из нескольких видов спама или как один из двух и больше типов ресурсов.

«Использование самообучающейся сети для классификации ресурсов по категориям может привести к тому, что поисковые системы будут способны лучше удовлетворить информационные потребности пользователей путем эффективного определения поискового спама и воздержания от предоставления поисковых результатов, определяющих такие ресурсы, пользователям. Или же они смогут предоставить поисковые результаты, которые идентифицируют ресурсы, принадлежащие к категориям, лучше соответствующим информационным потребностям пользователя» — поясняют разработчики в патенте.

Согласно патенту, эта система классификации ресурсов может типизировать ресурсы как «поисковый спам или не поисковый спам». Она не определяет детали веб-спама, но говорит о том, что может выделить его типичные виды, такие как:

  • контент-спам;
  • ресурсы, содержащие ссылочный спам;
  • ресурсы, использующие клоакинг;
  • и т.д.

Ресурсы на страницах сайта могут включать слова из контента сайта в символьной форме; URL-ы сайта; его тайтл; имя домена; категории или типы объектов, относящиеся к сайту; его возраст. Каждая из этих характеристик может быть использована для расчета вероятности того, что сайт является спам-ресурсом, и определения, индексировать его или понижать в выдаче.

Патент не предоставляет деталей относительно обучения и классификации характеристик в рамках модели машинного обучения, но ссылается на документ, который дает эту информацию: Large Scale Distributed Deep Networks.

 

1 star2 star3 star4 star5 star (ОЦЕНИТЬ!)
Загрузка...
Прочее
Комментировать!

Вам понравится

Как эффективно показать себя на рынке с помощью интернета... Реклама считается действенным способом продвижения продукции на рынке. Мест для ее распространения достаточно. Например: телевидение, билборды, общественный транспорт и многие ...
В CS: Global Offensive — кейсы В CS: Global Offensive есть кейсы - особый предмет инвентаря, открывая который пользователь получает один случайный скин. К каждому кейсу привязывается определенный набор скинов, с...
Обзор сайта LocalBitcoins.NET Читателю предлагается окунуться в мир локальной торговли биткойном. Хотите торговать на Локале, но боитесь? Не стоит впадать в депрессию. В этом нет ничего страшного и это абсолютн...
Как оплатить штрафы ГИБДД онлайн за считанные секунды... Первое, действительно работающее приложение для оплаты штрафовНе так давно одними разработчиками было создано приложение, которое позволяет просмотреть и произвести оплату за ш...
Преимущества ИТ-аутсорсинга от компании ZEL-услуги... Современные технологии активно внедряются в бизнес, что приводит к необходимости создания ИТ-отделов в компаниях с развитой компьютерной инфраструктурой. Создание IT-отделов ст...
Установка электронных замков в гостиницах Электронные замки для гостиничных номеров практически ничем не отличаются от своих механических аналогов. Здесь также есть посадочный механизм врезного типа с фалевой защелкой и ри...