Google применил технологии Deep Learning для борьбы с поисковым спамом

18 сентября был опубликован патент Google на классификацию поискового спама «Классификация ресурсов с использованием самообучающейся сети» (Classifying Resources Using a Deep Network ). Об этом сообщает SEO-эксперт Билл Славски (Bill Slawski). 

Запатентованная технология была изобретена разработчиками компании Цинчжоу Ван (Qingzhou Wang), Ю Лян(Yu Liang), Ке Ян (Ke Yang) и Кай Чэнь (Kai Chen).

Последние несколько лет лидер поиска был занят построением самообучающейся сети, известной как Google Brain.

Google Brain – неофициальное название исследовательского проекта Google, посвященного глубокому обучению (Deep Learning). В рамках этого проекта исследователи компании смогли создать примерную модель работы нейронов головного мозга – «нейрональную» самообучающуюся сеть, соединив 16,000 процессоров и подключив её к сети Интернет. Полученная система сумела самостоятельно обучиться распознавать образ котов.

Теперь компания использует эти технологии для идентификации поискового спама, что нашло выражение в разработке патента на его классификацию. 

Патент описывает методы, которые включают:

  • прием входящей информации, содержащей множество характеристик ресурса, в котором каждая характеристика – это значение соответствующего атрибута ресурса;
  • обработку каждой характеристики, используя соответствующую функцию вложения для генерации одного или нескольких числовых значений;
  • обработку числовых значений, используя один или несколько нейронных сетевых уровней для создания альтернативного представления о характеристиках ресурса, в котором обработка значений с эластичными параметрами включает применение к ним одного или нескольких нелинейных преобразований;
  • обработку альтернативного представления входа с использованием классификатора для генерации соответствующей оценки для каждой категории в их заранее определенном наборе, где каждая из соответствующих оценок измеряет прогнозированную вероятность, что ресурс принадлежит к соответствующей категории.

«Предопределенный набор категорий» может включать категорию спама поисковых систем. Оценка категории (category score) для ресурса измеряет предсказанную вероятность, что ресурс является поисковым спамом.

J7V7Bn.jpg

Предопределенный набор категорий может включать в себя соответствующую категорию для каждого из множества типов поискового спама.

Оценки категорий могут быть использованы для:

  • определения, следует ли добавлять эти ресурсы в индекс поисковых систем;
  • генерирования и упорядочивания результатов поиска в ответ на поисковые запросы.

Самообучающаяся сеть может быть эффективно использована для классификации ресурсов в категории. Например, ресурсы могут быть классифицированы как являющиеся или не являющиеся спамом, как являющиеся одним из нескольких видов спама или как один из двух и больше типов ресурсов.

«Использование самообучающейся сети для классификации ресурсов по категориям может привести к тому, что поисковые системы будут способны лучше удовлетворить информационные потребности пользователей путем эффективного определения поискового спама и воздержания от предоставления поисковых результатов, определяющих такие ресурсы, пользователям. Или же они смогут предоставить поисковые результаты, которые идентифицируют ресурсы, принадлежащие к категориям, лучше соответствующим информационным потребностям пользователя» — поясняют разработчики в патенте.

Согласно патенту, эта система классификации ресурсов может типизировать ресурсы как «поисковый спам или не поисковый спам». Она не определяет детали веб-спама, но говорит о том, что может выделить его типичные виды, такие как:

  • контент-спам;
  • ресурсы, содержащие ссылочный спам;
  • ресурсы, использующие клоакинг;
  • и т.д.

Ресурсы на страницах сайта могут включать слова из контента сайта в символьной форме; URL-ы сайта; его тайтл; имя домена; категории или типы объектов, относящиеся к сайту; его возраст. Каждая из этих характеристик может быть использована для расчета вероятности того, что сайт является спам-ресурсом, и определения, индексировать его или понижать в выдаче.

Патент не предоставляет деталей относительно обучения и классификации характеристик в рамках модели машинного обучения, но ссылается на документ, который дает эту информацию: Large Scale Distributed Deep Networks.

 

1 star2 star3 star4 star5 star (ОЦЕНИТЬ!)
Загрузка...
Прочее

 

Комментировать!

Вам понравится

Куплю витую пару: рассматриваем возможности категории 8... Как известно, кабель витая пара представляет собой связку проводников, попарно скрученных между собой. Провода помещаются в общую изоляционную оболочку. Существуют так называемые к...
Рейтинг бюджетных безрамочных смартфонов Безрамочные смартфоны в последние пару лет стали невероятно популярны среди пользователей, и практически каждая крупная компания уже выпустила как минимум несколько представителей ...
Мобильные приложения с сервисами геолокации... Информационные технологии используются повсеместно: образование, туризм, ресторанный бизнес и сфера услуг. Именно современные технологии позволяют решать проблемы, помогают компани...
Почему современному салону красоты нужно приложение... По данным систем аналитики, 70% пользователей посещают сайты из мобильных устройств. Это информация, которую нельзя изменить, ее можно только учесть, но мы можем и должны использов...
Краткие сведения о сенсорных мониторах и особенностях их использования... Сенсорным монитором принято называть комбинированное устройство для ввода/отображения информации, имеющее в своём составе экран и сенсорную панель поверх него, реагирующую на касан...
Как сэкономить на бензине? Цены на бензин – «больная» тема каждого водителя. Независимо от достатка и особенностей двигателя на топливо человек тратит значительную часть своего бюджета. Порой кажется, что лу...