Механизм цензуры в Интернете - как это делает Яндекс

10.05.2011 8:34 23

После серии статей про бан моего сайта Яндексом и особенно после мрачного прогноза о негативных последствиях цензуры в Интернете, мнения людей разделились. Одни хватались за голову и говорили речи типа «ноги моей больше в Яндексе не будет», другие возражали что, мол, «не ты один тут пострадавший и не все так страшно». Но все комментаторы сошлись в одном вопросе: хорошо, а как конкретно Яндекс осуществляет цензуру? Неужели за поисковым компьютером сидит некий злой гоблин, который всем управляет?

Нет, конечно! Кроме того, кто там конкретно сидит возле поисковика – гоблин, орк или ситх – понятия не имею. Но скрывать от общественности сам механизм цензуры считаю не вправе. Поэтому запаситесь некоторым терпением – представляю механизм цензуры в Интернете, который применяет российская поисковая система Яндекс.

Все началось осенью 2009 года – полтора года тому назад. Именно тогда Яндекс достиг пика своей популярности. Именно тогда владельцы сайтов почувствовали на собственной шкуре нововведение Яндекса: фильтр АГС. Точное время внедрения этой разработки никому доподлинно неизвестно, но то, что в полную силу фильтр АГС заработал в сентябре 2009 года – сие свидетельствую.

В отношении расшифровки аббревиатуры АГС нет единого мнения. Кто-то на вопрос «что такое фильтр АГС» отвечает: «Анти Говно Сайт». Другие на вопрос «что такое АГС» дают несколько иной ответ: «Анти Генерированные Страницы». Но суть одна: данный инструмент призван исключать из поиска страницы сайтов и именно этот механизм управляет результатами поисковой выдачи.

Многие специалисты (назовем их романтиками) в качестве причины появления фильтра АГС на свет указывают излишнюю засоренность Рунета сайтами-сателлитами, автоматически сгенерированными бессмысленными страницами – короче говоря, мусором. Поэтому сторонники такой теории объясняют появление на свет фильтра АГС необходимостью очистки Рунета от разной дряни и улучшения результатов поисковой выдачи.

Другие же (позволю себе назвать их технарями) в качестве главной причины называют то, что к тому моменту вычислительные ресурсы Яндекса были практически исчерпаны и поисковая машина уже не справлялась с нагрузкой – а потому возникла острая потребность не мытьем, так катаньем разгрузить поискового робота.

Что на самом деле было в головах у создателей фильтра АГС – не знаю. Скорее всего, и романтики, и технари по-своему правы. Но лично я всегда помню фразу Отто фон Бисмарка:

«Революцию задумывают романтики, совершают фанатики, а плоды пожинают подлецы»

А поэтому отношу себя к сторонникам третьей, циничной точки зрения: создавая фильтр АГС, романтики задумали благое дело. Однако, как любил говаривать незабвенный В.С. Черномырдин, «хотели, как лучше, а получилось – как всегда»: фанатикам-разработчикам не удалось создать нормально работающий фильтр АГС: глюков и недоработок в нем было немеряно. Однако плодами смогли прекрасно воспользоваться люди из ФСБ.

Но – обо всем по порядку.

К концу «нулевых» годов Яндекс бесспорно занял лидирующую роль в Рунете и доходы его измерялись суммами с достаточно большим количеством нулей. В том числе серьезные доходы приносила так называемая РСЯ (партнерская программа Рекламная Сеть Яндекса). Но в то же самое время выяснилось и другое: многочисленная армия оптимизаторов и SEO-специалистов весьма успешно выдвигали на топовые позиции в результатах поисковой выдачи сайты, используя методологию купли-продажи гиперссылок. В этой связи стали появляться специальные сервисы (Блогун, Сапа и др.), которые не просто существенно облегчили данный процесс, но и расширили этот рынок. Таким образом, рынок купли-продажи ссылок к тому времени набрал столь серьезные обороты, что стал серьезным конкурентом РСЯ

Это побуждало Яндекс как-то ограничить размещение сайтами ссылок на своих страницах. Первым звонком стал Мадридский доклад Яндекса, в котором впервые был озвучен алгоритм выявления так называемых «продажных» ссылок (то есть ссылок, установленных не естественным путем, а за деньги).

Однако моментально выяснились дыры в этом алгоритме (при внимательном чтении доклада – см ссылку) можно легко увидеть, что большинство естественных ссылок могут быть отнесены к продажны и наоборот: этот алгоритм легко «обмануть» и замаскировать продажную ссылку под естественную). С другой стороны, тот же Гугл также дифференцирует продажные и естественные ссылки, но далеко идущих выводов из этого не делает и санкции на торговцев ссылками не накладывает.

Но, как говорится, в России всегда свой путь – Яндекс, видимо, решил на корню уничтожить этот рынок и все доходы оптимизаторов забрать себе. Поэтому пошли по пути создания фильтров (на языке оптимизаторов это называется «бан»).

Первый фильтр АГС был назван АГС-17, который предполагал без участия человека автоматически вычислять более сотни параметров сайта, начислять ему «баллы» - и на основании полученных данных определять: полезен данный сайт (или конкретная страница) для пользователей или бесполезна.

Повторяю, всего параметров в фильтре АГС больше сотни, но основные из них следующие:

  • Проверка контента сайта на уникальность (то есть уникальный ли материал на сайте или его откуда-то «скоммуниздили»);
  • Проверка контента сайта на дублированность (то есть много ли на сайте материалов, которые автор «скоммуниздил» сам у себя в рамках одного и того же сайта;
  • Проверка страниц сайта на количество ссылок с одной страницы (то есть много ли на сайте страниц, которые состоят целиком из ссылок);
  • Поиск на сайте контент, не имеющего смысловой нагрузки (иными словами – автоматически сгенерированного контента);
  • Поиск на сайте страниц, в которых количество знаков меньше 1500.

За все время существования фильтра АГС оптимизаторы выяснили некоторые формальные признаки его работы. Сайт попадает в фильтр АГС, если:

  • Количество неуникального или дублированного контента на страницах сайта  более 40 %;
  • Общее количество исходящих ссылок со страниц сайта на 20 % больше количества страниц, участвующих в поиске;
  • Нетематическими признано более 30 % исходящих ссылок (т.е. ссылки, ведущие на сайты, тематика которых отличается от тематики сайта-донора);
  • Объем текста на странице меньше, чем объем навигации на сайте;
  • Робот не выделил четкой тематической направленности сайта.

Вы этот перечень внимательно прочитали, да? Тогда зайдите на любой уважаемый новостной сайт (например, один из ведущих новостных ресурсов Рунета Newsru.Com) – и попробуйте вручную проанализировать 5-10 страниц. Гарантирую: любой из этих сайтов на 100% подойдет для того, чтобы отправиться в фильтр АГС, как говорится, «без суда и следствия».

Вот почему, когда фильтр АГС-17 заработал, буквально в течение нескольких дней из поиска вылетело несколько миллионов страниц - причем тут же выяснилось, что наряду с откровенными «говносайтами» в фильтр АГС отправились и вполне благопристойные сайты!

Все это побудило разработчиков срочно искать решение. Спустя примерно полгода появился другой фильтр: АГС-30 – якобы улучшенный. Но и это не дало никаких сколь-нибудь значимых эффектов.

Тогда в середине прошлого года специалисты Яндекса нашли, как им показалось, неплохой прием: отныне фильтр АГС перестал работать в постоянном режиме, а запускался по определенному графику. Но давайте подумаем просто по-житейски: какая на хрен разница – по какому графику запускается программа, если она работает неправильно?!

Выходит, провал? Отнюдь нет!

И вот тут было действительно найдено поистине дьявольски иезуитское решение: вообще не запускать данный фильтр! Но в Пользовательском Соглашении Яндекса эта информация осталась!

Улавливаете мысль? Теперь получается, что сам механизм не работает, но поскольку практически любой – даже самый благопристойный сайт! – можно запросто отправить «куда Макар телят не гонял» (читай: в фильтр АГС, где его никто не увидит), это дало возможность беспрепятственно подвергать цензуре любые сайты!

Чем не преминуло воспользоваться ФСБ!

Так что, сограждане, делайте выводы…

Лента новостей
Общество и политика
Криминал и безопасность
В мире и обо всем
Интернет, наука, техника
Бизнес и религия
Новости