Механизм цензуры в Интернете - как это делает Яндекс

10.05.2011 8:34 23

После серии статей про бан моего сайта Яндексом и особенно после мрачного прогноза о негативных последствиях цензуры в Интернете, мнения людей разделились. Одни хватались за голову и говорили речи типа «ноги моей больше в Яндексе не будет», другие возражали что, мол, «не ты один тут пострадавший и не все так страшно». Но все комментаторы сошлись в одном вопросе: хорошо, а как конкретно Яндекс осуществляет цензуру? Неужели за поисковым компьютером сидит некий злой гоблин, который всем управляет?

Нет, конечно! Кроме того, кто там конкретно сидит возле поисковика – гоблин, орк или ситх – понятия не имею. Но скрывать от общественности сам механизм цензуры считаю не вправе. Поэтому запаситесь некоторым терпением – представляю механизм цензуры в Интернете, который применяет российская поисковая система Яндекс.

Все началось осенью 2009 года – полтора года тому назад. Именно тогда Яндекс достиг пика своей популярности. Именно тогда владельцы сайтов почувствовали на собственной шкуре нововведение Яндекса: фильтр АГС. Точное время внедрения этой разработки никому доподлинно неизвестно, но то, что в полную силу фильтр АГС заработал в сентябре 2009 года – сие свидетельствую.

В отношении расшифровки аббревиатуры АГС нет единого мнения. Кто-то на вопрос «что такое фильтр АГС» отвечает: «Анти Говно Сайт». Другие на вопрос «что такое АГС» дают несколько иной ответ: «Анти Генерированные Страницы». Но суть одна: данный инструмент призван исключать из поиска страницы сайтов и именно этот механизм управляет результатами поисковой выдачи.

Многие специалисты (назовем их романтиками) в качестве причины появления фильтра АГС на свет указывают излишнюю засоренность Рунета сайтами-сателлитами, автоматически сгенерированными бессмысленными страницами – короче говоря, мусором. Поэтому сторонники такой теории объясняют появление на свет фильтра АГС необходимостью очистки Рунета от разной дряни и улучшения результатов поисковой выдачи.

Другие же (позволю себе назвать их технарями) в качестве главной причины называют то, что к тому моменту вычислительные ресурсы Яндекса были практически исчерпаны и поисковая машина уже не справлялась с нагрузкой – а потому возникла острая потребность не мытьем, так катаньем разгрузить поискового робота.

Что на самом деле было в головах у создателей фильтра АГС – не знаю. Скорее всего, и романтики, и технари по-своему правы. Но лично я всегда помню фразу Отто фон Бисмарка:

«Революцию задумывают романтики, совершают фанатики, а плоды пожинают подлецы»

А поэтому отношу себя к сторонникам третьей, циничной точки зрения: создавая фильтр АГС, романтики задумали благое дело. Однако, как любил говаривать незабвенный В.С. Черномырдин, «хотели, как лучше, а получилось – как всегда»: фанатикам-разработчикам не удалось создать нормально работающий фильтр АГС: глюков и недоработок в нем было немеряно. Однако плодами смогли прекрасно воспользоваться люди из ФСБ.

Но – обо всем по порядку.

К концу «нулевых» годов Яндекс бесспорно занял лидирующую роль в Рунете и доходы его измерялись суммами с достаточно большим количеством нулей. В том числе серьезные доходы приносила так называемая РСЯ (партнерская программа Рекламная Сеть Яндекса). Но в то же самое время выяснилось и другое: многочисленная армия оптимизаторов и SEO-специалистов весьма успешно выдвигали на топовые позиции в результатах поисковой выдачи сайты, используя методологию купли-продажи гиперссылок. В этой связи стали появляться специальные сервисы (Блогун, Сапа и др.), которые не просто существенно облегчили данный процесс, но и расширили этот рынок. Таким образом, рынок купли-продажи ссылок к тому времени набрал столь серьезные обороты, что стал серьезным конкурентом РСЯ

Это побуждало Яндекс как-то ограничить размещение сайтами ссылок на своих страницах. Первым звонком стал Мадридский доклад Яндекса, в котором впервые был озвучен алгоритм выявления так называемых «продажных» ссылок (то есть ссылок, установленных не естественным путем, а за деньги).

Однако моментально выяснились дыры в этом алгоритме (при внимательном чтении доклада – см ссылку) можно легко увидеть, что большинство естественных ссылок могут быть отнесены к продажны и наоборот: этот алгоритм легко «обмануть» и замаскировать продажную ссылку под естественную). С другой стороны, тот же Гугл также дифференцирует продажные и естественные ссылки, но далеко идущих выводов из этого не делает и санкции на торговцев ссылками не накладывает.

Но, как говорится, в России всегда свой путь – Яндекс, видимо, решил на корню уничтожить этот рынок и все доходы оптимизаторов забрать себе. Поэтому пошли по пути создания фильтров (на языке оптимизаторов это называется «бан»).

Первый фильтр АГС был назван АГС-17, который предполагал без участия человека автоматически вычислять более сотни параметров сайта, начислять ему «баллы» - и на основании полученных данных определять: полезен данный сайт (или конкретная страница) для пользователей или бесполезна.

Повторяю, всего параметров в фильтре АГС больше сотни, но основные из них следующие:

  • Проверка контента сайта на уникальность (то есть уникальный ли материал на сайте или его откуда-то «скоммуниздили»);
  • Проверка контента сайта на дублированность (то есть много ли на сайте материалов, которые автор «скоммуниздил» сам у себя в рамках одного и того же сайта;
  • Проверка страниц сайта на количество ссылок с одной страницы (то есть много ли на сайте страниц, которые состоят целиком из ссылок);
  • Поиск на сайте контент, не имеющего смысловой нагрузки (иными словами – автоматически сгенерированного контента);
  • Поиск на сайте страниц, в которых количество знаков меньше 1500.

За все время существования фильтра АГС оптимизаторы выяснили некоторые формальные признаки его работы. Сайт попадает в фильтр АГС, если:

  • Количество неуникального или дублированного контента на страницах сайта  более 40 %;
  • Общее количество исходящих ссылок со страниц сайта на 20 % больше количества страниц, участвующих в поиске;
  • Нетематическими признано более 30 % исходящих ссылок (т.е. ссылки, ведущие на сайты, тематика которых отличается от тематики сайта-донора);
  • Объем текста на странице меньше, чем объем навигации на сайте;
  • Робот не выделил четкой тематической направленности сайта.

Вы этот перечень внимательно прочитали, да? Тогда зайдите на любой уважаемый новостной сайт (например, один из ведущих новостных ресурсов Рунета Newsru.Com) – и попробуйте вручную проанализировать 5-10 страниц. Гарантирую: любой из этих сайтов на 100% подойдет для того, чтобы отправиться в фильтр АГС, как говорится, «без суда и следствия».

Вот почему, когда фильтр АГС-17 заработал, буквально в течение нескольких дней из поиска вылетело несколько миллионов страниц - причем тут же выяснилось, что наряду с откровенными «говносайтами» в фильтр АГС отправились и вполне благопристойные сайты!

Все это побудило разработчиков срочно искать решение. Спустя примерно полгода появился другой фильтр: АГС-30 – якобы улучшенный. Но и это не дало никаких сколь-нибудь значимых эффектов.

Тогда в середине прошлого года специалисты Яндекса нашли, как им показалось, неплохой прием: отныне фильтр АГС перестал работать в постоянном режиме, а запускался по определенному графику. Но давайте подумаем просто по-житейски: какая на хрен разница – по какому графику запускается программа, если она работает неправильно?!

Выходит, провал? Отнюдь нет!

И вот тут было действительно найдено поистине дьявольски иезуитское решение: вообще не запускать данный фильтр! Но в Пользовательском Соглашении Яндекса эта информация осталась!

Улавливаете мысль? Теперь получается, что сам механизм не работает, но поскольку практически любой – даже самый благопристойный сайт! – можно запросто отправить «куда Макар телят не гонял» (читай: в фильтр АГС, где его никто не увидит), это дало возможность беспрепятственно подвергать цензуре любые сайты!

Чем не преминуло воспользоваться ФСБ!

Так что, сограждане, делайте выводы…

Лента новостей
Межбанк
USD EUR RUR
Покупка (грн.)
23.35 25.0960 0.3130
Продажа (грн.)
23.40 25.1430 0.3140
Общество и политика
Криминал и безопасность
В мире и обо всем
Интернет, наука, техника
Бизнес и религия
Новости