Слава роботам! Заменяющим человеков в интернете.

Сравнение качества аудитории сайтов.

Редакция журнала PC Magazine провела интересный эсперимент с целью отделить зёрна от плевел, то бишь, роботов от человеков. Опустим размышления о том, кто тут зёрна и сразу перейдём к делу. Целью эксперимента была проверка гипотезы о возможности в принципе рассчитать формальные показатели, по которым можно характеризовать качество социальных сетей и СМИ в интернете.

Ценность сайта во многом определяется его типом. Типов сайтов для человеков при всём разнообразии выбора всего четыре: «контентный сайт», «навигационный сайт», «социальная система» и Web-служба (для роботов типов сайтов больше, но оно и понятно :)

Контентный сайт: сайт на котором вы находитесь. Вы не робот? Тогда вам это должнобыть интересно: этот тип сайтов можно оценивать по 3-м критериям: «полнота информации», «покрытие тематического поля» и «редакционный вклад».
Для оценки по этим критериям нужно оценить прежде всего качество источников информации (оцениваем прежде всего полноту информации). Понятно, что свои источники мы не сдаём, но всё-таки: нет ничего уникального, есть только умелый рерайт. Об этом ещё Соломон говорил:

« — Бывает, говорят: "смотри, вот новое", — но и это было уже в веках, бывших до нас»

Ну а поскольку всё уже многажды было, то обратимся к первоисточникам. Их в основном, два: пресс-релизы компаний и публикации коллег. Соответственно, можно проследить тождественность информации источника и нашего сайта - акцептора. Ясно, что при желании этот процес поддается автоматизации. Так, была собрана база данных из всех интернет-первоисточников, представляющая собой "Информационный портрет дня".

"Редакционный вклад" - это степень переработки оригинального контента первоисточника. Редакция исходила из предположения, что переработаный контент имеет больший вес, чем просто скопипасченный, так как в результате переработки с учётом новых материалов, появлением новых комментариев экспертов, ценность публикации для читающего человека (и робота :) повышается.

Так же определяется и полнота информации, то есть, соотношение количества ключевых слов в публикациях (больше - лучше).

Индекс «покрытия тематического поля» определялся как количество значимых «тем дня», попавших в интернет-издание. Тут всё просто: из уже упоминавшейся базы данных с информационным портретом дня вычленяется количество тем и подсчитывается, сколько из них упоминается в новостной ленте сайта.

Социальные системы, построенные вокруг своих сообществ. Это социальные сети, блоги и форумы, фотосайты, системы обмена видео, многие развлекательные ресурсы, контент которых создаётся «коллективным разумом» участников. В частности, интерес представляет изучение сути этого «разума».

В результате эксперимента редакция пришла к выводу, что значительное количество посещений страниц в Интернете генерируют не живые люди, а специализированные роботы (или боты): агенты сбора новостей, разнообразные «пауки» и т. д.
Web-роботы обычно приходят извне. Они могут добавлять записи в блог, закладки в социальную систему, реплики в форум. Такой робот может быть дотаточно интеллектуальным — он порой способен голосовать, открывать ссылки и пр. Существуют системы, способные имитировать «обсуждения» в комментариях или заявки типа «привет тебе, лови пять». Написать бота, симулирующего «поколение Пепси», сегодня почти тривиально (с системами, где при регистрации запрашивается, например, номер паспорта, такой фокус выкинуть сложнее). Не случайно некоторые службы знакомств даже в телерекламе как одно из достоинств преподносят «только реальные анкеты». Для оценки соотношения роботов и людей в сервисе редакция зарегистрировала соответствующую учетную запись на некоторых социальных службах. В блогах редакции размещались анонсы статей сайта pcmag.ru, лента играла роль источника стабильно поступающих записей. Кроме того, были созданы несколько виртуальных пользователей, которые размещали записи и ссылки на заведомо популярные темы (список таких тем формировался на основе рейтинга службы «Яндекс.Блоги»). В ходе исследования фиксировалась статистика и реакция «социума». При оценке результатов стало очевидно, что существуют характерные сценарии поведения, отличающие человека от робота. Обобщая, можно сказать, что человек разнообразен и непоследователен, робот же последователен и методичен. Отвлекаясь от темы, можно продолжить мысль: целеустремлённый, волевой и следующий жизненному плану человек по сути не так далёк от робота, а в идеале им является :)

От 15 до 30 процентов блогов в течение полугода будут забыты создателями - таковы выводы эксперимента. Но не беда: этот процент с лихвой воместят орды роботов, пришедших на смену людям: в ЖЖ активно обсуждается наплыв ботов, связаный с недавним скандалом с отменой базовых аккаунтов, когда достаточно большое число юзеров закрыли свои журналы (система показывает около 15%, но это с учётом массово созданных журналов ботов, поэтому на самом деле больше)

Кроме того, эксперимент позволил определить уровень образования пользователя, материальное положение аудитории и др. В первом случае для оценки был сформирован пул ключевых слов, определяющих кластер интересов аудитории, в отношении которой сложно предполагать высокий образовательный ценз. В качестве основы были выбрали названия сериалов и молодежных комедий, популярных у массовой аудитории (вроде «Счастливы вместе», «Не родись красивой» и др. Данные извлекались с помощью службы «Яндекс.Блоги». Для оценки параметра материального положения подсчитывалось количество упоминаний в дневниках покупок дорогих товаров, туристических поездок, о зарубежных командировках и т. д. В графе «Разнообразие интересов» приводятся оценки, отражающие широту интересов пользователей системы (определяется на основании анализа «облака тегов» или категорий блога); более интересна цифра, которую редакция условно назвала «Стадность». Этот показатель, отражающий готовность аудитории обсуждать предложенные ей темы, определялся как соотношение среднего количества «топиков» на заданную тему (с одинаковым тегом или в одной категории) к средней длине обсуждения. Идея состояла в том, чтобы выявить естественным образом складывающиеся сообщества, заинтересованные той или иной тематикой.

Еще один типичный архетип сайта образца 2007 г. — Web-службы. В этом случае анализировать содержательную составляющую — как правило, бессмысленно. Сайты выбирались скорее за актуальность службы и техническую реализацию (в некоторых случаях на основании ранее сделанных оценок, в частности, это относится к системам обмена файлами, фотосайтам и пр.).

В заключение еще раз подчеркнем: приводимые цифры — это не оценки, а обобщенные показатели, которые отражают некоторые тенденции, выявленные нами в ходе эксперимента на ограниченном массиве данных. Их целесообразно рассматривать как ориентиры, искусственные метрики, позволяющие выявить специфику конкретных ресурсов.

Блоги и сообщества

Система «Реальность аудитории» Образование и интеллект Достаток Разнообразие интересов
habrahabr.ru ****0 ****0 ***00 ***00
Privet.ru ****0 **000 **000 ***00
«Блоги@Mail.ru» **000 **000 **000 ***00
«ЖЖ» ****0 ****0 ****0 *****
«Рамблер·Планета» ***00 ***00 ***00 ***00

Тематические СМИ

Сайт Информационная полнота Покрытие новостного поля «Редакционный вклад»
lenta.ru ***00 ***** ***(0
astera.ru ***00 ****0 *0000
utro.ru ***00 ****0 ***(0
rbc.ru ***** ***** ****0
securitylab.ru ***00 ****0 ***(0
klerk.ru ***00 ***00 ***(0
regnum.ru ****0 ****0 ***(0
3dnews.ru ****0 ****0 ***00
membrana.ru ****0 ****0 ***(0
sostav.ru ****0 ****0 *****

Тем временем блог SEO & Money проводит акцию "Реклама ради рекламы"

На ту же тему:

Робоблог
Search-Bot Log

Понравилась запись? Обязательно подпишитесь на обновление по RSS или по email!

Оставьте свой отзыв!

Я не робот.

Liveinternet