20:35
Сколько нужно времени, чтобы прочитать весь контент в интернете?
Этим вопросом недавно задались пользователи Quora. Автор самого популярного ответа в треде, специалист по платежным системам Файсал Хан (Faisal Khan) провел подробный расчет и выяснил, что на прочтение всего интернета целиком (точнее, всего контента на английском языке) понадобится 226 532 года при скорости чтения в 250 слов в минуту.

Таким был ход его вычислений.

Прежде всего, для ответа на этот вопрос необходимо сделать несколько допущений и принять ряд базовых правил:

  • Под «контентом» в интернете мы будем понимать данные, которые доступны абсолютно любому пользователю сети. Таким образом ваша лента Facebook (и ленты еще миллиарда пользователей соцсети) не подпадает под этот критерий и, таким образом, не учитывается в расчетах;
  • Видео, аудио контент и визуальная информация (фото, картинки) также не рассматриваются;
  • Не включаются в расчеты и сообщения электронной почты: причина та же, что и с Facebook — я не могу получить доступ к почтовым сообщениям других людей;
  • Таким же образом из расчетов исключаются террабайты данных, хранящихся в Dropbox, AmazonS3 Storage и иже с ними. Как обычный пользователь интернета я не смогу получить доступ ко всем этим данным;
  • Исключаются математические и численные данные. При чтении формул и прочих математических «фраз» нереально определить что-либо наподобие «слов в минуту»;
  • Это указано в условиях вопроса — во внимание принимается только английский язык. Так что контент, написанный на любом другом языке, не будет учтен;
  • Любая информация, которая так запрятана в глубины сети, что среднестатистический пользователь не сможет легко до нее добраться, также исключается из расчетов;
  • Не учитывается контент, за доступ к которому нужно заплатить;
  • Зато в расчетах необходимо учесть публикации научных журналов т. к. к ним может легко может получить доступ обычный пользователь сети;
  • Рассматриваются только Web данные;
  • Пожалуй, самое главное допущение, которое нам необходимо сделать. Мы должны допустить, что когда конкретный человек начинает чтение контента в интернете, вся остальная сеть находится в «замороженном» состоянии и никакого нового контента не добавляется.
  • Теперь необходимо разобраться с тем, насколько велик такой объем данных. Все будет зависеть от того, какое количество источников мы будем рассматривать. Для того чтобы лучше представить количество данных в интернете, давайте взглянем на некоторые источники.

    Минутка интернета

    Отсюда понадобятся следующие данные:

    1. Количество твитов. 2. Число постов в Tumblr. 3. Число созданных вебсайтов. 4. Количество блогпостов.

    К ним мы вернемся чуть позже, а пока определимся с другими источниками.

    Pingdom опубликовал отличный отчет «Интернет 2012 в цифрах» (Internet 2012 innumbers). Отсюда нам будут нужны следующие факты:

    1. 634 миллиона сайтов. 2. 87,8 млн — число блогов Tumblr. 3. 59,4 млн — число блогов на Wordpress. 4. 246 млн — число доменных имен. 5. 163 млрд твитов (на июль 2012) с момента запуска Twitter. 6. Более 200 млн пользователей LinkedIn (согласно информации с сайта соцсети).

    Tumblr публикует собственную статистику, которую можно найти на странице About | Tumblr сайта. На 10 марта 2013 года данные по количеству постов таковы:

    Согласно сайту WorldWideWebSize.com, проиндексированная Google версия интернета выглядит вот так:

    Соответственно, к 10 марта 2013 года количество веб страниц чуть не дотягивало до 45 млрд. До этого значения мы и округлим число всех страниц.

    Версия индекса от Bing:

    Поисковик от Microsoft насчитал только 12 млрд веб-страниц.

    Кстати, если вы задались вопросом, почему трафик так упал 2 февраля, то причиной этому послужил зимний ураган в США, продлившийся с 31 января по 2 февраля. Предположительно, он повлек за собой сбой сервера, отвечающего за измерение, в результате значение в этот день был нулевым.

    Если подсчитать, сколько же книг доступны в интернете простому пользователю, то их миллионы. Проект Гутенберг (Project Gutenberg) является одной из важнейших причин этому. Однако количество книг, доступных на этом сайте, не превышает 42 000, а Open Library дает бесплатный доступ к более чем 1 миллиону книг.

    И, конечно, нельзя забывать о Wikipedia… Вот статистика по этому сайту от Active Counters:

    Источник: Wikipedia: Statistics

    Чтобы визуализировать, можно представить, как бы выглядели все эти данные в напечатанном виде: wiki.jpg

    Иллюстрация показывает, как могли бы выглядеть статьи Wikipedia, если их распечатать, сшить в книгу и сложить в штабеля. При размере каждого тома в 25 см в высоту, 5 см в ширину (160 000 слов или 8 000 000 знаков)

    Источник: Wikipedia: Size of Wikipedia

    Займемся классификацией и упорядочиванием цифр.

    Мы будем измерять следующие области контента:

  • Веб-сайты
  • Веб-страницы
  • Твиты
  • Блоги Wordpress
  • Блоги Tumblr
  • Страницы Wikipedia
  • Страницы LinkedIn
  • Книги
  • и самая важная категория «Прочее», размер которой мы примем за 10% от всего объема проиндексированного Google контента сети (т. е. 4 500 000 страниц).
  • Все эти предположения нашли свое отражение в расчётах, представленных ниже:

    Размер контента

    Источники контента и их размер:

    Вычисления для книг

    Вычисления для страниц LinkedIn

    Вычисления для Wikipedia

    Вычисления для Tumblr

    Вычисления для Wordpress

    Вычисления для Twitter

    Вычисления для индекса Google

    Вычисления для веб-сайтов

    Вычисления для прочего контента

    … и в конечном итоге, финальный результат будет примерно таким.

    Общее количество лет, которые нужно затратить на прочтение всего доступного контента в интернете:

    Осталось посчитать, сколько потребуется часов для прочтения русскоязычного контента. Правда, велика вероятность, что c годами контент постигнут большие изменения, за которыми мы никогда не успеем угнаться в своих расчетах.

    Просмотров: 226 | Добавил: shondaahlf2rv1 | Рейтинг: 0.0/0
    Всего комментариев: 0
    avatar