Хранение трафика: подсчёт терабайтов
Предположим, что у нас есть гигабитный канал и нам нужно записывать весь проходящий интернет-трафик, на уровне IP, вместе с заголовками и служебной информацией. Сколько потребуется места в хранилище? Гигабит – это не более 125 мегабайт в секунду. 125 Mb * 3600 = 450 гигабайт в час. Объём буфера на 12 часов не превысит 450*12 = 5,4 терабайт. Удобно использовать хранилище, построенное на базе SSD. А если прикрутить к хранилищу пару мощных процессоров, то (нешифрованный) трафик можно будет на лету сжимать, раза в два: получаем 2,7 терабайта.
Вернёмся к объёмам трафика. На MSK-IX говорят о терабите (в секунду, понятно), как о некоторой важной отметке. Пусть это действующий верхний предел, определяющий понятие “большой объём трафика” для масштабов Рунета. Терабит (примем, что это 1000 гигабит), взятый за 12 часов, согласно расчётам из предыдущего абзаца, поместится в хранилище, имеющее объём 2,7 петабайта. Объём приличный, да. Пусть 100 Gb на SSD, вместе с доступом, стоят около $50, тогда затраты на диски составят 500 тыс. долларов США (поправка: это на петабайт, то есть, полный комплект – 1 млн 350 тыс. долларов). Понятно, конечно, что само хранилище будет стоить существенно дороже, но ничего фантастического в этих, примерно, трёх петабайтах – нет.
(Дополнение 25/10/13. Посмотрим на расценки сервиса хранения данных Amazon S3: размещение 2,7 петабайта обойдётся в 2,7 * 55000 = 148500 долларов США в месяц, по тарифу US Standard; это, конечно, только хранение данных с резервированием, извлечение, а также быстрый доступ вообще, потребуют дополнительных затрат. 148,5 тыс. ежемесячно – дают нам 1 млн 782 тыс. в год. То есть, можно предположить, что соответствующее хранилище обойдётся где-то в 7-10 млн долларов.)
Продолжение: сбор и обработка трафика.
Адрес записки: https://dxdt.ru/2013/10/23/6254/
Похожие записки:
- Новый сайт Gramota.ru
- TLS и подмена сертификата на jabber.ru
- Реплика: превращение словарных имён королей - Чарльз/Карл
- Рандомизация регистра символов в DNS
- Вспомогательный ИИ
- Бывшая "Яндекс.Почта"
- Синтезирование изображений смартфонами и "реальность фотографий"
- Задержки пакетов, СУБД, TCP и РЛС
- Пресертификаты в Certificate Transparency
- Новые атаки на SHA-256 (SHA-2): технические пояснения
- Заголовки СМИ про "предположения учёных"
Комментарии читателей блога: 5
1. 23rd October 2013, 19:24 // Читатель зашел в гости написал:
Все намного сложнее, как мне кажется.
1. 12 часов – это ничто. Какую информацию можно из этих данных извлечь? Как мне кажется, чтобы что-то разумное получить(от биржевой информации до списка пособников террориста), нужно хранить как минимум пару месяцев.
2. Это ОДНО хранилище, а сколько таких нужно, скажем, на всю Москву?
3. С ростом обьема данных рост сложности системы распределения, хранения и доступа к ним, как мне кажется, будет совсем не линейным.
4. И, наконец, самое главное – как эти данные классифицировать и расшифровывать в автоматическом режиме? Этот пунктик будет стоить подороже трех первых. IMHO, опять же.
2. 23rd October 2013, 20:16 // Читатель jno написал:
MSK-IX – это даже не Москва.
Это – пол России.
Срок хранения устанавливается не “в пару месяцев”, а требованиями ведомств (законов на сей счёт у нас нет).
Обсчёт – фигня. Вот высокопараллельный доступ – это *опа, да.
3. 24th October 2013, 13:08 // Читатель sarin написал:
а на сколько перезаписей нанче хватает SSD?
4. 24th October 2013, 18:39 // Читатель зашел в гости написал:
От технологии изготовления зависит. Среднестатистический диск (MLC) – 3-5 тыс. R/W циклов. SLC – за 100 тыс циклов, но они дорогие, по полтиннику за 100Гб не получится.
5. 24th October 2013, 22:25 // Читатель jno написал:
SSD нонче, вроде, стойкие стали…
как оловянные солдатики.