Хранение информации на ленточных накопителях
+7 (495) 514-70-07
Главная » Технологии » Магнитные ленты как экономически эффективное и надёжное решение для хранения информации.
Стандарты
дата картриджей
Наиболее распространенные стандарты дата картриджей
Производители дата картриджей
Наиболее распространенные стандарты дата картриджей
  • Дата картриджи LTO Ultrium
  • Дата картриджи IBM 3592/ IBM 3590
  • Дата картриджи 4mm / DDS / DAT72
  • Дата картриджи AIT / SAIT
  • Дата картриджи 8mm / ЕXABYTE
  • Дата картриджи QIC 1/4 Inch / TRAVAN
  • Дата картриджи DLT / SUPER DLT / S4
  • Дата картриджи SLR / TANDBERG
Магнитные ленты как экономически эффективное и надёжное решение для хранения информации.

Опыт Национального вычислительного центра энергетических исследований Департамента энергетики США (NERSC).

Может ли накопитель на магнитных лентах выполнять роль устройства с прямым доступом?

Может ли активно используемый архив информации, хранящийся на магнитных лентах, служить ещё одним разделом «обычного» хранилища?

В исследовательском центре NERSC в Калифории архив на магнитных лентах рассматривают как очень эффективную, дешёвую, легко масштабируемую и очень надёжную систему хранения информации. У NERSC есть веские аргументы в пользу магнитных лент, ведь его хранилище данных по размеру уже превысило 13 петабайт при ежегодном росте примерно на 60% и имеет историю продолжительностью в несколько десятилетий; хранилище настолько надёжно, что дополнительные копии данных просто не нужны.

Краткий обзор

Несмотря на то, что многие работающие в сфере информационных технологий компании считают магнитные ленты «необходимым злом» или вообще отказываются от их применения в дата-центрах, магнитная лента и по сей день широко используется в системах хранения данных по всему миру. В исследовательском центре NERSC на магнитных лентах хранится более 13 петабайт данных, при этом 30–40% действий с лентами составляет считывание; вероятность безотказной работы системы подсчитана и равняется 99,945%, а стоимость хранения информации в расчёте на гигабайт составляет около 5% от стоимости хранения на дисках [1]. Опыт NERSC не просто подтверждает приведённый в заголовке тезис; он помогает понять, какую пользу может принести магнитная лента, если использовать её регулярно и грамотно — не по причине отсутствия других носителей, не потому, что «так делали всегда», и разумеется, не только для резервного копирования или хранения информации, утратившей актуальность. Все эти утверждения очень далеки от истины. Специалисты NERSC сознательно выбрали автоматизированную ленточную библиотеку для хранения активного архива первичных данных. В архиве содержатся первичные данные без второй копии, а доступ к ним осуществляется настолько интенсивно, что архив фактически стал частью обычной сетевой инфраструктуры хранения данных.

Хранение данных на магнитных лентах не только экономически выгодно, но и очень надёжно; специалисты NERSC заявляют, что информация с носителей различных типов (как быстрого доступа, так и большой ёмкости) успешно считывается после 12 лет хранения — полностью читаемыми оказались 99,945% носителей. Джейсон Хик, руководитель группы хранения данных в NERSC, привёл прекрасную аналогию: в процессе переноса данных, с июня 2009 года по март 2010 года, было произведено считывание 14 805 823 метров магнитной ленты, что равняется расстоянию от г. Сан-Франциско до г. Перт (Австралия); в 14 файлах обнаружилось по одному нечитаемому блоку. Все 14 файлов в сумме занимали 108 метров магнитной ленты, что приблизительно равно длине самолёта Боинг 777, на котором можно долететь из Сан-Франциско в Перт.

Джейсон Хик считает, что система хранения данных на магнитных лентах является не столько статьёй расхода, сколько выгодной инвестицией, в основном благодаря большому сроку службы, невысокому энергопотреблению и не слишком жёстким требованиям к охлаждению, а также по причине очень малой стоимости хранения в расчёте на гигабайт — до 20 раз дешевле по сравнению с дисковыми архивами. Столь активное использование магнитных лент для хранения первичных данных можно отчасти объяснить спецификой деятельности NERSC как научно-исследовательского центра; однако это далеко не единственная причина. Тщательное планирование, высокая надёжность ленточных носителей, их экономическая эффективность — всё это, вместе взятое, делает ленточные библиотеки самым подходящим решением для хранения и ввода-вывода больших объёмов информации. В NERSC магнитные ленты являются не хранилищем устаревшей информации, а современной и функциональной частью инфраструктуры ввода-вывода.

NERSC

Аббревиатура NERSC обозначает Национальный вычислительный центр энергетических исследований под управлением Национальной лаборатории им. Лоуренса в Беркли. Это публичный исследовательский центр Управления научных исследований Департамента энергетики США. В этом качестве вычислительный центр принимает участие в работе над самыми разными проектами: это исследования глобальных климатических изменений, возобновляемых источников энергии, моделирование экологических систем, химия, биология, физика, нанотехнологии, термоядерный синтез, астрономия (обработка данных, напрямую полученных от спутников NASA) и многие другие области науки. NERSC финансируется Отделением вычислений для перспективных исследований (Advanced Scientific Computing Research, ASRC) Департамента энергетики США и соединён с несколькими крупнейшими в мире исследовательскими лабораториями посредством сети Esnet, также находящейся под управлением Национальной лаборатории в Беркли и созданной для передачи больших массивов научной информации, которую обрабатывают и хранят связанные сетью вычислительные центры. NERSC считается самым хорошо организованным суперкомпьютерным центром в мире. Его персонал численностью всего 60 человек обслуживает примерно 4000 пользователей, работающих над 400 различными проектами. Каждую неделю идёт одновременная работа примерно над половиной этих проектов, а ежедневно в центре бывает около 400 посетителей. Сообщество пользователей NERSC — одно из самых больших среди подобных вычислительных центров, а его научные интересы охватывают самые разные области, от сложнейших вычислительных задач до научных приложений, требующих обработки большого массива данных в реальном времени. С точки зрения информационных технологий, единственный способ справиться с такими разными задачами — сделать работу вычислительного центра как можно более гибкой и эффективной. Для Джейсона Хика очевидны возникающие при этом проблемы («Многие годы одним людям нравились диски, а другим — ленты, причём первые воспринимали ленту как необходимое зло»), но столь же очевидна и цель, к которой следует стремиться: «Мы просто должны обеспечивать всем нашим пользователям обработку и хранение информации, как можно лучше и как можно эффективнее».

Магнитная лента в информационных технологиях

Многие годы раздаются высказывания о том, что магнитная лента изжила себя; однако, безотносительно к её популярности или сложностям правильного использования, слухи о кончине магнитной ленты столь же ошибочны, как мнение о ненужности бумаги в современном делопроизводстве или рассуждения о том, что безнадёжно устарела музыка Моцарта и Битлз. Многие десятилетия магнитная лента использовалась лишь для резервного копирования; сегодня она применяется для аварийного восстановления информации (при этом значительное количество данных и приложений изначально резервируется в дисковых кэшах и лишь затем переносится на ленты) и всё чаще используется в приложениях архивирования данных, поскольку спрос на архивирование растущих объёмов данных увеличивается в геометрической прогрессии. В целом при обработке подобных типов «вторичных данных» (хотя архивные данные, как ни парадоксально это звучит, являются всё же первичной копией информации), магнитная лента по-прежнему удерживает большой сегмент рынка, в основном благодаря своей привлекательной цене. Недавние исследования ведущей аналитической фирмы в сфере информационных технологий Enterprise Strategy Group (ESG) (см. рис. 1) показали, что доля рынка дисков и лент в данном сегменте практически одинакова (47% против 53%). Возможно, за последние 10–20 лет магнитная лента несколько сдала позиции, но она продолжает оставаться важным носителем информации с собственной существенной долей рынка, к огорчению некоторых поставщиков, которые хотели бы скорее её похоронить.

Рисунок 1

В противоположность вторичным данным, имеющим меньшую ценность и/или реже используемым, или резервным копиям, которые хранятся на случай сбоев в основной файловой системе, архивные данные представляют собой первичную копию информации. Сравните стопки книг, лежащие в библиотечном хранилище где-нибудь в подвале или в пристрое, с книгами, которые выставлены в свободном доступе на полках в читальном зале. Будь то бумажные книги или электронные тома, необходимо достичь тонкого компромисса между доступностью важных данных и их сохранностью. [Это особенно важно для NERSC из-за специфики его работы, поскольку для эффективного использования ресурсов большие объёмы данных приходится переносить в архивные хранилища раньше, чем обычно практикуется; однако в то же время для проведения научных исследований приходится обращаться к архиву чаще и делать куда более объёмные выборки, чем в других вычислительных центрах подобного масштаба]. Вне зависимости от частоты доступа к архивным данным, ясно одно: в цифровых архивах уже сегодня хранится огромное количество информации, и объём их будет только расти, а магнитная лента и впредь останется одним из главных носителей архивных данных. По прогнозам ESG (см. рис. 2), доля носителей на магнитных лентах в составе цифровых архивов, составляющая на сегодняшний день 38%, к 2015 году снизится до 27%; однако общий объём хранимых данных при этом увеличится более чем в шесть раз.

Рисунок 2

Интересно также, что следует считать архивом. При какой интенсивности доступа архив перестаёт быть собственно архивом и переходит в новое качество? На практике в большинстве архивов ежегодно считывается не более 5% хранящихся в них данных; при более активном их использовании (возможно, 10 или 15%) имеет смысл говорить, к примеру, о «дистрибутивном архиве», а возможно, следует рассматривать его просто как ещё один класс устройств ввода-вывода — ведь в NERSC, например, ежегодно считывается 30–40% «архивных данных».

Хранилища на магнитных лентах в NERSC

NERSC обеспечивает производительность вычислений в квадриллионы операций в секунду (два из его компьютеров входят в список «топ 500» по производительности в мире — один на пятом и другой на семнадцатом месте) и располагает архивом данных объёмом около 15 петабайт, самые старые файлы в котором датированы 70-ми годами прошлого века; хотя бы поэтому NERSC можно считать очень серьёзным учреждением. Для оперативной работы в вычислительном центре применяется кластерная файловая система Lustre, а в качестве собственной глобальной файловой системы используется GPFS разработки IBM, дающая пользователям доступ к необходимым данным со всех компьютеров вычислительного центра; объём каждой из двух файловых систем составляет около 2-3 петабайт. Около 90% ёмкости хранилища приходится на магнитные ленты, а 30% обращений к ним составляет чтение. В обычных архивах примерно 95% обращений к лентам осуществляется с целью записи информации, поэтому архив NERSC пришлось специально оптимизировать, исходя из особенностей его использования. Ситуация осложняется ещё и невозможностью предсказать, какая именно лента понадобится в следующий раз; необходим быстрый автоматический поиск и замена лент в считывающих устройствах, а также повышается расход электроэнергии на эти операции. Обычная практика «чем старше данные, тем реже они востребованы» неприменима в научном сообществе пользователей NERSC; например, при обнаружении сверхновой астрономам необходимо просмотреть все имеющиеся в наличии наблюдения за соответствующим участком звёздного неба, чтобы исключить возможную ошибку.

Обобщённая статистика такова:

30–40% операций с архивом NERSC составляет считывание, поэтому в нём должны присутствовать разные типы носителей, оптимизированные как по ёмкости, так и по скорости доступа;

объём архива ежегодно увеличивается примерно на 50–70%; поскольку ресурсы вычислительного центра ограничены, NERSC полагается на технологические усовершенствования, в том числе на тома большей ёмкости и повторное использование носителей;

среднее количество замен кассет в накопителях составляет 60 в час (10000 в неделю), а среднее количество параллельных обращений равно 15;

наблюдается сильная корреляция между объёмом памяти основной системы и ежегодным приростом размера архива: в 2009 году рост архивных данных составил 35 ТБ на каждый терабайт основной памяти;

в среднем вновь полученные данные хранятся в дисковом кэше пять дней, а затем выгружаются на магнитную ленту;

в среднем в файловой системе NERSC появляется по миллиону новых файлов ежемесячно; хотя 70% новых файлов имеют размер меньше 2 МБ, 50% объёма новой информации размещается в виде файлов размером более 6 МБ;

NERSC использует систему хранения Oracle (торговой марки StorageTek), состоящую из 128 накопителей на магнитных лентах; в неё входят 35 быстродействующих устройств марки T9840D и 93 устройства T10000B увеличенной ёмкости.

быстродействующий накопитель T9840D обеспечивает среднее время доступа к первому байту данных в течение 30 секунд и обрабатывает 83% всех используемых файлов (размер файла менее 110 МБ);

накопитель увеличенной ёмкости T10000B обеспечивает среднее время доступа к первому байту данных в течение полутора минут и обрабатывает 94% всех используемых данных (содержащихся в файлах размером более 110 МБ);

ленточные накопители входят в состав четырёх автоматических ленточных библиотек SL8500 с портами для обмена кассетами Pass-Thru, позволяющими объединить все библиотеки в один пул. Эта архитектура не уменьшает время доступа к первому байту данных, однако гарантирует, что нужная лента всё же будет прочитана, и таким образом помогает ликвидировать «узкие места».

Планирование и использование

Значительную часть своего времени Джейсон Хик отводит на разъяснение пользователям особенностей использования ленточных библиотек: «Наша цель — заставить ленточную систему хранения работать в качестве полноценной файловой системы». В качестве главного инструмента управления ресурсами была избрана условная единица хранения, названная SRU (Storage Resource Unit) — усреднённый запрос, который позволяет Хику и его команде отслеживать и учитывать потребности пользователей, а пользователям помогает понять, насколько эффективно они используют хранилище: «квоты для обеих сторон, обеспечивающие успешную работу».

Каждый аспект работы системы досконально измеряется, отслеживается и оптимизируется для того, чтобы сочетать экономическую эффективность и надёжность хранения данных. По мнению Джейсона Хика, лишь благодаря всестороннему анализу и планированию удаётся столь успешно использовать ленточные носители для хранения первичных активно используемых данных.

Результаты

Надёжность

Хотя комментарий Хика звучит забавно («в конце концов всё это оказывается на удивление надёжным»), он основан на реальном опыте, когда были прочитаны данные, накопленные за десятилетие. При переходе на новые технологии (накопители T9840D и T10000B) в 2009–2010 годах в NERSC было прочитано примерно 24 000 кассет, распределявшихся следующим образом:

  • 6 859 кассет T10000A давностью до двух лет;
  • 9 155 кассет T9940B давностью до восьми лет;
  • 7 806 кассет T9840A давностью до двенадцати лет.
Проблемы с чтением возникли только на 13 кассетах; таким образом, 99,945% всех лент оказались полностью читаемы. На этих 13 кассетах была успешно прочитана вся информация, за исключением 14 проблемных файлов, содержащих чуть меньше 100 ГБ данных. Фактически сбойные участки на лентах располагались в пределах одного или двух последовательных блоков (250–500 МБ), а остальную часть файла можно было прочитать. Такой уровень надёжности более чем устраивает клиентов NERSC, поэтому большинство данных продолжают хранить на лентах в качестве первой и единственной копии. Как сказал Хик: «Даже производители магнитных лент говорят, что нам следует держать вторую копию... они называют нас безумцами, но статистика подтверждает, что вторая копия просто не нужна».

Экономический эффект

Поскольку NERSC уделяет особое внимание эффективности работы, неудивительно, что стоимость хранения первичных данных в архиве на магнитной ленте оказывается весьма привлекательной. Если сравнить абсолютную стоимость поддержания файловой системы на лентах (HPSS) и файловой системы на дисках (GPFS), то расходы в расчёте на 1 ГБ данных для первой из них оказываются почти в 20 раз меньше, чем для второй. Стоимость хранения в перспективе можно оценить, исходя из следующего факта: в 2008 году NERSC произвёл крупные капиталовложения в систему хранения (были приобретены три автоматические ленточные библиотеки SL8500 и 88 новых накопителей на магнитной ленте); благодаря этому в 2009 году удельная стоимость хранения данных оказалась ниже, чем в 2007 году. Хик даёт несколько советов, направленных на уменьшение удельной стоимости хранения:

  • как можно скорее начинайте использовать новые носители увеличенной ёмкости — это обеспечивает немедленное снижение затрат на обработку;
  • повторное использование носителей также позволяет снизить расходы, избавляя от необходимости покупать новые кассеты; к тому же вновь записываемые данные обычно как минимум вдвое превышают по объёму старые записи.

Джейсон Хик считает, что для NERSC накопители на магнитной ленте и ленточные библиотеки являются не столько статьёй расхда, сколько выгодной инвестицией, особенно если принять во внимание, что эти устройства, как правило, используются всё время, пока производители осуществляют их техническую поддержку (20 и 10 лет соответственно).

Другие соображения

Хотя при изучении опыта NERSC складывается в целом положительное мнение об использовании магнитных лент в качестве носителей активно используемой информации, кое-что, по словам Хика, могло быть и лучше. Прежде всего, он был бы рад росту конкуренции среди производителей: сегодня в корпоративном и предназначенном для высокопроизводительных компьютеров сегменте рынка присутствуют всего несколько производителей автоматических ленточных библиотек и ещё меньше поставщиков магнитных лент и устройств-накопителей. Планируя свою деятельность на многие годы вперёд, хотелось бы иметь больший выбор. Как следствие из вышесказанного, хотелось бы, чтобы поставщики магнитных лент прилагали более организованные совместные усилия к увеличению спроса на свою продукцию, разъясняли бы потребителям преимущества и перспективы её использования. Говорят, что «прилив поднимает все лодки»; возможно, так удалось бы развеять некоторые заблуждения насчёт магнитных лент. Например, Джейсон Хик хотел бы, чтобы разработчики делали основной упор не на совершенствование технологии изготовления магнитных головок, а больше внимания уделяли бы совершенствованию профессиональных средств мониторинга и анализа состояния магнитной ленты. Oracle пока что не давал NERSC повода задуматься о смене поставщика, однако Хик постоянно отслеживает состояние рынка в целом; он доверяет магнитной ленте, но не какому-то конкретному её производителю.

Заключение

Некоторые читатели могут счесть это исследование хорошим сюжетом для очередного выпуска «Невероятной коллекции мистера Рипли». Так много разных источинков в один голос уверяют, что магнитные ленты устарели, и от них нужно избавляться как можно скорее — а здесь кто-то их превозносит. Дело в диаметрально противоположных подходах: в большинстве организаций основные усилия направлены на то, чтобы сгладить недостатки ленточных хранилищ, в то время как в NERSC стараются извлечь пользу из их достоинств. Здесь вложения в систему хранения информации на лентах рассматирвают не как затраты, а как инвестиции, и используют магнитную ленту не только в качестве резервного хранилища, но и в качестве динамичной части общей инфраструктуры ввода-вывода. Рассматриваемый пример — это не умозрительные рассуждения, а реальный практический опыт крупной организации, доступный для изучения и анализа. NERSC подтверждает правильность своего подхода как с точки зрения бизнеса и финансовой перспективы, так и в терминах работоспособности и надёжности.

Разумеется, в некоторых аспектах NERSC отличается от других потребителей: он сознательно отказывается вкладывать крупные суммы в резервное копирование архивной информации. С другой стороны, отличие не столь велико; NERSC выбрал способ предоставлять своим пользователям услуги с оптимальным соотношением «цена-качество» и принял соответствующее наиболее рентабельное коммерческое решение. На практике удалось развенчать мнение о магнитной ленте как о принципиально ненадёжном носителе информации, и развеять впечатление о сравнимой совокупной стоимости хранения больших объёмов информации на дисках и на лентах в расчёте на долгосрочную перспективу. Подход специалистов NERSC представляется особо убедительным, поскольку он основан не на рассуждениях, а на расчётах, в то время как многие пользователи рассматривают магнитную ленту в качестве ещё одной вещи «на всякий случай». Как подытожил всё вышеизложенное Джейсон Хик, «я не могу позволить себе хранить всю эту информацию на дисках — но я и не хочу».

[1] Источник: эта статья была написана по материалам интервью, которое в конце 2010 года дал Джейсон Хик, руководитель группы хранения данных в NERSC. Его группа поддерживает рабочую среду «от десктопа до суперкомпьютера», основные требования к которой — высокая эффективность и лёгкая масштабируемость. Выражаем благодарность Джейсону за содействие, понимание и готовность делиться своими методами и идеями, как при изучении данного конкретного случая, так и в высказываниях, появляющихся в других источниках.

Хранение информации на ленточных накопителях.

DITAPE.RU
© 2009-2017
Проект компании DILARIS