Серверная память не работает

Ошибки и проблемы серверов большой тройки: часть третья. IBM

Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.

Оперативная память

Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.

Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.

Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:

Читайте также:  Не работает вентилятор отопителя лифан солано

  • Соблюдайте канальность памяти.
  • Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
  • Ставьте одинаковый объём памяти на каждый процессор.

А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:

  • Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
  • Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
  • Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
  • Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.

Многие сисадмины сталкиваются с тем, что при проверке оперативной памяти с помощью MemTest86 получают сообщения об ошибках даже в заведомо рабочих модулях, либо на одних и тех же дорожках. Особенно часто это встречается у серверов поколения M4. Это вовсе не вина машин или памяти: MemTest86 не рекомендуется использовать для проверки серверной памяти. Если же память начнёт сбоить, то сервер сообщит об этом через диагностическую панель. Проверять память на серверах IBM лучше стандартными средствами самодиагностики.

Накопители

Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:

Модель IBM Оригинал
IBM 49Y2003 Seagate ST9600204SS
IBM 90Y8872 Seagate ST9600205SS
IBM 90Y8908 Seagate ST9600105SS
IBM 81Y9650 Seagate ST900MM0006

Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).

При включении сервера и прохождении POST-проверки возможно появление ошибки:

A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.

Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.

С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:

ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)

Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:

  • Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
  • Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
    • o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
    • o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
    • o Просто очень интенсивное использование дисков.

Для решения этой проблемы рекомендуется снизить активность подкачки с диска: используйте RAID-контроллер с кэшированием и увеличьте объём оперативной памяти.

Обновление прошивок и ПО

Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.

При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:

  1. Загрузитесь с загрузочной флешки или диска.
  2. Запустите BoMC от имени Администратора.
  3. Выберите, что вы хотите сделать: обновить и/или провести диагностику.
  4. Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
  5. Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
  6. По окончании записи загрузитесь с этого носителя, и далее по инструкции.

Эта процедура помогает и в ряде проблемных ситуаций. Например, если вы не дождались завершения обновления Integrated Management Module и нажали кнопку «отмена», то при следующих загрузках сервер может не суметь загрузить IMM и использует настройки по умолчанию. Можно сначала попытаться восстановить с помощью джампера “UEFI & IMM recovery jumper” на материнской плате, благодаря которому загружается прошитый образ IMM.

Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.

Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS’а происходит сбой питания.

После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS’а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS’а. Как говорится, шаг назад — два вперёд.

Другие проблемы

Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.

В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:

  1. Проверьте плотность подключения разъёмов питания.
  2. Отключите все вентиляторы и снимите корзину.
  3. Проверьте каждый вентилятор на других серверах.
  4. Соберите корзину снова, поменяв вентиляторы местами. Либо совсем их замените.

Встречался в нашей практике и такой интересный сбой: при загрузке сервера штатно инициализируется IMM, затем начинается инициализация UEFI, и… всё. Дальше сервер не грузится без объяснения причин. Не помогали никакие манипуляции: отключение от сети, полное обесточивание, отключение разных компонентов. Загрузка бэкапа UEFI с помощью джампера на материнской плате тоже не помогла. Опытным путём выяснилось, что если подождать около 20 минут, то всё же можно дождаться загрузки сервера. Так он и работает с тех пор — каждый раз грузится по 20 минут. Выяснить причину сбоя не удалось.

Преимущества серверов IBM

Серверы IBM заслуженно пользуются большой популярностью:

  • Это простые и очень надёжные машины.
  • Отличная расширяемость даже на начальных моделях и богатый комплект поставки.
  • Серверы IBM обычно дешевле конкурентов и не уступают в производительности. Например, поколения M3 и M4 дешевле, чем аналоги у HP (Gen7 и Gen8) и Dell (11G и 12G).
  • Самые недорогие расходники. Легко найти в России.
  • Удобная диагностическая панель на многих моделях.

Главное, в чём серверы IBM уступают конкурентам — у них очень долгий «холодный» старт.

Источник

Серверная память: DDR3/4, Buffered, …unBuffered, ECC? Помогаем разобраться с выбором памяти для различных платформ

Пока компьютерный прогресс бежит сломя голову, в стане серверов остаются доступными совершенно различные конфигурации, как современные, так и 5-10 летние железки. И в момент подбора комплектующих для апгрейда возникает закономерный вопрос, а какую память и в каком количестве доустанавливать или менять? Помимо привычного разъема DIMM используется и SO-DIMM, а о том, что бывает память с ECC и без нее, буферизованная и нет, знает каждый школьник.

Платформы Intel

За более чем 40-летнюю историю существования компания Intel разработала и выпустила десятки серверных платформ. Сейчас две из них пользуются повышенным вниманием: V3/V4 Xeon процессоры распространены благодаря относительно дешевым ценам в пересчете на 1 ядро, а также Xeon Scalable из-за неимоверного разнообразия процессоров.

Чтобы не запутаться в версиях/ревизиях посмотрим на типы процессоров Intel, разделив их на большие группы по архитектуре.

В процессе подбора оттолкнемся именно от архитектуры процессора, потому что лучше всего идти правильным путем: процессор -> материнская плата… В принципе можно этот путь пройти назад, однако частота и канальность памяти на 100% зависит от установленного процессора, но возможны и ограничения платы.

LGA 1151

1151 сокет использовался для 3 платформ продолжительное время. Начальным этапом стали процессоры Skylake-S, содержащие 4 физических ядра. Потом их сменили процессоры Kaby Lake-S, и наконец завершающим семейством стали CPU Coffee Lake-S WS. Все поколения оснащались 2-канальным контроллером памяти. По мере совершенствования архитектуры он перешел с частоты 1866 МГц к 2666 МГц. Платы на LGA 1151 поддерживают до 4 разъемов DIMM (2 модуля Х 2 канала), как с ECC, так и без нее. Совсем редко попадаются конфигурации с DDR3L памятью (от 1333 до 1600 МГц). Максимальный объем памяти 64 Гбайт.

Для Skylake, Kaby Lake и Coffee Lake LGA 1151 можно использовать DDR4 память с ECC частотой от 1866МГц до 2666 МГц (как не буферизированная, так и регистровая). Существует 2 типа плат: с 2 разъемами и с 4 разъемами DIMM. Для 2 разъемов используйте парные модули, чтобы задействовать оба канала. Для 4 разъемов устанавливайте память парами (2х DIMM в 2 канала или 4х DIMM в 2 канала). В зависимости от версии процессора используйте максимально разрешенную частоту для достижения максимальной производительности подсистемы памяти.

LGA 2066

Платформа LGA 2066 с процессорами Skylake-W поддерживают до 8 разъемов DIMM (2×4 канала), ECC с частотой от 1600 до 2666 МГц. Тип памяти DDR4. Максимальный объем памяти 512 Гбайт.

Для Skylake LGA 2066 можно использовать DDR4 память (ECC RDIMM, Registered ECC RDIMM, Registered ECC LRDIMM, Registered ECC LRDIMM) частотой 1600-2666МГц. Существует 2 основных конфигурации с 4 слотами и 8.

В материнскую плату с 4/8 слотами лучше всего устанавливать память по 4 модуля для максимальной производительности. Для достижения максимальной емкости задействуйте 8 слотов. В зависимости от версии процессора используйте максимально разрешенную частоту для достижения максимальной производительности подсистемы памяти.

LGA 3647

Платформа LGA 3647 поддерживает до 12 разъемов DIMM (2×6 каналов), ECC с частотой от 2133 до 2666 МГц. Тип памяти DDR4. В список не включены процессоры Xeon Platinum 92ХХ.

8 слотов памяти при 6 (А, B, C, D, E, F) каналах. Два канала разделены на ранги (А1 ранг + А2 ранг и D1 + D2), типичная ситуация, когда «А» и «D» канал делят пополам. Допускается установка различных конфигураций, но наиболее производительная – установка 6 модулей без «2» рангов.

4 слота памяти при 6 (А, B, C, D, E, F) каналах. Из 6 каналов чаще всего выброшен канал «С» и «F». Другими словами, система из 6 канальной превращается в 4 канальную. Соответственно уменьшается пропускная способность и суммарная производительность.

6 и 12 слотов памяти прекрасно соотносятся с 6 канальными контроллерами памяти. Здесь все просто – для достижения максимальной скорости ПСП используем 6 или 12 модулей.

LGA 1200

Для Comet Lake-S LGA 1200 нужно использовать DDR4 память с и без ECC частотой до 2933 МГц. Существует 2 типа плат: с 2 разъемами и с 4 разъемами DIMM (SO-DIMM). Для 2 разъемов используйте парные модули, чтобы задействовать оба канала. Для 4 разъемов устанавливайте память парами (2х DIMM в 2 канала или 4х DIMM в 2 канала). В зависимости от версии процессора используйте максимально разрешенную частоту для достижения максимальной производительности подсистемы памяти.

LGA 4189 (v2)

Наиболее производительные платформы от Intel. Оговоримся сразу, Socket LGA 4189 и LGA 4189v2 не совместимы между собой. «Свежайшие» Ice Lake-SP появились совсем недавно и поддерживают память с частотой 3200 МГц. Фактическое размещение модулей может быть разным, как и конфигурации DIMM на материнских платах. В таблице нет ошибки с наименованиями. Intel действительно выпустила 2 поколения процессоров под разные сокеты с похожими названиями:
ark.intel.com/content/www/us/en/ark/products/codename/189143/cooper-lake.html#@Server
ark.intel.com/content/www/us/en/ark/products/codename/74979/ice-lake.html#@Server

Мало того, даже названия самих процессоров слишком похожи. Добавляет путаницы общее принадлежность CPU к «3rd Generation Intel Xeon Scalable Processors». В любом случае разбирать конфигурацию памяти лучше раздельно, из-за различий в количестве поддерживаемых каналов. Первая ревизия LGA 3647 оснащена контроллером памяти с 6 каналами. На рынке присутствуют платы со слотами кратными 3, и 6, где память подключается логично. Но встречаются модели с меньшим числом слотов DIMM. 4х DIMM вариант просто не задействует 2 из 6 каналов, а 8-ми модульные системы разделяют А и D канал на 2 банка (А1+А2, D1+D2). Выбор частот совместимых модулей велик – от 2666 до 3200 МГц.

Процессоры Ice Lake-SP поддерживают 8 каналов памяти, значит устанавливаются модули кратно 4 и 8. Конечно сейчас появятся в продаже материнские платы с конфигурацией DIMM 2+2 слота (это минус 4 канала памяти), ли с разделяемыми каналами на банки.

Тонкости подбора модулей в различных конфигурациях

Начиная с конца 2019 года производители микросхем постепенно начали переходить на нормы тех. процесса менее 20 нм. Это позволило удвоить объем памяти на модуле. К сожалению не все процессоры Intel способны работать с новыми планками. При выборе памяти для старых платформ убедитесь, что материнская плата получила обновление BIOS в котором заявлена совместимость с 16 Гбит микросхемами.

Список новых 16 Гбит модулей Kingston:

  • 8GB Unbuffered DIMM / SODIMM (1Rx16)
  • 16GB Unbuffered DIMM / SODIMM (1Rx8)
  • 32GB Unbuffered DIMM / SODIMM (2Rx8)
  • 16GB ECC Unbuffered DIMM / SODIMM (1Rx8)
  • 32GB ECC Unbuffered DIMM / SODIMM (2Rx8)
  • 16GB ECC Registered DIMM (1Rx8)
  • 32GB ECC Registered DIMM (2Rx8)
  • 32GB ECC Registered DIMM (1Rx4)
  • 64GB ECC Registered DIMM (2Rx4)

Простое правило наращивания частоты никто не отменял. Чем больше использованных каналов и выше частота памяти, тем выше производительность сервера. В конфигурациях, где материнская плата не реализует часть каналов скорость работы с памятью существенно ниже.

Пример установки 384Гб памяти в плату тремя различными способами. В первых двух неправильно заполненные каналы приводят к двукратному снижению ПСП. Оптимальный режим – это установка высокочастотной памяти по 1 планке в каждый канал без использования второго банка. Причем о ранговости обязательно нужно помнить!

2-ранговая память всегда будет быстрее 1-ранговой. Однако учтите, что не все системы могут работать с 2-ранговой памятью, установленной во все слоты памяти. Не стоит использовать 2-ранговуе модули в разделенных канала. И тем более смешивать их с 1-ранговыми.

Платы с разделенными каналами позволяют покупать сервера в минимальной комплектации экономя средства на начальном этапе. Дальнейший апгрейд подсистемы памяти часто происходит с ошибками. Практически любая материнская плата позволяет работать с 1 модулем, но в дальнейшем добавление модулей строго регламентируется производителем. Конечно идеальный вариант – это доустановка аналогичных планок, чтобы задействовать все каналы. Но стоимость комплектующих зачастую неподъемна. Поэтому, выбирая начальную конфигурацию с памятью, которая использует 1 банк из канала учитывайте особенности апгрейда. Деление каналов позволяет суммарно установить больше памяти в ущерб производительности.

Вернемся к конечному подбору модулей памяти. Быстрый и эффективный способ – выяснить причастность процессора/ов к определенному семейству. Для этого используйте сайт ark.intel.com. После определения посетите страницу сервера или материнской платы. Запишите название, и продолжите подбор на сайте в разделе «Manufacturer Qualification». Далее по названию вашей материнской платы «Motherboard» найдите подходящие модули памяти. Если в сервере уже установлено какое-то количество планок, то через сторонние утилиты или открыв сервер и найдя память запишите и выясните конфигурацию модуля. Вам важно понять ранговость, частоту, наличие ECC и т.п. А далее можно смело переходить на страницу выбора памяти с фиксированным BOM.

FAQ по серверной памяти

По умолчанию вся серверная память «де-факто» имеет поддержку ECC. Другое дело остальные характеристики. Их значения не всегда правильно трактуются.

UDIMM — обычная память для настольных компьютеров. У такой памяти в маркировке присутствует буква U (Unbuffered). Почему мы включаем такую память в обзор? Многие серверные 1-процессорные платы поддерживают помимо процессоров Xeon десктопные CPU. В них нет совместимости с ECC, поэтому допускается установка UDIMM в такие системы со всеми вытекающими последствиями.

ECC — любая память может быть с ЕСС и без. В сервера устанавливается только с ECC. Большинство ошибок при работе памяти удается исправить во время работы, даже если они появляются, не теряя данные.

Registered DIMM (FBDIMM) — регистровая память с коррекцией ошибок (ECC). Позволяет масштабировать емкость используемых рангов без появления ошибок и перегрузки контроллера памяти в процессоре. Установленная микросхема берет на себя управление адресами.

LRDIMM — эволюционное развитие Registered DIMM (FBDIMM). На такие модули ставят вспомогательный контроллер. Он управляет как адресами, так и питанием модуля. Дополнительный бонус – создание памяти глубиной до 4 рангов и более высокая частота работы в сравнении с Registered DIMM. В результате LRDIMM обладает массой положительных свойств за исключением цены.

Видимый эффект от применения LRDIMM в сравнении с Registered DIMM.

Неочевидные характеристики

Частота и тайминги: покупать память с частотой выше поддерживаемой вашим сервером не приведет к росту пропускной способности. Это 100% аксиома, потому что редкий случай, когда материнская плата позволяет менять частоту. Классический вариант – поддерживаемая частота считывается из SPD микросхемы и выбирается поддерживаемая процессором.

Ранги памяти: 1R,2R и 4R.

Модули памяти могут быть одно, двух, четырех или даже восьмиранговыми. Самые распространенные – это 1-2 ранговые модули, которые не накладывают множество ограничений в отличие от 4-8 ранговых. Производители материнских плат в инструкциях подробно расписывают поддерживаемые конфигурации пулов памяти при различной ранговости памяти. Часть оборудования позволяет устанавливать разноранговые модули, но не во все разъемы.

Чип RCD: Rambus или IDT.

Register Clock Driver (RCD) – микросхема управления, устанавливаемая на модули. Есть 2 крупных производителя (Rambus и IDT). Нет никаких ограничений в выборе того или иного производителя. Используется в паре с буферами и температурными сенсорами.

Схема подбора памяти

Выводы

  • Знать тип и конфигурацию установленной или устанавливаемой в будущем памяти;
  • Стараться использовать все каналы памяти;
  • Не допускать установку памяти с различными рангами;
  • Использовать максимальную частоту памяти (зависит от CPU);
  • Выбирать однотипную память (RDimm, LRDIMM) для всей платформы;
  • Стараться не использовать разделенные каналы.

В конфигураторе Kingston для покупателей создан удобный интерфейс, помогающий выбрать тип, объем и характеристики памяти.

→ В разделе «Manufacturer Qualification» выбирается память по производителю системной платы:
выбрать

→ В разделе памяти с фиксированным BOM подбирается память исходя из требуемых характеристик: подобрать

Для получения дополнительной информации о продуктах Kingston обращайтесь на официальный сайт компании.

Источник

Оцените статью