Классическая ситуация, когда компания выросла и условные 1-2 человека перестали справляться с наплывом тикетов из-за обилия тикетов от клиентов, нагородили себе 2х или 3х уровневую службу поддержки, где:
1 уровень — некомпетентые сотрудники, менеджеры, которые максимум могут что-то ответить шаблоном или ИИ
2 уровень — средний сотрудник тех.поддержки, наверняка ранее долго работающий и имеющий опыт по обширному числу вопросов их продуктов
3 уровень — дежурные инженеры, системные инженеры, администраторы, замистители руководителей, у которых максимальные права доступа и максимальный опыт по всем вопросам в компании
И в 99% тикетов дальше 1 уровня вы не попадёте, даже если будете сильно просить помощи. 2 или 3 уровень к вам в тикеты зайдёт только если там действительно нужно что-то где-то пойти на условном оборудовании настроить или где-то что-то изменить в системе, где нужны права доступа и т.д.
Этот график из Zabbix тебе дают те, кто сдают тебе стойку и электричество в М9? Или ты сам собираешь по SNMP данные по напряжению с автоматического ввода резерва? Просто у модели APC AP7723 есть веб-интерфейс достаточный простой, там можно посмотреть логи если действительно было превышение по мощности, в логах будет написано дата и время да и в целом в веб-интерфейсе видно будет текущая нагрузка в амперах и текущая мощность в ватах.
Есть ещё особенность современных мат.плат, так как по умолчанию там EFI загрузчик, а не Legacy BIOS, например ты ранее выставил загрузку по сети, чтобы установить ОС по сети из панели или через netboot.xyz iso образ, а после установки ОС у тебя по умолчанию первым в приоритете загрузчика станет твоя установленная ОС и в следующий раз PXE / iPXE загрузка по сети уже даже не начнётся, так как в приоритете загрузчика EFI будет ранее установленная ОС.
Сетевой архитектор — тот, кто разработает и создаст будущую сетевую архитектуру проекта на 10-20 лет вперёд, исходя из задач, нарисует и подготовит схему будущей сети, подберет сетевое оборудование для данной задачи, если у него ещё есть и бизнес контакты различных вендоров, возможно выбьет хорошие цены для закупки оборудования.
Сетевой инженер — тот, кто уже будет работать по этому проекту с сетевым оборудованием по ранее созданной схеме, его подключением, пуско-наладкой, тестированием и введением в продакт среду, а так же поддежкой и мониторингом работы этой самой сети после её внедрения в прод.
Забавно, у меня в домашнем ПК такая же мат.плата. У неё в BIOS очень удобный AI разгон сделали MSI, 1 кнопку нажимаешь и всё. Не нужно, как раньше, лезть там крутить какие-то множители, гнать шину, вольтажи и прочее. Но селектел наверняка паролит BIOS даже у арендуемых desktop серверов.
Так и есть, в мск у ртк, мгтс, мастертел (марафон) уже давно всё везде проложено. Берёшь просто из любого ЦОДа в мск или мск области заказываешь аренду тёмного волокна до м9 какого-нибудь интернет поставщика, кто даст тебе выгодную цену за 100G или 400G IP-транзита и всё.
Подписываюсь под комментарием выше. Всё так. По сути, хостеры, которые платят за VMmanager 6, платно участвуют бета-тестировании сырого продукта вот уже 3+ года. То есть они тестируют «продукт» и ещё и платят за это оверпрайс :)
А в качестве альтернативы, как более стабильное решение, можно рассмотреть SolusVM, работает куда стабильнее, само по себе ничего не ломается, обновления для прода там явно тестируют, потому что обновление в ручную или авто-обновление ни разу ничего не ломало. А ещё самое забавное, что пока в VMmanager 5 старрой версии ничего не трогают своими обновлениями, та тоже всё стабильно и ничего не ломается много лет :)
А в каком ЦОДе ты брал этот сервер у них? В питере или в мск? Интереса ради попробовал бы дефолтные зеркала deb.debian.org заменить на какие-нибудь от mirror.selectel.ru или mirror.corbina.net или mirror.yandex.ru
Хех, повезло тебе просто с конкретным железом, которые они собирают и которое в конкретно твоём сценарии виснет. Это ты ещё об Proxmox зубы не ломал видимо, когда на определенных NVME и в определенной версии ветки Proxmox, невозможно собрать RAID, потому что он их просто не видит через pcie переходники. А на определенных сетевых картах intel и вовсе зависание сети в случайне пару часов, пару дней. Вот где тоже веселье и никакая замена железа на тоже самое не спасёт без танцев с бубном :)
До сих пор не понимаю почему ты не проверишь тему с отключением всех энергосберегаек nvme/pcie хотя бы на уровне ядра ОС, раз BIOS не дают из-за того что desktop без ipmi/ilo или хотя бы RAID-1. Наверное проще переписываться с саппортом и ждать, что замена на тоже самое как-то поможет.
То есть, кто-то когда-то заплатил за установочный платёж, потом отказался спустя время от этого сервера и так как сервер никто не берёт в аренду ещё раз, начали отменять эти самые платежи за установку. По сути, побор доп.денег за новое железо, по факту, очередное сдиралово денег, чтобы не включать эту сумму в стоимость аренды на весь срок. Иначе бы ты условно платил не просто 100 евро за аренду, а 100 евро за аренду + 100 за установку и так каждый месяц под 200.
Установочный платёж был по сути побором за то, что сотрудник хостера/дата-центра пошёл на склад, взял из коробки абсолютно новый сервер, установил в него диски и ещё что-то по мелочи, пошёл смонтировал его в стойку и подключил к сети. Когда стойки ЦОДов заполнились уже на 80-90% железом спустя 5-10 летних циклов устаревания железа, такие серверы уже давно стоят и смонтированы в стойку и никому не нужны, поэтому установочные платежи всё больше и больше уходили в небытие, а не на самые новые серверы делались и будут делаться всегда скидки, лишь бы ещё их сбагрить лет на 5 в аренду хоть за какие-то копейки, ибо их утилизация дороже (если по закону). Именно поэтому если это был сервер с платежом за установку сервера то ты не получал его не мгновенно, а мог ждать несколько часов или сутки. Потому что требовалось человеческое время пока его распакуют и пойдут установят в стойку.
Так цель облаков изначально доить лохов якобы своим удобством и кучей готовых решений/технологий/масштабирования/резервирования и прочим.
Был бы спрос, а лох предложение всегда найдётся.
Здесь писал — hosting.show/alice2k-hosting/prosto-ruletka-50-50-kakoy-popadetsya.html#comment3689
Вообще, то что где-то без RAID или RAID-0 (считай тоже без зеркала) не зависает, а где-то зависает, скорее всего дело не в браке, а в разном железе (мат.платы и накопители разные модели) и в разных настройках BIOS. Zen5 очень новый процессор и для него даже ядро в AlmaLinux9 может быть старым в итоге часть технологий может не корректно работать (те же энергосберегайки pci-e). Как я ранее и писал, тоже с подобной проблемой сталкивался, но ещё во времена centos 7-8 даже на Xeon, там помогало обновление ядра на более свежее ну и в идеале отключение всех энергосбережающих настроек для nvme/pci-e, как в BIOS так и в grub конфиге ОС.
Это с RAID-1 из 2х накопителей или снова без зеркалирования? Ты пробовал делать, то, что я писал тебе ранее про энергосберегайку NVME? Скорее всего саппорт селектела не сможет воспроизвести зависание. Они запустят какой-нибудь systemrescuecd, запустят там стресс-тест, увидят, что сервер не завис под нагрузкой за пару дней и ответят, что проблем не найдено.
У mirrors.almalinux.org сверкает IP от amazonaws.com, может у них просто у аплинков (их провайдеров) на ТСПУ блокируется трафик к амазон серверам? Потому что много подсетей амазон в бане РКН. Я проверил с селектеловского сервера в питере curl и трейс, вот что получилось:
root@slct:~# traceroute mirrors.almalinux.org
traceroute to mirrors.almalinux.org (52.5.93.61), 30 hops max, 60 byte packets
1 92.53.71.241 (92.53.71.241) 0.825 ms 0.840 ms 0.833 ms
2 92.53.93.89 (92.53.93.89) 1.131 ms 30.475 ms 0.907 ms
3 92.53.93.183 (92.53.93.183) 1.273 ms 1.265 ms 1.242 ms
4 * * *
5 fedor-cr05-eth-trunk20764.spb.mts-internet.net (212.188.45.126) 2.145 ms 2.130 ms 2.122 ms
6 fedor-cr04-eth-trunk3.spb.mts-internet.net (195.34.53.134) 11.503 ms 24.256 ms 11.761 ms
7 kivi-cr02-ae81.0.hel.mts-internet.net (195.34.50.147) 20.844 ms 20.140 ms 20.125 ms
8 radio-cr01-ae2.135.hel.mts-internet.net (212.188.29.18) 18.030 ms 17.875 ms 18.005 ms
9 * * *
10 * * *
11 * * *
12 * * *
13 * * *
14 * * *
15 * * *
16 * * *
17 * * *
18 * * *
19 * * *
20 * * *
21 * * *
22 * * *
23 * * *
24 * * *
25 * * *
26 * * *
27 * * *
28 * * *
29 * * *
30 * * *
И то что они советуют IP на сервер взять из другой подсети, может означать, что например некоторые подсети они анонсируют по BGP через одних аплинков, у которых это ТСПУ криво банит амазон, а часть подсетей анонсировано через другого аплинка, у которого например ТСПУ не кривое или вовсе отсутствует и поэтому коннект нормально проходит до зеркала.
Если это блок на стороне ТСПУ и IP в реестре Роскомнадзора нет, ты можешь и сам написать в ЦМУ ССОП portal.noc.gov.ru на email incident(я-собака-ты-соабка)cert.gov.ru описать ситуацию и попросить проверить не в бане ли IP. Просто могло быть например так, что раньше на этом IP, который тебе выдали, был какой-нибудь старый 1C-Bitrix, который могли взломать и залить какую-нибудь UA пропаганду. Обычно после этого банят домен/ip по 80 и 443 порту до момента пока не напишешь в ЦМУ ССОП.
У AlmaLinux есть прикол, что из РФ часто первым типо быстрым репозиторием считается какое-то рандомное зеркало от хостера mirror.hyperdedic.ru, но оно у них какое-то дико кривое в плане лимитов и постоянно тормозит и выдаёт ошибки Status code: 429. Возможно этой твой случай. Просто любой человек может зеркало делать для AlmaLinux — github.com/AlmaLinux/mirrors/blob/master/mirrors.d/mirror.hyperdedic.ru.yml
Но не каждый может поддерживать его в нормальном рабочем виде, чтобы другие из-за этого не страдали.
Из плюсов — ECC RAM, меньше шансов на зависание из-за планок. Встроенный BMC контроллер (можно делать удалённый ipmi доступ) если сервер зависнет, самому удалённо его выключать/включать/смотреть консоль.
Объяснение простое. У них для новых серверов по умолчанию выдаётся на каждый сервер только 1 IP из их VxLAN (технология EVPN), а не VLAN legacy (как было раньше, когда они тебе выдавали /29 на 5 серверов). Поэтому даже когда ты выбираешь выделенный VLAN — это у них инфа чисто в панели фиксируется, но в сетевом оборудовании никак не меняется. Именно поэтоу ты создаёшь тикет и пишешь, что сеть не работает и они тебе на порту коммутатора переключают с VXLAN на обычный VLAN номер, где уже закреплены твои подсети или те подсети, что арендуешь у них.
1 уровень — некомпетентые сотрудники, менеджеры, которые максимум могут что-то ответить шаблоном или ИИ
2 уровень — средний сотрудник тех.поддержки, наверняка ранее долго работающий и имеющий опыт по обширному числу вопросов их продуктов
3 уровень — дежурные инженеры, системные инженеры, администраторы, замистители руководителей, у которых максимальные права доступа и максимальный опыт по всем вопросам в компании
И в 99% тикетов дальше 1 уровня вы не попадёте, даже если будете сильно просить помощи. 2 или 3 уровень к вам в тикеты зайдёт только если там действительно нужно что-то где-то пойти на условном оборудовании настроить или где-то что-то изменить в системе, где нужны права доступа и т.д.
Сетевой инженер — тот, кто уже будет работать по этому проекту с сетевым оборудованием по ранее созданной схеме, его подключением, пуско-наладкой, тестированием и введением в продакт среду, а так же поддежкой и мониторингом работы этой самой сети после её внедрения в прод.
А в качестве альтернативы, как более стабильное решение, можно рассмотреть SolusVM, работает куда стабильнее, само по себе ничего не ломается, обновления для прода там явно тестируют, потому что обновление в ручную или авто-обновление ни разу ничего не ломало. А ещё самое забавное, что пока в VMmanager 5 старрой версии ничего не трогают своими обновлениями, та тоже всё стабильно и ничего не ломается много лет :)
Был бы спрос, а
лохпредложение всегда найдётся.Вообще, то что где-то без RAID или RAID-0 (считай тоже без зеркала) не зависает, а где-то зависает, скорее всего дело не в браке, а в разном железе (мат.платы и накопители разные модели) и в разных настройках BIOS. Zen5 очень новый процессор и для него даже ядро в AlmaLinux9 может быть старым в итоге часть технологий может не корректно работать (те же энергосберегайки pci-e). Как я ранее и писал, тоже с подобной проблемой сталкивался, но ещё во времена centos 7-8 даже на Xeon, там помогало обновление ядра на более свежее ну и в идеале отключение всех энергосбережающих настроек для nvme/pci-e, как в BIOS так и в grub конфиге ОС.
И то что они советуют IP на сервер взять из другой подсети, может означать, что например некоторые подсети они анонсируют по BGP через одних аплинков, у которых это ТСПУ криво банит амазон, а часть подсетей анонсировано через другого аплинка, у которого например ТСПУ не кривое или вовсе отсутствует и поэтому коннект нормально проходит до зеркала.
Но не каждый может поддерживать его в нормальном рабочем виде, чтобы другие из-за этого не страдали.