День 149. Неделя

Последняя неделя выдалась героической.

Постараюсь кратко описать происходящие события, не вдаваясь в детали и не раскрывая коммерческих тайн.

Началось все с того, что в прошлые выходные с нами произошел outage — период, в течение которого наш сервис был недоступен. Эти 30 минут, в течение которых пользователи не смогли зайти в систему, получить доступ к оплаченному ресурсу, насладиться захватывающими спортивными трансляциями на канале NBC Sports, стоили нам репутации и почти миллиона долларов.

Как поступить в этом случае (потерять ли клиента или возместить им убытки) решало руководство — ну очевидно, что мы должны были сделать все возможное для того, чтобы подобная ситуация не повторилась и, кроме того, каким-то образом возместить потери (в виде бесплатного использования на будущие периоды или еще как)

Наш CTO (технический директор) приказал бросить все силы на исправление ситуации — на улучшение производительности системы и затык слабых мест.

Оказалось, что имеющихся ресурсов не так уже много: в наличии оказалось 17 backend engineers, из которых двое крутых чуваков были в отпуске, один — совсем начинающий и зеленый.

Осталось 14 работоспособных ребят, которые в течение последней неделей не делали никаких новых фич, а только задачи, касающиеся performance. К слову, созданный epic содержит 47 задач (из которых почти все уже закрыты и зарелизины).

Мы сидели вечерами, иногда до полуночи. Наш head делал все для того, что пребывание на работе ипереработки были максимально комфортными: 

Заказывали еду в офис (за счет компании): шашлыки, бургеры, роллы. Даже открыли массажный кабинет. Почти как в Google)

Поставили монитор с обратным отсчетом:

На фотке виден одиноко сидящий фронтендер, поскольку все остальные в режиме мозгового штурма работают в переговорке.

К слову, некоторым приходилось оставаться до 5 утра, но это оценивалось:

Все понимали, что мы оказались в очень тяжелой ситуации и даже, если сделаем все возможное, это может не гарантировать успеха.

В процессе анализа выяснилось, что большая часть нагрузки создается хакерами, которыми пытаются нас положить и тупо долбят по всем адресам и методам. С этим тоже пришлось бороться и придумывать хитрые штуки. 

Ребята молодцы — за неделю отрефакторили кучу кода, написанного много лет назад и улучшили производительность в разы.

На графике фиолетовый — нагрузка неделю назад (когда наши 40 серверов не выдержали), голубым — нынешняя: 

Это не первый наш вызов. И не последний. Мы выиграли локальное сражение, но впереди — длительная и изматывающая война. За репутацию. За клиентов. За рынок.

Единственное, в чем мы уверены — что подобные недели сплочают нас. И мы становимся командой

Обсудить у себя 0
Комментарии (0)
Чтобы комментировать надо зарегистрироваться или если вы уже регистрировались войти в свой аккаунт.

Войти через социальные сети:

Сахаров Денис
Сахаров Денис
сейчас на сайте
Читателей: 21 Опыт: 769.052 Карма: 6.74063
все 22 Мои друзья