Гигаватты и тераватты для дата-центров даст Солнце
Искусственный интеллект (ИИ) — это технология, которая может кардинально изменить наш мир, открывая новые горизонты в науке и помогая решать самые сложные задачи, с которыми сталкивается человечество. Теперь перед нами стоит вопрос: где найти наилучшие пути для полного раскрытия его потенциала.
Солнце – основной источник энергии в нашей Солнечной системе. Его мощность в 100 триллионов раз превышает общее производство электроэнергии человечеством. На правильной орбите солнечная панель может быть в 8 раз производительнее земной и производить электроэнергию практически непрерывно, снижая потребность в батареях. В будущем космос может стать лучшим местом для масштабирования вычислений в области ИИ. Новый исследовательский проект «Ловец солнца» (Project Suncatcher) предполагает создание компактных созвездий спутников на солнечных батареях, соединённых оптическими линиями связи в свободном пространстве. Такой подход обладает огромным потенциалом масштабирования, а также минимизирует воздействие на земные ресурсы.
Создатели проекта обещают нам прогресс в решении фундаментальных задач, включая высокоскоростную связь между спутниками, орбитальную динамику и влияние радиации на вычисления. Сосредоточившись на модульной конструкции небольших взаимосвязанных спутников, таким образом закладывается основа для высокомасштабируемой будущей космической инфраструктуры ИИ.
Предлагаемая система представляет собой созвездие спутников, объединённых в сеть, вероятно, работающих на низкой околоземной орбите, где они будут практически постоянно находиться под воздействием солнечного света. Такой выбор орбиты позволяет максимально эффективно собирать солнечную энергию и снизить потребность в тяжёлых бортовых аккумуляторах. Для обеспечения жизнеспособности этой системы необходимо преодолеть ряд технических препятствий:
1. Обеспечение межспутниковых связей масштаба центра обработки данных
Крупномасштабные задачи машинного обучения требуют распределения задач между многочисленными ускорителями с высокоскоростными соединениями и малой задержкой. Для обеспечения производительности, сопоставимой с наземными центрами обработки данных, необходимы каналы связи между спутниками, поддерживающие десятки терабит в секунду. Анализ показывает, что это должно быть возможно с помощью многоканальных трансиверов с плотным мультиплексированием по длине волны (DWDM) и пространственного мультиплексирования.
Однако для достижения такой пропускной способности требуются уровни мощности принимаемого сигнала в тысячи раз выше, чем типичные для традиционных систем дальнего радиуса действия. Поскольку мощность принимаемого сигнала обратно пропорциональна квадрату расстояния, можно решить эту проблему, разместив спутники очень плотно друг к другу (километры или меньше), тем самым закрывая бюджет линии связи (т.е. учитывающий сквозные потери мощности сигнала в системе связи). Команда уже начала проверку этого подхода с помощью стендового демонстратора, который достиг скорости передачи 800 Гбит/с в каждом направлении (1,6 Тбит/с в общей сложности) с использованием одной пары приёмопередатчиков.
2. Управление крупными, плотно сгруппированными группировками спутников
Для обеспечения высокоскоростных межспутниковых каналов связи спутники должны летать в гораздо более компактном составе, чем любая существующая система. Были разработаны численные и аналитические физические модели для анализа орбитальной динамики такой группировки.
Модели показывают, что при размещении спутников на расстоянии всего в сотни метров друг от друга нам, скорее всего, потребуются лишь незначительные маневры по поддержанию стационарной позиции для сохранения стабильных созвездий в пределах желаемой солнечно-синхронной орбиты.
3. Радиационностойкость ТПУ
Чтобы ускорители ML были эффективны в космосе, они должны выдерживать условия низкой околоземной орбиты. Был испытан Trillium, облачный TPU v6e от Google, в пучке протонов с энергией 67 МэВ, чтобы проверить воздействие полной ионизирующей дозы (TID) и эффектов единичного события (SEE).
Результаты оказались многообещающими. Хотя подсистемы высокоскоростной памяти (HBM) оказались наиболее чувствительными компонентами, они начали демонстрировать сбои только после кумулятивной дозы 2 крад(Si) — почти в три раза превышающей ожидаемую (в экранированном состоянии) дозу 750 рад(Si) за пять лет миссии. Серьёзных отказов, связанных с TID, не наблюдалось вплоть до максимальной испытанной дозы 15 крад(Si) на один кристалл, что свидетельствует о том, что TPU Trillium вполне устойчивы к радиации для космических применений.
4. Экономическая целесообразность и стоимость запуска
Исторически высокие затраты на запуск были основным препятствием для крупномасштабных космических систем. Однако анализ исторических и прогнозируемых данных о ценах на запуск показывает, что при условии постоянного обучения цены могут снизиться до менее чем $200 долларов США за кг к середине 2030-х годов . При таком уровне затрат стоимость запуска и эксплуатации космического центра обработки данных может стать примерно сопоставимой с заявленными затратами на электроэнергию эквивалентного наземного центра обработки данных в расчете на киловатт-час в год.
Предварительный анализ показывает, что основные концепции космических МО-вычислений не ограничены фундаментальными физическими законами или непреодолимыми экономическими барьерами. Однако сохраняются значительные инженерные проблемы, такие как управление температурным режимом, обеспечение высокоскоростной наземной связи и обеспечение надежности орбитальных систем.
В конечном итоге, группировки гигаваттного масштаба могут выиграть от более радикальной конструкции спутников; она может сочетать в себе новые вычислительные архитектуры, более подходящие для космической среды, с механической конструкцией, в которой сбор солнечной энергии, вычисления и управление температурой тесно интегрированы. Подобно тому, как развитие сложных систем на кристалле было стимулировано и стало возможным благодаря современным смартфонам, масштабирование и интеграция расширят возможности космоса.
Как пишет издание Rutab.net, Илон Маск заявил, что в течение ближайших четырёх-пяти лет размещение центров обработки данных для ИИ на орбите может стать самым экономичным вариантом. По его словам, это связано с доступностью «бесплатной» солнечной энергии и простотой охлаждения в космосе. Маск подчеркнул, что по мере роста вычислительных кластеров потребности в электропитании и охлаждении становятся настолько велики, что наземная инфраструктура не справляется. Он отметил, что для обеспечения непрерывной мощности в 200–300 ГВт потребовались бы гигантские электростанции, тогда как вся энергосистема США вырабатывает около 490 ГВт. «Думаю, что даже в течение четырех-пяти лет самым дешевым способом выполнения вычислений для ИИ станут спутники на солнечной энергии», — сказал Маск.
Глава Nvidia Дженсен Хуанг согласен с вызовами, стоящими перед гигаваттными и тераваттными дата-центрами, но называет космические центры обработки данных «мечтой». Он отметил, что в современных стойках Nvidia GB300 массой 2 тонны около 1,95 тонны — это система охлаждения. Хотя космос предлагает преимущества, такие как низкие температуры (до -270 °C в тени) и постоянный доступ к солнечной энергии, существуют серьёзные препятствия: экстремальные перепады температур, радиация, сложности с запуском и обслуживанием. Для отвода тепла от мощных кластеров ИИ потребуются радиаторы площадью в десятки тысяч квадратных метров, а запуск такого оборудования потребует тысяч полётов кораблей класса Starship. «Так что это мечта», — прокомментировал Хуанг. Высокопроизводительные ускорители ИИ, такие как Blackwell, также потребуют защиты от радиации, что снизит их производительность. Все эти факторы делают реализацию космических дата-центров для ИИ маловероятной в ближайшие годы.
Подписывайтесь на журнал «Вестник ГЛОНАСС» и навигационный Telegram-канал
По материалам открытых источников
