Как используют машинное обучение для создания ракетного двигателя?

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Машинное обучение (Machine Learning, ML) оказало существенное влияние на различные отрасли промышленности, взаимодействующие с многочисленными приложениями. Достижения в области исследований и разработок в машинном обучении развиваются очень быстро, потому что применение этой технологии – ключевой компонент успеха компаний в индустрии высоких технологий.

Эдвард Мер – экс-сотрудник SpaceX, Google, Microsoft, ныне сотрудник компании Relativity, которая разрабатывает ракетные двигатели. Эдвард – инженер по программному обеспечению и управлению, он разрабатывал систему управления и программное обеспечение для гигантского 3D-принтера с применением методов машинного обучения для создания компонентов ракетного двигателя. Автор работал в команде с инженером по машинному обучению Ниной Лопатиной, инженером по имитационному моделированию Саидом Джахангирианом и инженером по ракетным двигателям Джорданом Нуном над повышением эффективности производства ракетных двигателей.

Принтер, над которым работала команда, представляет собой сварочный аппарат, прикрепленный к манипулятору. Робот отслеживает процесс изготовления детали слой за слоем, в то время как свариваются новые слои и наращивается деталь. Программное обеспечение управляет подачей тепла, скоростью подачи проволоки, скоростью перемещения и другими параметрами, чтобы деталь была изготовлена в соответствии со спецификацией.

Спецификация включает в себя как качество конечной детали, например, количество и размер дефектов, так и размеры детали, такие как ширина и высота каждого слоя. Если всё работает хорошо, результат будет соответствовать спецификации. Но если алгоритм управления работает неправильно, деталь деформируется, ломается и рвется, имеет много трещин и пор.

Разработка системы управления состоит из трех этапов:

1) Разработка микроконтроллера. Цель – понять физику, которая управляет процессом. Для создания управляющего ПО без проведения дорогостоящих и длительных физических испытаний используется виртуальная имитация процессов.

2) Разработка программного обеспечения. На этом этапе применяются различные методы моделирования для определения взаимосвязей между входными и выходными данными. Инженеры разбивают проблему на более мелкие части и разрабатывают собственную модель для каждой из них. Затем модели задействуют для создания программного обеспечения, которое может контролировать процесс изготовления.

3) Калибровка управления. После того, как ПО успешно проходит тестирование, инженеры тратят месяцы на его настройку в физической системе, чтобы учесть различия между симуляцией и реальностью.

Каждая фаза может занимать от нескольких недель до нескольких лет и, по большей части, состоит из настройки процесса или отладки управляющего ПО. Сложность заключается в проблеме оптимизации, которая решается лишь множеством тестирований.

Более разумный способ — разбить систему на подкомпоненты, которые легче смоделировать, а затем использовать прямые и поэтапно-вычислительные методы, чтобы найти оптимальный способ управления печатью. Такой подход требует инженерной изобретательности и большого количества тестирований для оптимизации взаимодействия между компонентами. В поиске автоматизированных способов решения этой проблемы разработчики применили машинное обучение с подкреплением для разработки системы управления производством.

Обучение с подкреплением (Reinforcement Learning, RL) – разновидность машинного обучения, в котором цель – максимизировать функцию вознаграждения. RL – автоматизированный процесс обучения алгоритма управления для агента в среде. Агент взаимодействует со средой и может манипулировать ею с помощью исполнительных механизмов. Среда реагирует на действия, которые выполняет агент, это переводит агент и среду в новое состояние, после чего по состоянию определяется функция вознаграждения. Цель состоит в том, чтобы достичь таких действий, при которых сумма вознаграждений в будущем увеличится.

Например, игру Тетрис можно считать средой, а игрока игры – агентом. Действия – это то, что игрок может делать, например, вращение фигур. Эти действия изменяют состояние игры, которое можно определить как все пиксели на мониторе в каждый момент времени. Мы можем определить функцию вознаграждения как +1 за каждый ряд, который игрок очищает, и -100 за проигрыш. Цель RL будет в том, чтобы достичь функции, которая отображает состояния на действия таким образом, чтобы максимизировать общее вознаграждение.

Подобным образом разработка управления печатью 3D-принтера может быть сформулирована как задача RL. Предпринимаемые действия — это изменение интенсивности нагрева, скорости работы, скорости подачи проволоки и т. д. Эти действия изменяют геометрию и качество детали, которое называют «состоянием печати». Функция вознаграждения может быть определена так, что она показывает, насколько близок результат к его спецификации. Цель – достичь функции, которая сообщает принтеру, как управлять приводами, учитывая текущее состояние печати, для получения наилучшего результата.

Для регулирования печати компонентов ракетного двигателя команда реализовала упрощенную модель гидродинамики, встречающейся в ракетных двигателях или газовых турбинах. Разработка алгоритмов для такой системы может занять до 3 месяцев проектирования, тестирования и проверки. В этой комплексной проблеме управления, для решения которой требуются изобретательность и время, было продемонстрировано преимущество использования RL для высвобождения времени инженеров.

Также традиционные процедуры опасны, даже небольшие ошибки могут нанести значительный вред дорогостоящему оборудованию и, что более важно, техническим специалистам, проводящим испытания. Полученное решение способно сэкономить тысячи долларов и сократить до трех месяцев ручного тестирования на дорогостоящем испытательном оборудовании.

Команда продемонстрировала, что алгоритмы обучения с подкреплением способны создавать политику управления так же хорошо, как инженеры и сэкономить многие месяцы, тратящиеся на испытания и калибровку системы.

Перевод Black Sahara


Источник: blog.insightdatascience.com

Комментарии: