В процессе добавления чипов, изготовленных по передовым технологическим процессам, в автомобили, и изменения моделей их использования в дата-центрах, начинают появляться новые вопросы, связанные с их надёжностью
Надёжность становится одним из важных преимуществ для новых чипов, поступающих на такие рынки, как автомобили, облачные вычисления и промышленный «интернет вещей», но реально доказать, что чип будет долгое время работать, как надо, становится всё сложнее.
В прошлом надёжность обычно считалась проблемой фабрики по производству интегральных схем. Чипы, разработанные для компьютеров и телефонов, были задуманы так, чтобы работать на пике возможностей в среднем по два-четыре года обычного использования. После этого их функциональность начинала деградировать, и пользователи обновлялись до очередной ревизии продукта, похвалявшейся новыми возможностями, быстродействием и увеличением времени работы от батареи. Но с разработкой чипов для новых рынков, или рынков, в прошлом которых использовалась менее сложная электроника – автомобили, машинное обучение, интернет вещей, промышленный интернет вещей, виртуальная и дополненная реальность, домашняя автоматизация, облачные технологии, майнинг криптовалют – надёжность уже перестала быть простым пунктом из большого списка проверки.
Каждый из этих целевых рынков демонстрирует уникальные потребности и характеристики, определяющие то, как и при каких условиях используются чипы. А это в свою очередь серьёзно влияет на их старение, безопасность и другие факторы. Рассмотрим следующие утверждения:
Надёжность уже не измеряется просто годами. Модели использования кардинально меняются. Современный автомобиль может 90-95% времени находиться в простое, а робомобиль будет простаивать 5-10% времени. Это влияет на разработку электроники, и на основную бизнес-модель, используемую в разработке технологии.
Меняются определения того, что можно считать «функциональным» или «достаточно хорошим», поскольку передовая электроника постоянно усложняется. В прошлом треснувшую или грязную камеру дрона или робота заменяли. Но с добавлением более сложной электроники в передовые устройства влияние треснувшей линзы можно компенсировать, оставаясь в рамках функционально адекватной работы. С другой стороны, то, что было приемлемо для менее сложных систем, сейчас уже может считаться неприемлемым на основе ужесточившихся допусков системы.
Моделирование деградации и качества подвержено гораздо большему числу факторов, чем это было раньше, некоторые из которых могут даже оказаться неочевидными при разработке чипов. К примеру, известный хорошим качеством чип может вести себя по-другому, будучи совмещённым с другими чипами или устройствами на печатной плате.
Методы использования электроники изменяются. Это происходит даже в дата-центрах, которые исторически наиболее консервативны с точки зрения адаптации новых технологий и методологий.
«Старение зависит от тактовой частоты и мощности, но в прошлом сервера иногда включались для выполнения работы, а затем большую часть времени находились в режиме ожидания», — сказал Саймон Сигарс, генеральный директор ARM. «Переходя на облачные технологии, нужно менять критерии разработки, поскольку они основаны на продолжительном использовании. Это поднимает множество вопросов по поводу того, как правильно разрабатывать чип для долговременной работы».
В начале тысячелетия средняя загрузка серверов находилась на уровне 5-15%, и этот тренд сохранялся с 1990-х, поскольку IT-специалисты, опасаясь отказов оборудования, неохотно запускали более одного-двух приложений на одном сервере. Произошло два события, изменивших это положение вещей. Во-первых, начала расти стоимость энергии. Во-вторых, что более важно, компании реорганизовались так, чтобы за стоимость использованной электроэнергии отвечали IT-отделы, а не отделы по обслуживанию оборудования. Оба фактора привели к росту продаж ПО для виртуализации, увеличивающего утилизацию серверов, что привело к уменьшению количества серверов, которые необходимо было питать и охлаждать.
Облачные технологии выводят операционную эффективность на новый уровень. Их цель – максимизация нагрузки через балансировку вычислительных задач по всему дата-центру. Так можно увеличить процент нагрузки для всех серверов, а не только для серверов в одной стойке, или позволить быстро выключать те из них, что сейчас не нужны. Этот подход эффективен с точки зрения использования энергии, но серьёзно влияет на деградацию и старение электронных схем.
«Мы наблюдаем ускорение старения, до полного отказа чипа», — сказал Магди Абадир, вице-президент по маркетингу в Helic. «Они начинают пропускать такты или увеличивается джиттер. Или происходит пробой диэлектрика. И каждый раз когда что-то ломается, происходит целая лавина вещей, о которых тоже нужно позаботиться. Многие из стареющих моделей развивались в то время, когда электронику использовали от случая к случаю. А теперь чипы работают постоянно. Внутри чипа разогреваются блоки, что ускоряет старение. Из-за этого можно столкнуться с разными странными явлениями. Множество компаний так и не обновили свои стареющие модели. Они предполагали, что их устройства проживут три-четыре года, но отказ может произойти раньше. Отклонения от первоначального дизайна могут с самого начала быть небольшими, но старение их увеличивает».
Тенденция увеличения загрузки проникает и в автомобили, и будет продолжать это делать, пока полностью автономные средства передвижения не заменят водителей-людей. Робомобили обрабатывают всё больше информации, часть которой потоком идёт с таких датчиков, как радар, LIDAR и камеры. Все эти данные необходимо обрабатывать быстрее, чем раньше, и с большей точностью – а это сильно нагружает электронику.
«Минимальная надёжность ADAS [продвинутых систем помощи водителю / прим. перев.] составляет 15 лет, что гораздо больше, чем 2-5 лет для бывших модулей, — говорит Норманн Чен, главный технолог компании ANSYS. – Старение связано не просто со временем работы. Тут ещё и NBTI [negative bias temperature instability – сдвиг порогового напряжения / прим. перев.], электромиграция, которая может быть связана и с температурой, ESD [электростатический разряд] и термическое сопряжение [thermal coupling]».
Температурное моделирование для чипа и корпуса
И хотя многие поставщики автомобильных запчастей уже изготавливали чипы, выдерживающие экстремальные температуры, механическую вибрацию и различный шум, подобные нагрузки никогда не применялись к КМОП-чипам, изготовленным по передовому технологическому процессу, в течение продолжительного времени. Многие источники, связанные с промышленностью, подтверждают, что для обработки всех данных автопроизводители разрабатывают чипы по процессу 10/7 нм, чтобы их схемы не устаревали слишком быстро – ведь последние часто разрабатываются для нескольких последовательных поколений транспортных средств. Проблема состоит в отсутствии достаточного количества реальных данных, говорящих о надёжности этих устройств, работающих долгое время при воздействии окружающей среды.
«Приходится делать другой дизайн, — сказал Сегарс. – Согласно одному из представлений, в итоге нам понадобится меньше машин, поскольку они почти не будут простаивать. Но есть и другое: робомобили будут работать больше и быстрее изнашиваться. Ведь всё в итоге изнашивается. Задача в том, чтобы гарантировать, что электроника не изнашивается быстрее механики, а для этого нужно сделать другой дизайн. Учитывать всё, от более аккуратного отношения к шуму до минимизации всплесков напряжения».
Тоньше изоляция, тоньше подложки
Одна из иронических сторон увеличения надёжности состоит в том, что она противоречит пяти десятилетиям прогресса, целью которого было из соображений экономии уменьшать размеры элементов микросхемы раз в пару лет. А это обычно означает использование более тонкого диэлектрика и проводов, а также увеличение динамической мощности. И всё чаще это означает использование более тонкой подложки. Для самых передовых техпроцессов это вылилось в увеличение утечки тока, количества шума, электромиграции и других эффектов.
«С точки зрения схемы необходимо как-то справляться с отклонениями процесса [process variation], — сказал Андре Лэнг, менеджер по качеству и надёжности в Fraunhofer EAS. – Но с точки зрения разработки нужно учитывать, как система справится с известными ей дефектами. Если взять робомобили, у них есть центральный процессор, которому нужно решать, какую информацию с какого датчика использовать. Один из них может загрязниться или отказать».
Это делает моделирование деградации более сложным делом, поскольку его необходимо проводить в контексте всей системы. «Большинство частей системы вносит свой вклад в деградацию электронных схем, будь то NBTI, увеличение количества дефектов на единицу площади или отклонений процесса», — сказал Лэнг. Он отметил, что ещё одна большая проблема — определить причины возникновения дефекта без обработки всех доступных данных, ибо их объём может оказаться чрезмерным.
Пример того, что может пойти не так
Разные подходы
Отклонение процесса увеличивается с каждым новым техпроцессом. В последнее десятилетие тон задавали смартфоны (iPhone появился в 2007 году). Сегодня крупнейшими пользователями продвинутых техпроцессов служат сервера для дата-майнинга, машинного обучения, ИИ и облачных сервисов.
Связь между отклонением процесса и надёжностью подробно описана, но из-за отклонений становится сложнее точно моделировать эффекты, связанные со старением. Из-за этого появилось уже несколько различных подходов к решению этой проблемы, от сложного статистического моделирования и симуляций до расположения датчиков на чипах или внутри корпусов.
«Необходимо отслеживать рост температуры у источника тепла при помощи подхода под названием „случайный обход“, работающего одновременно локально и глобально, — сказал Ральф Иверсон, главный инженер отдела разработок и исследований в компании Synopsys. – При помощи случайного обхода напряжение получается усреднённым, поэтому дельта равна нулю».
Это помогает строить модели, но удельное сопротивление на масштабе в 5 нм и менее не всегда остаётся постоянным, утверждает Иверсон. Играют роль поверхностные эффекты, а данные не всегда представляют медный контакт, поэтому требуется больше локализованных данных. Именно в этой области начинает проявляться гибридный подход, поскольку такой уровень неопределённости сложно описать абстрактно.
«В мире автомобилей всё неплохо работает на уровне БиКМОП, но сейчас уже появляются запросы на продвинутую версию КМОП, — сказал Мик Тегетоф, директор маркетинга в компании Mentor, подразделения Siemens Business. – Мы наблюдаем повышение интереса со стороны производителей, а компании, занимающиеся автоматизацией проектирования электроники, уже симулируют старение чипов под нагрузкой. Достаточно ли этого? Любая модель – всего лишь попытка приближения реального мира. Вы занимаетесь симуляцией, делаете всё, что можно, для создания чипа, который должен проработать долго, но затем нужно вернуться к физическому тестированию и, например, помещать чипы в печь, чтобы создать физическую нагрузку. На наших глазах подобного рода тестированию подвергается всё больше электроники».
Аналог против цифры
Пока что всё моделирование устаревания концентрировалось на цифровых схемах. Аналоговые системы добавляют совершенно новую перспективу старению.
«Компании хорошо разбираются в процессе старения и отклонениях процессов чипов, расположенных где-нибудь недалеко от моторного отсека, поэтому они не продвигаются вслепую, — сказал Оливер Кинг, технический директор Moortec. – Но у аналоговых схем переменчивость гораздо выше. Цифровой чип просто перестанет работать. Аналоговый может начать работать чуть хуже, чуть менее точно, поэтому под это придётся подстраиваться. Разработчики аналоговых систем традиционно не предъявляли таких строгих требований к геометрии, как разработчики цифровых. Электромиграция всё ещё остаётся в числе проблем, как и плотность тока. Но эффекты старения проявляются не так сильно. И всё же чипы нужно разрабатывать более проактивно, учитывая состояние с ремонтом и то, надо ли предпринимать какие-то действия».
Фрэнк Ферро, старший директор управления продуктом в Rambus, соглашается с такой точкой зрения. «Главная проблема микросхем PHY – температура окружающей среды. Когда она растёт, быстродействие начинает „плыть“, поэтому требуется перекалибровка. Для пользователей существует так называемый „рождественский тест“. Это когда Playstation или другая электроника хранится в холодную погоду в гараже, а потом вы включаете её рождественским утром, и устройству необходимо мгновенно перейти от холода к рабочему режиму. То же касается систем памяти в автомобилях и базовых станциях. Старение оказывает на эти системы эффект, и их приходится перекалибровывать для устранения негативного влияния».
Ферро говорит, что PHY проходят такие же проверки, как цифровые компоненты, включая испытания на принудительный отказ, на колебания напряжения и температуры. Но PHY разработаны так, чтобы меняться из-за этих колебаний, что довольно сложно встроить в цифровые схемы – особенно на продвинутых техпроцессах, в которых отклонения влияют на мощность и быстродействие.
Аналоговые схемы часто разрабатываются на основе так называемых «циклограмм» [mission profiles]. Определённая функция робомобиля представляет собой циклограмму для интегральной схемы, разработанной специально для робомобилей.
«Одна из крупных проблем, с которой мы столкнулись – то, что эти устройства могут использоваться в разных случаях, — говорит Арт Шалденбранд, главный маркетолог в IC и PCB Group. – Устройство может отказать множеством способов. Мы подбираем различные нагрузки, рассчитанные на вывод его из строя. Температурная нестабильность может привести к отказу 10% устройств, но это наихудший сценарий. Нам нужны способы лучше выразить деградацию чипов. У finFET-транзисторов нагрузки будут отличаться от плоских, поэтому приходится моделировать различные явления».
Корпуса и другие неизвестные
С замедлением закона Мура всё больше компаний обращаются к передовому корпусированию для улучшения быстродействия и гибкости в разработке. Пока непонятно, как моделировать передовое корпусирование для определения нагрузок и старения. В частности, сложности возникают из-за очень большого количества вариантов корпусирования, из-за чего никто не знает, какой из них победит. Также на это влияет относительная новизна некоторых из этих технологий, и что происходит внутри корпусов, должно показать время.
«Слои корпусов могут находиться слишком близко к другим компонентам или к нагрузкам с другой стороны, — сказал Абадир из Helic. – Это всё нужно моделировать. И ещё до устаревания нужно моделировать старение, поскольку количество влияющих на работу факторов растёт. Поэтому расположение становится важным. Если вы начнёте передвигать компоненты по схеме, вы измените частоту резонанса. Каких-то простых правил для этого нет. Придётся анализировать всю схему, и, встретив проблему, возможно, придётся что-то подвигать».
В сложных схемах встречаются и другие аномалии, способные со временем повлиять на надёжность. Некоторые модели использования могут включать и выключать схемы чаще других, что нагружает их сильнее.
«Если что-либо слишком долго находится в режиме ожидания, оно будет стареть не так, как другие схемы, — сказал Джушан Сяи, главный архитектор ПО в Cadence. – И чем меньше устройство, тем сильнее влияние старения. Нагрузки будут выше, а старение будет проходить быстрее».
Как подходить ко всем описанным проблемам, пока не до конца понятно. Какие-то из них явно потребуют новых материалов и технологий.
«Силовая электроника переходит от кремниевых устройств к SiC и GaN, способных работать на более высоких частотах переключения, более эффективно, при больших температурах, — сказал Джон Пэрри, директор по промышленному маркетингу электроники в Mentor. „В некоторых случаях это позволит расположить силовую электронику ближе к мотору, то есть, в более высоких температурных условиях. В других случаях использование полупроводников, способных выдерживать более высокие температуры, означает уменьшение потребности в охлаждении. Однако полупроводники необходимо корпусировать, после чего этот корпус тоже должен выдерживать высокие температуры. В новые технологии вливают много денег – к примеру, в спечённое серебро, использующееся как материал для посадки кристалла, и клипсы вместо проводных соединений, поэтому корпусирование силовых устройств вроде IGBT претерпевает кардинальные изменения в плане материалов, технологий обработки и разработки“.
Заключение
Меняется отношение к тому, что старение, нагрузки и другие эффекты приносят всё больше проблем при переходе на продвинутые техпроцессы или при использовании в течение расширенных периодов времени на тех рынках, где важна безопасность устройства.
»Точка отсчёта состоит в том, что клиенты сегодня задают нам вопросы, — сказал Лэнг. – Их точки отсчёта отличаются от клиента к клиенту, но вопросы звучат довольно часто. Многие только приступают к этому вопросу. Они сталкиваются с увеличением напряжения или температуры, идут определённые эксперименты, призванные экстраполировать влияние чрезмерных нагрузок. Но понять, как именно деградация будет влиять на всю схему, тяжелее. Для сложных чипов нужно ещё многое сделать".
Но со сменой отношения меняется и вклад людей в решение этих проблем. Разработчики чипов пока только начинают задумываться о моделировании деградации и старения. Как с силовой электроникой десятилетней давности, всё это скоро изменится.