Раздел 6.2. Железо решает: Случайная революция NVIDIA (1999 — 2012)

В этом разделе мы увидим, как любовь подростков к видеоиграм про зомби и спецназ случайно спасла науку об искусственном интеллекте. Это история о том, как одна компания вложила миллиарды в технологию, которая никому не была нужна, чтобы через 10 лет стать самой дорогой корпорацией на планете.

Раздел 6.2. Железо решает: Случайная революция NVIDIA (1999 — 2012)

В 90-е и начале 2000-х искусственный интеллект (нейросети) находился в коме. Ученые знали математику (алгоритм Backpropagation был открыт Хинтоном еще в 1986-м), но у них не было инструмента. Обучение простой нейросети на обычном процессоре (CPU, например, Intel Pentium) занимало недели.

Почему? Процессор Intel был слишком «умным». Он умел предсказывать ветвления, быстро переключать задачи (запустить Word, потом Winamp), но он был плох в тупой, монотонной работе — перемножении миллионов чисел одновременно. У него было всего 1, 2 или 4 ядра.

ИИ был как гениальный композитор, запертый в комнате без рояля.

А. Дженсен Хуанг: Человек в кожаной куртке

Сюжет: «Мы делаем игрушки»

В 1993 году в придорожной закусочной Denny’s в Сан-Хосе трое инженеров (Дженсен Хуанг, Крис Малаховски и Кертис Прэм) ели бургеры и обсуждали идею. Они хотели делать чипы для 3D-графики. Тогда 3D было только в рабочих станциях Silicon Graphics за $50,000 (на них рисовали динозавров для «Парка Юрского периода»). Дженсен хотел принести это на домашние ПК.

Они основали NVIDIA. В 1999 году они выпускают карту GeForce 256 и вводят в обиход термин GPU (Graphics Processing Unit). Их целевой аудиторией были не ученые, а геймеры. Подростки, которые хотели играть в Quake, Doom и Half-Life.

Математическое совпадение века

Что такое 3D-графика? Представьте сцену из игры: взрыв гранаты в Call of Duty. Чтобы нарисовать это на экране:

Компьютер берет миллионы треугольников (полигонов), из которых состоит дым и огонь.
Для каждого треугольника он считает, как на него падает свет, как он повернут и какого он цвета.
Это миллионы простых операций умножения матриц.
Все они должны происходить одновременно (параллельно), 60 раз в секунду.

Что такое Нейросеть? Это миллионы искусственных нейронов. Чтобы обучить сеть, нужно взять входные данные (пиксели картинки) и умножить их на веса нейронов. Озарение: Это те же самые миллионы простых операций умножения матриц! Совершенно случайно выяснилось, что чип, созданный для отрисовки крови и кишок в шутерах, является идеальным «мозгом» для искусственного интеллекта.

Прорыв CUDA: Великая ставка (2006)

Дженсен Хуанг (всегда в своей фирменной кожаной куртке) понял это раньше других. В 2006 году NVIDIA выпускает CUDA (Compute Unified Device Architecture). Это была революция. Раньше, чтобы использовать видеокарту для расчетов, программистам приходилось «обманывать» её — представлять свои научные данные как «текстуры» и «треугольники». Это было мучительно. CUDA позволила писать код на C++, обращаясь к ядрам видеокарты напрямую.

Риск: Хуанг принял безумное стратегическое решение. Он приказал встраивать поддержку CUDA в каждый чип NVIDIA, от топовых карт за $1000 до дешевых офисных затычек за $50.

Цена: Это сделало чипы больше и дороже в производстве. NVIDIA теряла маржу.
Реакция рынка: Уолл-стрит была в ярости. Акции падали. Аналитики кричали: «Зачем вы тратите кремний на функции, которые нужны 0.1% пользователей (ученым)? Геймерам это не нужно! Вы разорите компанию!».

Хуанг игнорировал критику. Он фактически субсидировал науку за счет геймеров. В течение 6 лет NVIDIA теряла на этом прибыль, создавая установленную базу суперкомпьютеров в каждом студенческом общежитии.

Б. AlexNet: Момент истины (2012)

К 2010 году у нас было два ингредиента для взрыва:

Большие Данные: Профессор Фей-Фей Ли из Стэнфорда (поняв, что алгоритмам нужны данные, а не только код) создала ImageNet — базу из 14 миллионов размеченных картинок (кошки, самолеты, клубника). Она наняла тысячи людей на Amazon Mechanical Turk, чтобы они вручную подписывали фото.
Железо: Видеокарты с поддержкой CUDA стали мощными и доступными.

Не хватало только искры.

Сюжет: Конкурс ImageNet (ILSVRC)

Ежегодно проводилось соревнование — Олимпийские игры для компьютерного зрения. Задача: написать программу, которая определит, что на картинке, с минимальной ошибкой. До 2012 года там доминировали классические методы (вручную написанные фильтры для поиска краев и углов).

Ошибка лучших алгоритмов составляла 26%.
Это было плохо. Компьютер путал леопарда с диваном леопардовой расцветки. Прогресс шел черепашьими шагами (улучшение на 0.5% в год).

Алекс Крижевский и его спальня

В Университете Торонто, в группе того самого Джеффри Хинтона (из прошлого раздела, который 30 лет верил в нейросети), учился аспирант Алекс Крижевский. Хинтон сказал ему: «Попробуй обучить глубокую нейросеть на ImageNet. Но у нас нет суперкомпьютера».

Алекс пошел в магазин электроники и купил две игровые видеокарты NVIDIA GeForce GTX 580. Они стоили около $500 за штуку. Он воткнул их в свой домашний ПК в спальне родителей. Он написал архитектуру нейросети (позже названную AlexNet), которая была специально заточена под работу на двух GPU.

Пока одна карта обрабатывала верхнюю половину картинки, вторая обрабатывала нижнюю. Они обменивались данными только иногда.

Сеть обучалась неделю. В комнате было жарко, как в сауне. Кулеры выли как турбины самолета. Алекс спал под этот шум.

Разгром (Октябрь 2012)

Наступил день подведения итогов конкурса во Флоренции.

Команда 2 (лучшие умы Японии и Оксфорда, классические алгоритмы): Ошибка 26.2%.
Команда Алекса Крижевского (SuperVision): Ошибка 15.3%.

Это был не просто отрыв. Это был нокаут. В науке улучшения обычно измеряются долями процента. Алекс улучшил результат почти в два раза. Когда результаты объявили, в зале воцарилась тишина. Профессор Ян Лекун (соратник Хинтона) вскочил и закричал: «Вы видите это?!». Все поняли: Эра ручного написания алгоритмов закончилась. Наступила эра Deep Learning (Глубокого обучения).

Последствия: Золотая лихорадка началась

Аукцион: Сразу после конкурса Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон создали фиктивную компанию DNN Research, у которой не было ни продукта, ни офиса, ни патентов. Они выставили себя на аукцион.
- Baidu предложила $12 млн.
- Microsoft предложила $20 млн.
- DeepMind (британский стартап) пытался торговаться.
- Google купила их за $44 миллиона. Просто за трех человек. (Хинтон потом шутил, что они остановили торги, потому что не знали, что делать с такими деньгами).
Триумф NVIDIA: Ученые всего мира бросились скупать видеокарты. Акции NVIDIA начали свой путь к статусу самой дорогой компании мира (капитализация > $3 трлн в 2024 году). Дженсен Хуанг оказался провидцем. Его "бесполезная" технология CUDA стала фундаментом для Google, Facebook, Amazon, Tesla и OpenAI.
Ирония судьбы: Подростки, которые в 2000-х клянчили у родителей деньги на новую видеокарту «для учебы» (а на самом деле для Crysis), в итоге оказались правы. Их деньги пошли на разработку чипов, которые через 15 лет научились писать стихи, рисовать картины и диагностировать рак лучше врачей. Геймеры профинансировали создание Искусственного Интеллекта.

Итог раздела 6.2

Мы увидели, как сошлись три звезды, сделавшие ИИ возможным:

Математика: Нейросети и Backpropagation (Хинтон).
Данные: ImageNet и интернет (Фей-Фей Ли).
Железо: GPU и CUDA (Дженсен Хуанг).

В 2012 году фитиль был подожжен. В следующем разделе мы увидим Взрыв. Мы поговорим о том, как Google изобрела архитектуру Трансформер, которая научилась понимать смысл слов, и как она случайно подарила эту технологию своим конкурентам, породив ChatGPT.