A Short History of IT: From Loom to Neural Networks

Pasha Veinik

EN | RU
A Short History of IT: From Loom to Neural Networks

Раздел 6.2. Железо решает: Случайная революция NVIDIA (1999 — 2012)

В этом разделе мы увидим, как любовь подростков к видеоиграм про зомби и спецназ случайно спасла науку об искусственном интеллекте. Это история о том, как одна компания вложила миллиарды в технологию, которая никому не была нужна, чтобы через 10 лет стать самой дорогой корпорацией на планете.

Раздел 6.2. Железо решает: Случайная революция NVIDIA (1999 — 2012)

В 90-е и начале 2000-х искусственный интеллект (нейросети) находился в коме. Ученые знали математику (алгоритм Backpropagation был открыт Хинтоном еще в 1986-м), но у них не было инструмента. Обучение простой нейросети на обычном процессоре (CPU, например, Intel Pentium) занимало недели.

  • Почему? Процессор Intel был слишком «умным». Он умел предсказывать ветвления, быстро переключать задачи (запустить Word, потом Winamp), но он был плох в тупой, монотонной работе — перемножении миллионов чисел одновременно. У него было всего 1, 2 или 4 ядра.

ИИ был как гениальный композитор, запертый в комнате без рояля.


А. Дженсен Хуанг: Человек в кожаной куртке

Сюжет: «Мы делаем игрушки»

В 1993 году в придорожной закусочной Denny’s в Сан-Хосе трое инженеров (Дженсен Хуанг, Крис Малаховски и Кертис Прэм) ели бургеры и обсуждали идею. Они хотели делать чипы для 3D-графики. Тогда 3D было только в рабочих станциях Silicon Graphics за $50,000 (на них рисовали динозавров для «Парка Юрского периода»). Дженсен хотел принести это на домашние ПК.

Они основали NVIDIA. В 1999 году они выпускают карту GeForce 256 и вводят в обиход термин GPU (Graphics Processing Unit). Их целевой аудиторией были не ученые, а геймеры. Подростки, которые хотели играть в Quake, Doom и Half-Life.

Математическое совпадение века

Что такое 3D-графика? Представьте сцену из игры: взрыв гранаты в Call of Duty. Чтобы нарисовать это на экране:

  1. Компьютер берет миллионы треугольников (полигонов), из которых состоит дым и огонь.
  2. Для каждого треугольника он считает, как на него падает свет, как он повернут и какого он цвета.
  3. Это миллионы простых операций умножения матриц.
  4. Все они должны происходить одновременно (параллельно), 60 раз в секунду.

Что такое Нейросеть? Это миллионы искусственных нейронов. Чтобы обучить сеть, нужно взять входные данные (пиксели картинки) и умножить их на веса нейронов. Озарение: Это те же самые миллионы простых операций умножения матриц! Совершенно случайно выяснилось, что чип, созданный для отрисовки крови и кишок в шутерах, является идеальным «мозгом» для искусственного интеллекта.

Прорыв CUDA: Великая ставка (2006)

Дженсен Хуанг (всегда в своей фирменной кожаной куртке) понял это раньше других. В 2006 году NVIDIA выпускает CUDA (Compute Unified Device Architecture). Это была революция. Раньше, чтобы использовать видеокарту для расчетов, программистам приходилось «обманывать» её — представлять свои научные данные как «текстуры» и «треугольники». Это было мучительно. CUDA позволила писать код на C++, обращаясь к ядрам видеокарты напрямую.

Риск: Хуанг принял безумное стратегическое решение. Он приказал встраивать поддержку CUDA в каждый чип NVIDIA, от топовых карт за $1000 до дешевых офисных затычек за $50.

  • Цена: Это сделало чипы больше и дороже в производстве. NVIDIA теряла маржу.
  • Реакция рынка: Уолл-стрит была в ярости. Акции падали. Аналитики кричали: «Зачем вы тратите кремний на функции, которые нужны 0.1% пользователей (ученым)? Геймерам это не нужно! Вы разорите компанию!».

Хуанг игнорировал критику. Он фактически субсидировал науку за счет геймеров. В течение 6 лет NVIDIA теряла на этом прибыль, создавая установленную базу суперкомпьютеров в каждом студенческом общежитии.


Б. AlexNet: Момент истины (2012)

К 2010 году у нас было два ингредиента для взрыва:

  1. Большие Данные: Профессор Фей-Фей Ли из Стэнфорда (поняв, что алгоритмам нужны данные, а не только код) создала ImageNet — базу из 14 миллионов размеченных картинок (кошки, самолеты, клубника). Она наняла тысячи людей на Amazon Mechanical Turk, чтобы они вручную подписывали фото.
  2. Железо: Видеокарты с поддержкой CUDA стали мощными и доступными.

Не хватало только искры.

Сюжет: Конкурс ImageNet (ILSVRC)

Ежегодно проводилось соревнование — Олимпийские игры для компьютерного зрения. Задача: написать программу, которая определит, что на картинке, с минимальной ошибкой. До 2012 года там доминировали классические методы (вручную написанные фильтры для поиска краев и углов).

  • Ошибка лучших алгоритмов составляла 26%.
  • Это было плохо. Компьютер путал леопарда с диваном леопардовой расцветки. Прогресс шел черепашьими шагами (улучшение на 0.5% в год).

Алекс Крижевский и его спальня

В Университете Торонто, в группе того самого Джеффри Хинтона (из прошлого раздела, который 30 лет верил в нейросети), учился аспирант Алекс Крижевский. Хинтон сказал ему: «Попробуй обучить глубокую нейросеть на ImageNet. Но у нас нет суперкомпьютера».

Алекс пошел в магазин электроники и купил две игровые видеокарты NVIDIA GeForce GTX 580. Они стоили около $500 за штуку. Он воткнул их в свой домашний ПК в спальне родителей. Он написал архитектуру нейросети (позже названную AlexNet), которая была специально заточена под работу на двух GPU.

  • Пока одна карта обрабатывала верхнюю половину картинки, вторая обрабатывала нижнюю. Они обменивались данными только иногда.

Сеть обучалась неделю. В комнате было жарко, как в сауне. Кулеры выли как турбины самолета. Алекс спал под этот шум.

Разгром (Октябрь 2012)

Наступил день подведения итогов конкурса во Флоренции.

  • Команда 2 (лучшие умы Японии и Оксфорда, классические алгоритмы): Ошибка 26.2%.
  • Команда Алекса Крижевского (SuperVision): Ошибка 15.3%.

Это был не просто отрыв. Это был нокаут. В науке улучшения обычно измеряются долями процента. Алекс улучшил результат почти в два раза. Когда результаты объявили, в зале воцарилась тишина. Профессор Ян Лекун (соратник Хинтона) вскочил и закричал: «Вы видите это?!». Все поняли: Эра ручного написания алгоритмов закончилась. Наступила эра Deep Learning (Глубокого обучения).

Последствия: Золотая лихорадка началась

  1. Аукцион: Сразу после конкурса Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон создали фиктивную компанию DNN Research, у которой не было ни продукта, ни офиса, ни патентов. Они выставили себя на аукцион.
    • Baidu предложила $12 млн.
    • Microsoft предложила $20 млн.
    • DeepMind (британский стартап) пытался торговаться.
    • Google купила их за $44 миллиона. Просто за трех человек. (Хинтон потом шутил, что они остановили торги, потому что не знали, что делать с такими деньгами).
  2. Триумф NVIDIA: Ученые всего мира бросились скупать видеокарты. Акции NVIDIA начали свой путь к статусу самой дорогой компании мира (капитализация > $3 трлн в 2024 году). Дженсен Хуанг оказался провидцем. Его "бесполезная" технология CUDA стала фундаментом для Google, Facebook, Amazon, Tesla и OpenAI.
  3. Ирония судьбы: Подростки, которые в 2000-х клянчили у родителей деньги на новую видеокарту «для учебы» (а на самом деле для Crysis), в итоге оказались правы. Их деньги пошли на разработку чипов, которые через 15 лет научились писать стихи, рисовать картины и диагностировать рак лучше врачей. Геймеры профинансировали создание Искусственного Интеллекта.

Итог раздела 6.2

Мы увидели, как сошлись три звезды, сделавшие ИИ возможным:

  1. Математика: Нейросети и Backpropagation (Хинтон).
  2. Данные: ImageNet и интернет (Фей-Фей Ли).
  3. Железо: GPU и CUDA (Дженсен Хуанг).

В 2012 году фитиль был подожжен. В следующем разделе мы увидим Взрыв. Мы поговорим о том, как Google изобрела архитектуру Трансформер, которая научилась понимать смысл слов, и как она случайно подарила эту технологию своим конкурентам, породив ChatGPT.