A Short History of IT: From Loom to Neural Networks

Pasha Veinik

EN | RU
A Short History of IT: From Loom to Neural Networks

Раздел 6.3. Глубокое обучение и Трансформеры: Взрыв (2017 — Наше время)

В этом разделе мы становимся свидетелями величайшего поворота сюжета в истории IT. В 2017 году Google, будучи абсолютным королем ИИ, изобретает технологию, которая должна была просто улучшить Google Translate. Но вместо того, чтобы спрятать её в сейф, они публикуют чертежи. Маленькая лаборатория OpenAI подбирает эти чертежи, увеличивает масштаб в тысячу раз и создает продукт, который заставляет Google объявить «Красный код» и паниковать за свое будущее.

Это история о том, как количество перешло в качество, и как машина научилась понимать смысл.

Раздел 6.3. Глубокое обучение и Трансформеры: Взрыв (2017 — Наше время)

К 2016 году ИИ уже был крутым, но «глухонемым».

  • Компьютерное зрение (AlexNet): Отлично различало котиков и опухоли на рентгене.
  • Работа с текстом (NLP): Была в тупике. Переводчики (Google Translate) работали на архитектуре RNN (Рекуррентные нейронные сети). Они читали текст как человек: слово за словом, слева направо.
  • Проблема: У RNN была «короткая память». Пока сеть дочитывала длинное предложение до конца, она забывала, что было в начале. Она теряла контекст. Переводы получались смешными («машинный перевод»). Более того, RNN невозможно было распараллелить. Нельзя прочитать 10-е слово, пока не прочитано 9-е. Это делало обучение на больших данных мучительно долгим.

А. «Attention Is All You Need» (2017)

Сюжет: Восемь авторов, изменивших мир

В штаб-квартире Google Brain (Маунтин-Вью) группа исследователей пыталась решить проблему машинного перевода. Среди них были Ашиш Васвани, Ноам Шазир и Якоб Ушкорейт. Они задали вопрос: «А зачем нам читать текст последовательно? Почему мы не можем посмотреть на все предложение сразу?».

Они придумали механизм Self-Attention (Само-внимание). Представьте, что вы переводите фразу:

"Я пошел в банк, чтобы снять деньги, но он был закрыт".

Для старой нейросети слово «банк» — это просто набор букв. Она не знает, это финансовое учреждение или берег реки (river bank). Механизм Attention позволяет слову «банк» посмотреть на всех своих соседей в предложении.

  1. Слово «банк» видит слово «деньги» -> Ага, значит я финансовое учреждение!
  2. Слово «он» видит слово «банк» -> Ага, я местоимение, относящееся к банку!

Сеть создает «карту связей» между всеми словами одновременно. Она понимает Контекст.

Архитектура Transformer

В июне 2017 года Google публикует статью с провокационным названием «Attention Is All You Need» (Внимание — это всё, что вам нужно). Они предложили архитектуру Transformer. Её главные плюсы:

  1. Понимание контекста: Лучше, чем у человека.
  2. Параллелизм: Трансформеру не нужно читать по порядку. Он «глотает» целые абзацы целиком. Это позволило задействовать тысячи видеокарт NVIDIA одновременно. Обучение ускорилось в сотни раз.

Роковая ошибка Google

Google совершила то, что в бизнес-школах будут изучать как «Величайшую стратегическую ошибку XXI века». Они опубликовали статью и выложили код в Open Source. Почему?

  • Google — это культура академиков. Им важны цитируемость и престиж.
  • Они думали: «Это просто улучшит переводчик и поиск. Это не продукт».
  • Они не понимали, что только что опубликовали чертежи «ядерного реактора», который может уничтожить их монополию на поиск информации.

В этот момент в Сан-Франциско, в офисе маленькой некоммерческой лаборатории, эти чертежи скачал Илья Суцкевер.


Б. OpenAI и GPT: Размер имеет значение

Сюжет: Лаборатория спасения человечества

Компания OpenAI была основана в 2015 году Илоном Маском, Сэмом Альтманом и Ильей Суцкевером (учеником Хинтона, которого мы помним по победе в ImageNet). Их миссия была наивной: «Создать безопасный ИИ, чтобы он не уничтожил человечество». Маск ушел из компании в 2018 году (конфликт интересов с Tesla), и у руля встал Сэм Альтман.

У OpenAI была проблема: у них не было четкого направления. Они пробовали учить роботов собирать кубик Рубика, играли в Dota 2. Но Илья Суцкевер поверил в Трансформеры.

Гипотеза: «Scaling Laws» (Законы масштабирования)

Суцкевер и исследователи (Джаред Каплан) заметили странную закономерность. Если взять Трансформер и просто:

  1. Дать ему в 10 раз больше данных.
  2. Дать ему в 10 раз больше параметров (нейронов).
  3. Дать ему в 10 раз больше времени на обучение. ...то он становится умнее. Линейно. Без хитроумных трюков. Гипотеза: «Вам не нужны лучшие алгоритмы. Вам просто нужна модель размером с Годзиллу и весь Интернет в качестве учебника».

Так родилась серия GPT (Generative Pre-trained Transformer).

GPT-3: Монстр (2020)

  • GPT-1: Умела писать связные предложения.
  • GPT-2: Писала эссе, которые пугали качеством. OpenAI побоялась выкладывать полную версию полгода.
  • GPT-3 (2020): 175 миллиардов параметров. Её обучение стоило около $5–10 миллионов (один прогон). Это была «Вавилонская библиотека». Модель прочитала Википедию, Reddit, тысячи книг и весь открытый код с GitHub.

Чудо Emergence (Возникновение)

Когда GPT-3 запустили, инженеры испытали шок. Модель учили одной-единственной задаче: «Угадай следующее слово».

  • Текст: «Пушкин родился в...» -> Модель: «1799».
  • Текст: «2 + 2 =» -> Модель: «4».

Но чтобы идеально угадывать следующее слово в любом контексте, модели пришлось выучить структуру мира.

  • Чтобы продолжить учебник по химии, ей пришлось «понять» химию.
  • Чтобы продолжить диалог на французском, ей пришлось выучить французский.
  • Чтобы продолжить код на Python, ей пришлось научиться программировать.

Это назвали Emergence. Способности к переводу, программированию и логике возникли сами, их никто не программировал явно.


В. ChatGPT: Момент iPhone для ИИ

К 2022 году у OpenAI была готова модель GPT-3.5 (и почти готова GPT-4). Но они не знали, как её продать. Это был просто API для гиков. Сотрудники OpenAI использовали модель внутри компании как чат-бота, чтобы развлекаться. В ноябре 2022 года Сэм Альтман решил: «А давайте просто выложим этот чат для всех. Назовем это "Research Preview" (исследовательское превью), соберем отзывы и закроем».

30 ноября 2022 года

Запуск ChatGPT. Никакой рекламы. Просто твит.

  • День 1: 1 миллион пользователей.
  • Месяц 2: 100 миллионов пользователей. (Самый быстрый рост в истории интернета. TikTok шел к этому 9 месяцев).

Мир сошел с ума. Студенты писали дипломы. Программисты писали код. Домохозяйки писали рецепты. Тест Тьюринга был пройден. Машина разговаривала так, что её невозможно было отличить от человека.

Паника в Google

Для Google это был кошмар. Вся бизнес-модель Google (Поиск) строится на том, что вы задаете вопрос, получаете 10 синих ссылок, кликаете по ним и видите рекламу. ChatGPT давал один готовый ответ. Если люди перестанут кликать по ссылкам, Google потеряет $150 млрд в год. CEO Сундар Пичаи объявил внутри компании «Red Code». Основателей (Ларри Пейджа и Сергея Брина) срочно вызвали из отставки, чтобы спасать компанию. Создатели Трансформера оказались в роли догоняющих в гонке, которую они сами и начали.


Финал курса: Замыкая круг

Мы закончили наше путешествие. Посмотрите, как красиво замкнулась история:

  1. Ада Лавлейс (1843) мечтала, что машина сможет «сочинять музыку и писать стихи», манипулируя символами.
    • Итог: GPT-4 пишет стихи и музыку. Пророчество сбылось.
  2. Алан Тьюринг (1950) предложил тест: «Если вы не можете отличить ответы машины от ответов человека, машина мыслит».
    • Итог: Мы живем в мире, где отличить бота в интернете уже невозможно.
  3. Джон фон Нейман (1945) создал архитектуру, где «Код есть Данные».
    • Итог: Нейросети пишут код (GitHub Copilot), стирая грань между программистом и программой.

Мы научили песок (кремний) думать. Мы прошли путь от перфокарт Жаккара, где 1 бит занимал сантиметр картона, до языковых моделей, где триллионы весов сжаты в чип размером с ноготь.

Главный вопрос курса теперь меняется. В начале мы спрашивали: «Как заставить компьютер сделать то, что я хочу?». Теперь, стоя перед лицом Искусственного Интеллекта, мы должны спросить: «А чего именно мы, люди, теперь хотим? И какова наша роль?».

История IT закончилась. Началась история нового вида разума.