Раздел 6.3. Глубокое обучение и Трансформеры: Взрыв (2017 — Наше время)

В этом разделе мы становимся свидетелями величайшего поворота сюжета в истории IT. В 2017 году Google, будучи абсолютным королем ИИ, изобретает технологию, которая должна была просто улучшить Google Translate. Но вместо того, чтобы спрятать её в сейф, они публикуют чертежи. Маленькая лаборатория OpenAI подбирает эти чертежи, увеличивает масштаб в тысячу раз и создает продукт, который заставляет Google объявить «Красный код» и паниковать за свое будущее.

Это история о том, как количество перешло в качество, и как машина научилась понимать смысл.

Раздел 6.3. Глубокое обучение и Трансформеры: Взрыв (2017 — Наше время)

К 2016 году ИИ уже был крутым, но «глухонемым».

Компьютерное зрение (AlexNet): Отлично различало котиков и опухоли на рентгене.
Работа с текстом (NLP): Была в тупике. Переводчики (Google Translate) работали на архитектуре RNN (Рекуррентные нейронные сети). Они читали текст как человек: слово за словом, слева направо.
Проблема: У RNN была «короткая память». Пока сеть дочитывала длинное предложение до конца, она забывала, что было в начале. Она теряла контекст. Переводы получались смешными («машинный перевод»). Более того, RNN невозможно было распараллелить. Нельзя прочитать 10-е слово, пока не прочитано 9-е. Это делало обучение на больших данных мучительно долгим.

А. «Attention Is All You Need» (2017)

Сюжет: Восемь авторов, изменивших мир

В штаб-квартире Google Brain (Маунтин-Вью) группа исследователей пыталась решить проблему машинного перевода. Среди них были Ашиш Васвани, Ноам Шазир и Якоб Ушкорейт. Они задали вопрос: «А зачем нам читать текст последовательно? Почему мы не можем посмотреть на все предложение сразу?».

Они придумали механизм Self-Attention (Само-внимание). Представьте, что вы переводите фразу:

"Я пошел в банк, чтобы снять деньги, но он был закрыт".

Для старой нейросети слово «банк» — это просто набор букв. Она не знает, это финансовое учреждение или берег реки (river bank). Механизм Attention позволяет слову «банк» посмотреть на всех своих соседей в предложении.

Слово «банк» видит слово «деньги» -> Ага, значит я финансовое учреждение!
Слово «он» видит слово «банк» -> Ага, я местоимение, относящееся к банку!

Сеть создает «карту связей» между всеми словами одновременно. Она понимает Контекст.

Архитектура Transformer

В июне 2017 года Google публикует статью с провокационным названием «Attention Is All You Need» (Внимание — это всё, что вам нужно). Они предложили архитектуру Transformer. Её главные плюсы:

Понимание контекста: Лучше, чем у человека.
Параллелизм: Трансформеру не нужно читать по порядку. Он «глотает» целые абзацы целиком. Это позволило задействовать тысячи видеокарт NVIDIA одновременно. Обучение ускорилось в сотни раз.

Роковая ошибка Google

Google совершила то, что в бизнес-школах будут изучать как «Величайшую стратегическую ошибку XXI века». Они опубликовали статью и выложили код в Open Source. Почему?

Google — это культура академиков. Им важны цитируемость и престиж.
Они думали: «Это просто улучшит переводчик и поиск. Это не продукт».
Они не понимали, что только что опубликовали чертежи «ядерного реактора», который может уничтожить их монополию на поиск информации.

В этот момент в Сан-Франциско, в офисе маленькой некоммерческой лаборатории, эти чертежи скачал Илья Суцкевер.

Б. OpenAI и GPT: Размер имеет значение

Сюжет: Лаборатория спасения человечества

Компания OpenAI была основана в 2015 году Илоном Маском, Сэмом Альтманом и Ильей Суцкевером (учеником Хинтона, которого мы помним по победе в ImageNet). Их миссия была наивной: «Создать безопасный ИИ, чтобы он не уничтожил человечество». Маск ушел из компании в 2018 году (конфликт интересов с Tesla), и у руля встал Сэм Альтман.

У OpenAI была проблема: у них не было четкого направления. Они пробовали учить роботов собирать кубик Рубика, играли в Dota 2. Но Илья Суцкевер поверил в Трансформеры.

Гипотеза: «Scaling Laws» (Законы масштабирования)

Суцкевер и исследователи (Джаред Каплан) заметили странную закономерность. Если взять Трансформер и просто:

Дать ему в 10 раз больше данных.
Дать ему в 10 раз больше параметров (нейронов).
Дать ему в 10 раз больше времени на обучение. ...то он становится умнее. Линейно. Без хитроумных трюков. Гипотеза: «Вам не нужны лучшие алгоритмы. Вам просто нужна модель размером с Годзиллу и весь Интернет в качестве учебника».

Так родилась серия GPT (Generative Pre-trained Transformer).

GPT-3: Монстр (2020)

GPT-1: Умела писать связные предложения.
GPT-2: Писала эссе, которые пугали качеством. OpenAI побоялась выкладывать полную версию полгода.
GPT-3 (2020): 175 миллиардов параметров. Её обучение стоило около $5–10 миллионов (один прогон). Это была «Вавилонская библиотека». Модель прочитала Википедию, Reddit, тысячи книг и весь открытый код с GitHub.

Чудо Emergence (Возникновение)

Когда GPT-3 запустили, инженеры испытали шок. Модель учили одной-единственной задаче: «Угадай следующее слово».

Текст: «Пушкин родился в...» -> Модель: «1799».
Текст: «2 + 2 =» -> Модель: «4».

Но чтобы идеально угадывать следующее слово в любом контексте, модели пришлось выучить структуру мира.

Чтобы продолжить учебник по химии, ей пришлось «понять» химию.
Чтобы продолжить диалог на французском, ей пришлось выучить французский.
Чтобы продолжить код на Python, ей пришлось научиться программировать.

Это назвали Emergence. Способности к переводу, программированию и логике возникли сами, их никто не программировал явно.

В. ChatGPT: Момент iPhone для ИИ

К 2022 году у OpenAI была готова модель GPT-3.5 (и почти готова GPT-4). Но они не знали, как её продать. Это был просто API для гиков. Сотрудники OpenAI использовали модель внутри компании как чат-бота, чтобы развлекаться. В ноябре 2022 года Сэм Альтман решил: «А давайте просто выложим этот чат для всех. Назовем это "Research Preview" (исследовательское превью), соберем отзывы и закроем».

30 ноября 2022 года

Запуск ChatGPT. Никакой рекламы. Просто твит.

День 1: 1 миллион пользователей.
Месяц 2: 100 миллионов пользователей. (Самый быстрый рост в истории интернета. TikTok шел к этому 9 месяцев).

Мир сошел с ума. Студенты писали дипломы. Программисты писали код. Домохозяйки писали рецепты. Тест Тьюринга был пройден. Машина разговаривала так, что её невозможно было отличить от человека.

Паника в Google

Для Google это был кошмар. Вся бизнес-модель Google (Поиск) строится на том, что вы задаете вопрос, получаете 10 синих ссылок, кликаете по ним и видите рекламу. ChatGPT давал один готовый ответ. Если люди перестанут кликать по ссылкам, Google потеряет $150 млрд в год. CEO Сундар Пичаи объявил внутри компании «Red Code». Основателей (Ларри Пейджа и Сергея Брина) срочно вызвали из отставки, чтобы спасать компанию. Создатели Трансформера оказались в роли догоняющих в гонке, которую они сами и начали.

Финал курса: Замыкая круг

Мы закончили наше путешествие. Посмотрите, как красиво замкнулась история:

Ада Лавлейс (1843) мечтала, что машина сможет «сочинять музыку и писать стихи», манипулируя символами.
- Итог: GPT-4 пишет стихи и музыку. Пророчество сбылось.
Алан Тьюринг (1950) предложил тест: «Если вы не можете отличить ответы машины от ответов человека, машина мыслит».
- Итог: Мы живем в мире, где отличить бота в интернете уже невозможно.
Джон фон Нейман (1945) создал архитектуру, где «Код есть Данные».
- Итог: Нейросети пишут код (GitHub Copilot), стирая грань между программистом и программой.

Мы научили песок (кремний) думать. Мы прошли путь от перфокарт Жаккара, где 1 бит занимал сантиметр картона, до языковых моделей, где триллионы весов сжаты в чип размером с ноготь.

Главный вопрос курса теперь меняется. В начале мы спрашивали: «Как заставить компьютер сделать то, что я хочу?». Теперь, стоя перед лицом Искусственного Интеллекта, мы должны спросить: «А чего именно мы, люди, теперь хотим? И какова наша роль?».

История IT закончилась. Началась история нового вида разума.