Раздел 6.3. Глубокое обучение и Трансформеры: Взрыв (2017 — Наше время)
В этом разделе мы становимся свидетелями величайшего поворота сюжета в истории IT. В 2017 году Google, будучи абсолютным королем ИИ, изобретает технологию, которая должна была просто улучшить Google Translate. Но вместо того, чтобы спрятать её в сейф, они публикуют чертежи. Маленькая лаборатория OpenAI подбирает эти чертежи, увеличивает масштаб в тысячу раз и создает продукт, который заставляет Google объявить «Красный код» и паниковать за свое будущее.
Это история о том, как количество перешло в качество, и как машина научилась понимать смысл.
Раздел 6.3. Глубокое обучение и Трансформеры: Взрыв (2017 — Наше время)
К 2016 году ИИ уже был крутым, но «глухонемым».
- Компьютерное зрение (AlexNet): Отлично различало котиков и опухоли на рентгене.
- Работа с текстом (NLP): Была в тупике. Переводчики (Google Translate) работали на архитектуре RNN (Рекуррентные нейронные сети). Они читали текст как человек: слово за словом, слева направо.
- Проблема: У RNN была «короткая память». Пока сеть дочитывала длинное предложение до конца, она забывала, что было в начале. Она теряла контекст. Переводы получались смешными («машинный перевод»). Более того, RNN невозможно было распараллелить. Нельзя прочитать 10-е слово, пока не прочитано 9-е. Это делало обучение на больших данных мучительно долгим.
А. «Attention Is All You Need» (2017)
Сюжет: Восемь авторов, изменивших мир
В штаб-квартире Google Brain (Маунтин-Вью) группа исследователей пыталась решить проблему машинного перевода. Среди них были Ашиш Васвани, Ноам Шазир и Якоб Ушкорейт. Они задали вопрос: «А зачем нам читать текст последовательно? Почему мы не можем посмотреть на все предложение сразу?».
Они придумали механизм Self-Attention (Само-внимание). Представьте, что вы переводите фразу:
"Я пошел в банк, чтобы снять деньги, но он был закрыт".
Для старой нейросети слово «банк» — это просто набор букв. Она не знает, это финансовое учреждение или берег реки (river bank). Механизм Attention позволяет слову «банк» посмотреть на всех своих соседей в предложении.
- Слово «банк» видит слово «деньги» -> Ага, значит я финансовое учреждение!
- Слово «он» видит слово «банк» -> Ага, я местоимение, относящееся к банку!
Сеть создает «карту связей» между всеми словами одновременно. Она понимает Контекст.
Архитектура Transformer
В июне 2017 года Google публикует статью с провокационным названием «Attention Is All You Need» (Внимание — это всё, что вам нужно). Они предложили архитектуру Transformer. Её главные плюсы:
- Понимание контекста: Лучше, чем у человека.
- Параллелизм: Трансформеру не нужно читать по порядку. Он «глотает» целые абзацы целиком. Это позволило задействовать тысячи видеокарт NVIDIA одновременно. Обучение ускорилось в сотни раз.
Роковая ошибка Google
Google совершила то, что в бизнес-школах будут изучать как «Величайшую стратегическую ошибку XXI века». Они опубликовали статью и выложили код в Open Source. Почему?
- Google — это культура академиков. Им важны цитируемость и престиж.
- Они думали: «Это просто улучшит переводчик и поиск. Это не продукт».
- Они не понимали, что только что опубликовали чертежи «ядерного реактора», который может уничтожить их монополию на поиск информации.
В этот момент в Сан-Франциско, в офисе маленькой некоммерческой лаборатории, эти чертежи скачал Илья Суцкевер.
Б. OpenAI и GPT: Размер имеет значение
Сюжет: Лаборатория спасения человечества
Компания OpenAI была основана в 2015 году Илоном Маском, Сэмом Альтманом и Ильей Суцкевером (учеником Хинтона, которого мы помним по победе в ImageNet). Их миссия была наивной: «Создать безопасный ИИ, чтобы он не уничтожил человечество». Маск ушел из компании в 2018 году (конфликт интересов с Tesla), и у руля встал Сэм Альтман.
У OpenAI была проблема: у них не было четкого направления. Они пробовали учить роботов собирать кубик Рубика, играли в Dota 2. Но Илья Суцкевер поверил в Трансформеры.
Гипотеза: «Scaling Laws» (Законы масштабирования)
Суцкевер и исследователи (Джаред Каплан) заметили странную закономерность. Если взять Трансформер и просто:
- Дать ему в 10 раз больше данных.
- Дать ему в 10 раз больше параметров (нейронов).
- Дать ему в 10 раз больше времени на обучение. ...то он становится умнее. Линейно. Без хитроумных трюков. Гипотеза: «Вам не нужны лучшие алгоритмы. Вам просто нужна модель размером с Годзиллу и весь Интернет в качестве учебника».
Так родилась серия GPT (Generative Pre-trained Transformer).
GPT-3: Монстр (2020)
- GPT-1: Умела писать связные предложения.
- GPT-2: Писала эссе, которые пугали качеством. OpenAI побоялась выкладывать полную версию полгода.
- GPT-3 (2020): 175 миллиардов параметров. Её обучение стоило около $5–10 миллионов (один прогон). Это была «Вавилонская библиотека». Модель прочитала Википедию, Reddit, тысячи книг и весь открытый код с GitHub.
Чудо Emergence (Возникновение)
Когда GPT-3 запустили, инженеры испытали шок. Модель учили одной-единственной задаче: «Угадай следующее слово».
- Текст: «Пушкин родился в...» -> Модель: «1799».
- Текст: «2 + 2 =» -> Модель: «4».
Но чтобы идеально угадывать следующее слово в любом контексте, модели пришлось выучить структуру мира.
- Чтобы продолжить учебник по химии, ей пришлось «понять» химию.
- Чтобы продолжить диалог на французском, ей пришлось выучить французский.
- Чтобы продолжить код на Python, ей пришлось научиться программировать.
Это назвали Emergence. Способности к переводу, программированию и логике возникли сами, их никто не программировал явно.
В. ChatGPT: Момент iPhone для ИИ
К 2022 году у OpenAI была готова модель GPT-3.5 (и почти готова GPT-4). Но они не знали, как её продать. Это был просто API для гиков. Сотрудники OpenAI использовали модель внутри компании как чат-бота, чтобы развлекаться. В ноябре 2022 года Сэм Альтман решил: «А давайте просто выложим этот чат для всех. Назовем это "Research Preview" (исследовательское превью), соберем отзывы и закроем».
30 ноября 2022 года
Запуск ChatGPT. Никакой рекламы. Просто твит.
- День 1: 1 миллион пользователей.
- Месяц 2: 100 миллионов пользователей. (Самый быстрый рост в истории интернета. TikTok шел к этому 9 месяцев).
Мир сошел с ума. Студенты писали дипломы. Программисты писали код. Домохозяйки писали рецепты. Тест Тьюринга был пройден. Машина разговаривала так, что её невозможно было отличить от человека.
Паника в Google
Для Google это был кошмар. Вся бизнес-модель Google (Поиск) строится на том, что вы задаете вопрос, получаете 10 синих ссылок, кликаете по ним и видите рекламу. ChatGPT давал один готовый ответ. Если люди перестанут кликать по ссылкам, Google потеряет $150 млрд в год. CEO Сундар Пичаи объявил внутри компании «Red Code». Основателей (Ларри Пейджа и Сергея Брина) срочно вызвали из отставки, чтобы спасать компанию. Создатели Трансформера оказались в роли догоняющих в гонке, которую они сами и начали.
Финал курса: Замыкая круг
Мы закончили наше путешествие. Посмотрите, как красиво замкнулась история:
- Ада Лавлейс (1843) мечтала, что машина сможет «сочинять музыку и писать стихи», манипулируя символами.
- Итог: GPT-4 пишет стихи и музыку. Пророчество сбылось.
- Алан Тьюринг (1950) предложил тест: «Если вы не можете отличить ответы машины от ответов человека, машина мыслит».
- Итог: Мы живем в мире, где отличить бота в интернете уже невозможно.
- Джон фон Нейман (1945) создал архитектуру, где «Код есть Данные».
- Итог: Нейросети пишут код (GitHub Copilot), стирая грань между программистом и программой.
Мы научили песок (кремний) думать. Мы прошли путь от перфокарт Жаккара, где 1 бит занимал сантиметр картона, до языковых моделей, где триллионы весов сжаты в чип размером с ноготь.
Главный вопрос курса теперь меняется. В начале мы спрашивали: «Как заставить компьютер сделать то, что я хочу?». Теперь, стоя перед лицом Искусственного Интеллекта, мы должны спросить: «А чего именно мы, люди, теперь хотим? И какова наша роль?».
История IT закончилась. Началась история нового вида разума.