microGPT: как работает GPT в одном маленьком файле

Этот интерактивный гайд разбирает файл microgpt.py построчно: от загрузки данных и собственного autograd до внимания, Adam-обновления и генерации новых имён. Все объяснения ниже даны на русском языке и в светлой теме.

Открыть исходник microgpt.py

199 строкполный цикл обучения + инференс

0 ML-фреймворковбез PyTorch/NumPy в модели

Autograd вручнуюцепное правило через граф вычислений

GPT-скелетэмбеддинги, attention, MLP, Adam, sampling

1) Карта пайплайна: от текста до новых слов

Нажимайте этапы, чтобы увидеть роль каждого блока в файле. Это поможет сначала понять общую логику, а уже потом детали.

2) Карта исходника по блокам

Выберите модуль и посмотрите, что он делает, где находится и какая у него ключевая идея.

3) Лаборатория цепного правила (Autograd)

В `Value.backward()` градиенты идут по графу в обратном топологическом порядке. Ниже мини-симулятор на выражении loss = ReLU(a*b + c)^2 в стиле класса `Value`.

a 1.2

b 0.9

c -0.5

Градиенты по входам

4) Визуализация self-attention по головам

В коде каждое новое положение добавляет свои `k` и `v` в кэш (`keys/values`) и вычисляет веса внимания через softmax. Ниже демонстрация той же идеи: матрица показывает, на какие прошлые символы смотрит каждый текущий символ.

Текст (посимвольно, до 10 символов) Будет добавлен BOS в начало

Голова внимания Размер головы: 4 (при n_embd=16 и n_head=4)

Действие токены: 0

5) Калькулятор размера модели

В этом `microgpt.py` веса создаются вручную матрицами без bias и без trainable-параметров в нормализации. Формула ниже соответствует строкам создания `state_dict`.

vocab_size 27

n_embd 16

n_layer 1

block_size 16

Эмбеддинги Трансформер-блоки LM head

6) Тренировочный цикл как интерактивный таймлайн

Переключайте этапы цикла `for step in range(num_steps)` и смотрите, что происходит в этот момент и какие строки отвечают за шаг.

Этап 1 / 7

7) Песочница Adam-обновления

В строках 177-181 параметры обновляются вручную по формулам Adam. Подставьте свои числа и посмотрите один шаг обновления.

Текущий параметр p

Градиент g

m (до шага)

v (до шага)

step (начиная с 1)

learning_rate

beta1

beta2

eps

Действие Схема как в `microgpt.py`

Результат шага

8) Температура генерации: почему модель пишет по-разному

При инференсе логиты делятся на `temperature` (строка 195), затем делается softmax и случайный выбор. Ниже видно, как температура сжимает или выравнивает распределение вероятностей.

temperature 0.50

Сэмплинг Нажмите кнопку

Сброс истории История выводится ниже

9) Что важно понять после разбора

Этот файл ценен тем, что показывает не «оптимальный» production-код, а чистую суть алгоритма. Если вы поняли пункты ниже, то устройство GPT уже в руках.

`Value` хранит число + локальные производные `backward()` строит топологический порядок и гонит градиент назад `gpt()` получает 1 токен и обновляет контекст через `keys/values` attention = softmax(dot(q, k)) * v ошибка = средний NLL по последовательности Adam обновляет каждый scalar-parameter отдельно inference: temperature + random.choices

Быстрый порядок чтения файла: 1) строки 29-72 (autograd), 2) 74-90 (инициализация весов), 3) 92-144 (`gpt`), 4) 151-184 (обучение), 5) 186-200 (генерация).