GPT-5.5 od OpenAI (kwiecień 2026): 9 faktów i benchmarki

Ostatnia aktualizacja: kwiecień 2026 · Autor: Ignacy Kwiecień · Czas czytania: ~12 min

GPT-5.5 od OpenAI (23 kwietnia 2026): co się zmieniło, benchmarki i cennik

GPT-5.5 to model OpenAI wydany 23 kwietnia 2026 — pierwszy w pełni przetrenowany od zera base model od czasu GPT-4.5. Kluczowe liczby: 82,7% na Terminal-Bench 2.0 (state-of-the-art agentic coding), 84,9% parity z ekspertami w 44 zawodach (GDPval), 39,6% na FrontierMath Tier 4 (vs 22,9% Claude Opus 4.7). API: $5/$30 za 1M tokenów input/output, 1M kontekstu, ta sama latencja co GPT-5.4.

OpenAI GPT-5.5 LLM 2026 Agentic coding EU AI Act

Co to jest GPT-5.5 i dlaczego to nie jest kolejny mały update?

GPT-5.5 to model wydany 23 kwietnia 2026 przez OpenAI, który według firmy jest pierwszym w pełni przetrenowanym base modelem od czasu GPT-4.5 (luty 2025). To ważna informacja techniczna: wersje pośrednie (5.1, 5.2, 5.4) były post-treningami i fine-tuningami istniejącej bazy. GPT-5.5 oznacza nowy punkt startowy architektury i nowy capability frontier.

Model pojawia się w ChatGPT (Plus, Pro, Business, Enterprise), w narzędziu Codex oraz w API (Responses + Chat Completions). Wariant GPT-5.5 Pro jest dostępny dla subskrypcji Pro/Business/Enterprise i dodaje rozszerzone reasoning dla najtrudniejszych zadań matematycznych i naukowych.

Kontekst DTF: pisałem już o Claude Opus 4.7 od Anthropic i Claude Design. GPT-5.5 to bezpośrednia konkurencja dla Opus 4.7 w segmencie frontier reasoning — ale z dwukrotnie wyższą ceną API.

Jakie są konkretne benchmarki GPT-5.5?

OpenAI opublikowało wyniki na trzech benchmarkach pokrywających różne aspekty inteligencji: agentic coding, wiedzę zawodową i matematykę frontierową.

Benchmark Co mierzy Wynik GPT-5.5 Porównanie
Terminal-Bench 2.0 Agentic coding: wykonywanie zadań w terminalu end-to-end 82,7% State-of-the-art; wąsko przed Claude Mythos Preview
GDPval Praca umysłowa w 44 zawodach (prawo, finanse, PM, medycyna) 84,9% Match/beat wobec profesjonalistów z branży
FrontierMath Tier 1–3 Matematyka research-level (zbudowana przez matematyków badaczy) 52,4% (Pro) Lider kategorii
FrontierMath Tier 4 Najtrudniejszy tier FrontierMath — odporny na memoryzację 39,6% (Pro) vs 22,9% Claude Opus 4.7

Co to znaczy w praktyce? Trzy obserwacje, których nie zobaczysz w release notes OpenAI:

  1. Terminal-Bench 2.0 ≠ LeetCode. To benchmark end-to-end agentowy — model musi sam zdecydować, kiedy uruchomić test, kiedy przeczytać log, kiedy zakończyć. 82,7% oznacza, że w realnym use case (np. naprawianie bugów w CI) GPT-5.5 skraca pętlę developer → model → developer, zamiast jej wymagać.
  2. GDPval to ostrzeżenie dla knowledge workers. 84,9% parity z ekspertami w 44 zawodach to nie „AI zastąpi wszystkich” — to sygnał, że rutynowy output w prawie, analizie finansowej czy copywritingu jest teraz commodity. Przewagę zaczyna dawać to, czego benchmark nie mierzy: osąd, odpowiedzialność prawna, relacje klienckie.
  3. FrontierMath Tier 4 przy 39,6% to coś nowego. Jeszcze w 2024 r. wszystkie modele miały na tym benchmarku wyniki jednocyfrowe. Podwojenie wyniku Claude Opus 4.7 przez GPT-5.5 Pro sugeruje, że OpenAI zainwestowało w RL na problemach matematycznych z wieloetapowym reasoning.

Ile kosztuje GPT-5.5 w API i jak to się ma do konkurencji?

Cennik GPT-5.5 jest dwukrotnie wyższy niż GPT-5.4, co potwierdza tezę, że to nowa generacja, nie inkrement.

Model Input / 1M tokenów Output / 1M tokenów Kontekst
GPT-5.5 $5 $30 1M
GPT-5.5 Pro $30 $180 1M
GPT-5.4 (ref.) $2,50 $15 400k
Claude Opus 4.7 (ref.) $15 $75 1M

Dla developera oznacza to konkretną decyzję architektoniczną: czy płacisz 2× więcej za GPT-5.5 vs 5.4, czy routingujesz zapytania między modelami. Moja rekomendacja dla RAG-ów produkcyjnych: klasyfikator intentu + router — proste zapytania zostają na GPT-5.4 ($2,50), a agentic tasks + long-context idą na GPT-5.5.

Python — przykład routera kosztowego
from openai import OpenAI

client = OpenAI()

def route_model(task_type: str, context_tokens: int) -> str:
    """
    Routing oparty na koszcie. GPT-5.5 jest 2x droższy od 5.4,
    wiec uzywamy go tylko przy realnym gain.
    """
    if task_type in ("agentic_coding", "research", "frontier_math"):
        return "gpt-5.5-pro"  # $30/$180
    if context_tokens > 300_000 or task_type == "long_document":
        return "gpt-5.5"      # $5/$30 + 1M context
    return "gpt-5.4"          # $2.50/$15 — default

response = client.responses.create(
    model=route_model("agentic_coding", 50_000),
    input="Debuguj failing test w repo i napraw root cause."
)

Co dokładnie daje milion tokenów kontekstu?

GPT-5.5 wchodzi do API z oknem 1M tokenów — to ~750 tys. słów, czyli ~1500 stron A4. W praktyce zmienia to cztery klasy zastosowań:

  • Codebase-aware agents. Średni repo open-source Pythona ma 200–500k tokenów. GPT-5.5 wczytuje całość jednym calls, zamiast polegać na RAG-u z ryzykiem błędnego retrieval.
  • Analiza dokumentów regulacyjnych. EU AI Act + GDPR + MiCA razem to ~180k tokenów. Możesz wrzucić cały stack i pytać o konflikty.
  • Due diligence finansowe. 10-K raporty 500 stron + transkrypcje earnings calls z 4 kwartałów mieszczą się w jednym kontekście.
  • Literary/academic review. Kilka monografii naraz, z cross-referencing między nimi.
Ostrzeżenie o kosztach: 1M input tokenów w GPT-5.5 = $5. 1M tokenów w GPT-5.5 Pro = $30. Jedno błędne zapytanie na pełnym oknie kontekstu kosztuje jak obiad. Ustaw max_tokens na input i monitoruj usage.input_tokens w loggingu.

Jaka jest różnica między GPT-5.5 a GPT-5.5 Pro?

OpenAI pozycjonuje dwa warianty: bazowy GPT-5.5 (dla większości zastosowań) i GPT-5.5 Pro (dla frontier reasoning). Kluczowe różnice:

Porównanie GPT-5.5 vs GPT-5.5 Pro — kiedy wybrać który wariant Diagram pokazuje, że GPT-5.5 ($5/$30 za 1M tokenów) nadaje się do produkcyjnych agentów, RAG i knowledge work, natomiast GPT-5.5 Pro ($30/$180) do frontier math, research i najtrudniejszych zadań agentic coding. Oba mają 1M kontekstu. GPT-5.5 vs GPT-5.5 Pro — kiedy wybrać DecodeTheFuture.org GPT-5.5, GPT-5.5 Pro, OpenAI, LLM, benchmark, agentic coding, frontier math Decyzyjny diagram porównujący warianty GPT-5.5 z rekomendacjami zastosowań. Diagram image/svg+xml pl © DecodeTheFuture.org GPT-5.5 vs GPT-5.5 Pro Który wariant wybrać? GPT-5.5 $5 / $30 / 1M tok. Wybierz gdy: • RAG produkcyjny • Knowledge work • Agent z budżetem • Chat aplikacje • Analiza dokumentów Benchmarki: Terminal-Bench 82,7% GDPval 84,9% Latencja: jak GPT-5.4 Kontekst: 1M tokenów GPT-5.5 Pro $30 / $180 / 1M tok. Wybierz gdy: • Research naukowy • Frontier math • Złożone debugging • Analizy prawne • Multi-step reasoning Benchmarki: FrontierMath T4: 39,6% FrontierMath T1-3: 52,4% Dla ChatGPT Pro 6× droższy niż baza Źródło: openai.com/index/introducing-gpt-5-5 · 23.04.2026

Kiedy ROI GPT-5.5 Pro się opłaca?

Prosta heurystyka: jeśli błąd w output kosztuje >$200 (błędna analiza prawna, błędna rekomendacja inwestycyjna, złe review kodu krytycznego), to Pro zwraca się nawet przy 1 query na 7 tys. tokenów. Do zadań rutynowych Pro to marnotrawstwo.

Co OpenAI zmieniło w bezpieczeństwie GPT-5.5?

OpenAI wypuściło GPT-5.5 z „najsilniejszym zestawem zabezpieczeń do tej pory” — to oficjalna deklaracja z Deployment Safety Hub. Co to znaczy konkretnie:

  • Ewaluacja na pełnym Preparedness Framework — biologia, cyber, self-exfiltration, model autonomy.
  • Redteaming wewnętrzny + zewnętrzny przed release; rozszerzone testy dla cyber i biologii (model jest na tyle capable, że OpenAI przypisuje mu wyższą klasę ryzyka).
  • Feedback od ~200 trusted early-access partners — rzeczywiste use cases, nie tylko syntetyczne red-teamy.
  • Tightsze kontrole wokół wrażliwych zapytań (cyber offensive, sensitive personal data) i mechanizmy wykrywania powtarzającego się misuse per użytkownik.

Dla zespołów wdrażających GPT-5.5 produkcyjnie oznacza to jedno: więcej refusal na graniczne zapytania niż w GPT-5.4. Jeśli twój pipeline polegał na tym, że GPT-5.4 odpowiadał na pytania o pentesting lub syntezę chemiczną — GPT-5.5 będzie odmawiał częściej. Trzeba przeanalizować refusal_rate po migracji.

Jak GPT-5.5 mieści się w EU AI Act i jakie są obowiązki?

GPT-5.5 jest modelem general-purpose AI (GPAI) w rozumieniu EU AI Act 2024/1689. Z racji capabilities (FrontierMath, agentic coding) kwalifikuje się najpewniej jako GPAI z ryzykiem systemowym (Art. 51–55 AI Act) — próg 10^25 FLOPs przy treningu plus zdolności przekraczające state-of-the-art.

Obowiązki OpenAI jako dostawcy:

  • Ewaluacja modelu wg standardowych benchmarków (Art. 55 lit. a) — spełnione przez Deployment Safety Hub.
  • Ocena i mitigation ryzyka systemowego (Art. 55 lit. b) — redteaming + Preparedness Framework.
  • Zgłaszanie poważnych incydentów do AI Office (Art. 55 lit. c).
  • Cybersecurity adekwatny dla modelu i infrastruktury.
  • Publikacja podsumowania danych treningowych — compliance deadline już upłynął (sierpień 2025 dla GPT-5, kwiecień 2026 to aktualizacja).

Obowiązki deployera (ciebie, jeśli wdrażasz GPT-5.5 w swojej aplikacji):

  • Jeśli system high-risk (Annex III: scoring kredytowy, rekrutacja, edukacja, wymiar sprawiedliwości) — pełne Art. 26 AI Act: nadzór ludzki, monitoring, logging, DPIA.
  • Transparency (Art. 50): użytkownik musi wiedzieć, że rozmawia z AI.
  • Deepfake labelling (Art. 50 ust. 4): output generatywny oznaczamy jako AI-generated.
Dla Polski: UOKiK i KNF śledzą deployment LLM w finansach pod kątem Rekomendacji S i ustawy o usługach finansowych. Jeśli budujesz fintech na GPT-5.5, policz obowiązki dla scoringu kredytowego AI wcześniej niż później.

Gdzie GPT-5.5 realnie zmienia workflow? 5 case’ów z praktyki

1. Agentic coding w CI/CD

Z Terminal-Bench 82,7% wynika, że GPT-5.5 może obsłużyć pętlę „failing test → odczytaj log → zaproponuj fix → uruchom testy → iteruj” bez człowieka. W Codex CLI udaje mi się odpalić go jako runner debugujący małe bugi w branchach feature przed opening PR.

2. Due diligence finansowe (1M kontekst)

Wrzucam 10-K + earnings call transcripts + guidance z 4 kwartałów — łącznie ~600k tokenów — i pytam o inconsistencies między forward-looking statements a reported results. Rok temu wymagało to RAG-u z manualną weryfikacją; teraz jedno wywołanie. Koszt: ~$3 na query input.

3. Knowledge work z GDPval 84,9%

Dla retail traderów i analityków oznacza to, że rutynowe briefy makro czy screener comments stają się commodity. Przewagę konkurencyjną daje teraz to, co GDPval nie mierzy: timing, conviction, relacje.

4. Research asystent z FrontierMath 39,6% (Pro)

W matematyce badawczej GPT-5.5 Pro przestaje być „lepszym kalkulatorem” i zaczyna być współautorem przy wyprowadzeniach. To nie znaczy, że zastąpi matematyka — ale znaczy, że rutynowe verification kroków dowodu można delegować.

5. Edukacja i learning (PL)

Dla uczniów i licealistów (pisze to licealista z Krakowa): GPT-5.5 w darmowej wersji ChatGPT nie jest dostępny — trzeba Plus ($20/msc). Dla subskrypcji rodzicielskiej ma to sens przy intensywnym korzystaniu (olimpiady, matura rozszerzona). Dla sporadycznego użycia GPT-5.4 w darmowym pakiecie nadal wystarcza.

Jak zacząć z GPT-5.5 — minimalny kod i checklist migracji z 5.4

Python — Responses API (SDK OpenAI 2.x)
from openai import OpenAI

client = OpenAI()  # odczyta OPENAI_API_KEY z env

# Prosty call tekstowy
response = client.responses.create(
    model="gpt-5.5",
    input="Wyjasnij GDPval benchmark w 3 zdaniach po polsku.",
    max_output_tokens=500,
)
print(response.output_text)

# Z agentic tools (function calling)
tools = [{
    "type": "function",
    "name": "get_stock_price",
    "description": "Zwraca aktualna cene akcji.",
    "parameters": {
        "type": "object",
        "properties": {"ticker": {"type": "string"}},
        "required": ["ticker"],
    },
}]

response = client.responses.create(
    model="gpt-5.5",
    input="Ile kosztuje akcja AAPL?",
    tools=tools,
)

Checklist migracji z GPT-5.4:

  1. Zmień model="gpt-5.4" na "gpt-5.5" w jednym endpointcie (canary).
  2. Zaloguj response.usage.input_tokens i output_tokens przed i po — koszt 2× wyższy.
  3. Porównaj refusal_rate na reprezentatywnej próbce 500 produkcyjnych promptów. Spodziewaj się wzrostu.
  4. Jeśli używasz structured outputs (JSON schema) — zweryfikuj, że schema parser zachowuje się identycznie. Nowa base może łamać edge case parsing.
  5. Dla >300k tokenów kontekstu: test chunk ordering. Modele z dłuższym kontekstem nadal pokazują „lost in the middle” problem.
  6. Update monitoring alertów: latencja per-token identyczna z 5.4, więc alerting nie powinien się zmienić.

FAQ

Kiedy GPT-5.5 został wydany?

OpenAI opublikowało GPT-5.5 dnia 23 kwietnia 2026. Roll-out w ChatGPT rozpoczął się tego samego dnia dla Plus, Pro, Business i Enterprise; GPT-5.5 Pro trafił do subskrypcji Pro/Business/Enterprise. API było dostępne w Responses i Chat Completions w dniu premiery.

Ile kosztuje GPT-5.5 w API?

GPT-5.5 kosztuje $5 za 1M tokenów input i $30 za 1M tokenów output. GPT-5.5 Pro: $30/$180 za 1M tokenów. Oba warianty mają 1M kontekstu. To dwukrotnie więcej niż GPT-5.4 ($2,50/$15), co OpenAI uzasadnia nową bazą modelu i wyższymi capability.

Czy GPT-5.5 jest lepszy niż Claude Opus 4.7?

Zależy od zadania. Na FrontierMath Tier 4 GPT-5.5 Pro (39,6%) wyraźnie pokonuje Claude Opus 4.7 (22,9%). Na Terminal-Bench 2.0 GPT-5.5 (82,7%) wąsko prowadzi nad Claude Mythos Preview. Claude Opus 4.7 pozostaje konkurencyjny w długich zadaniach z utrzymywaniem kontekstu konwersacji i jest tańszy ($15/$75 vs $30/$180 dla Pro). Dla frontier math — GPT-5.5 Pro. Dla długiej konwersacji z wieloma narzędziami — nadal warto testować Opus 4.7.

Czy GPT-5.5 jest dostępny w darmowym ChatGPT?

Nie. GPT-5.5 wymaga subskrypcji ChatGPT Plus ($20/msc), Pro ($200/msc), Business lub Enterprise. Darmowi użytkownicy ChatGPT mają dostęp do starszych modeli z limitami. GPT-5.5 Pro dostępny jest tylko w planach Pro/Business/Enterprise.

Co to jest „pierwszy przetrenowany od zera model od GPT-4.5″?

OpenAI między GPT-4.5 (luty 2025) a GPT-5.5 (kwiecień 2026) wypuszczało GPT-5, 5.1, 5.2 i 5.4, ale były to post-treningi i fine-tuningi istniejącej bazy GPT-5. GPT-5.5 ma całkowicie nowy base model — nowe pre-training z nuli, nową mieszankę danych, nową architekturę. To dlatego benchmarki skaczą skokowo, a nie liniowo, i dlatego cena API się podwoiła.

Czy GPT-5.5 ma okno kontekstu 1 miliona tokenów w ChatGPT?

W API — tak, pełny 1M kontekstu. W interfejsie ChatGPT limit per konwersacja jest mniejszy (nie został oficjalnie opublikowany na dzień premiery, historycznie OpenAI trzymało ~128k–200k dla ChatGPT Pro). Pełne 1M realnie wykorzystuje się przez API lub Codex.

Czy GPT-5.5 wymaga nowego kontraktu z OpenAI ze względu na EU AI Act?

Nie — to GPAI ogólnego przeznaczenia dostępne w ramach istniejących Terms of Service OpenAI. Natomiast jeśli wdrażasz GPT-5.5 w systemie high-risk (Annex III AI Act: scoring kredytowy, rekrutacja, edukacja), to ty jako deployer musisz spełnić Art. 26 AI Act — niezależnie od kontraktu z OpenAI: nadzór ludzki, logging, DPIA, Fundamental Rights Impact Assessment. Polski UOKiK i KNF traktują te obowiązki poważnie.

Bibliografia i źródła

Powiązane artykuły DTF: Claude Opus 4.7 · Claude Design · Scoring kredytowy AI a EU AI Act · Trading praktyczny CFD

Dodaj komentarz