GPT-5.5 od OpenAI (23 kwietnia 2026): co się zmieniło, benchmarki i cennik
GPT-5.5 to model OpenAI wydany 23 kwietnia 2026 — pierwszy w pełni przetrenowany od zera base model od czasu GPT-4.5. Kluczowe liczby: 82,7% na Terminal-Bench 2.0 (state-of-the-art agentic coding), 84,9% parity z ekspertami w 44 zawodach (GDPval), 39,6% na FrontierMath Tier 4 (vs 22,9% Claude Opus 4.7). API: $5/$30 za 1M tokenów input/output, 1M kontekstu, ta sama latencja co GPT-5.4.
Co to jest GPT-5.5 i dlaczego to nie jest kolejny mały update?
GPT-5.5 to model wydany 23 kwietnia 2026 przez OpenAI, który według firmy jest pierwszym w pełni przetrenowanym base modelem od czasu GPT-4.5 (luty 2025). To ważna informacja techniczna: wersje pośrednie (5.1, 5.2, 5.4) były post-treningami i fine-tuningami istniejącej bazy. GPT-5.5 oznacza nowy punkt startowy architektury i nowy capability frontier.
Model pojawia się w ChatGPT (Plus, Pro, Business, Enterprise), w narzędziu Codex oraz w API (Responses + Chat Completions). Wariant GPT-5.5 Pro jest dostępny dla subskrypcji Pro/Business/Enterprise i dodaje rozszerzone reasoning dla najtrudniejszych zadań matematycznych i naukowych.
Jakie są konkretne benchmarki GPT-5.5?
OpenAI opublikowało wyniki na trzech benchmarkach pokrywających różne aspekty inteligencji: agentic coding, wiedzę zawodową i matematykę frontierową.
| Benchmark | Co mierzy | Wynik GPT-5.5 | Porównanie |
|---|---|---|---|
| Terminal-Bench 2.0 | Agentic coding: wykonywanie zadań w terminalu end-to-end | 82,7% | State-of-the-art; wąsko przed Claude Mythos Preview |
| GDPval | Praca umysłowa w 44 zawodach (prawo, finanse, PM, medycyna) | 84,9% | Match/beat wobec profesjonalistów z branży |
| FrontierMath Tier 1–3 | Matematyka research-level (zbudowana przez matematyków badaczy) | 52,4% (Pro) | Lider kategorii |
| FrontierMath Tier 4 | Najtrudniejszy tier FrontierMath — odporny na memoryzację | 39,6% (Pro) | vs 22,9% Claude Opus 4.7 |
Co to znaczy w praktyce? Trzy obserwacje, których nie zobaczysz w release notes OpenAI:
- Terminal-Bench 2.0 ≠ LeetCode. To benchmark end-to-end agentowy — model musi sam zdecydować, kiedy uruchomić test, kiedy przeczytać log, kiedy zakończyć. 82,7% oznacza, że w realnym use case (np. naprawianie bugów w CI) GPT-5.5 skraca pętlę developer → model → developer, zamiast jej wymagać.
- GDPval to ostrzeżenie dla knowledge workers. 84,9% parity z ekspertami w 44 zawodach to nie „AI zastąpi wszystkich” — to sygnał, że rutynowy output w prawie, analizie finansowej czy copywritingu jest teraz commodity. Przewagę zaczyna dawać to, czego benchmark nie mierzy: osąd, odpowiedzialność prawna, relacje klienckie.
- FrontierMath Tier 4 przy 39,6% to coś nowego. Jeszcze w 2024 r. wszystkie modele miały na tym benchmarku wyniki jednocyfrowe. Podwojenie wyniku Claude Opus 4.7 przez GPT-5.5 Pro sugeruje, że OpenAI zainwestowało w RL na problemach matematycznych z wieloetapowym reasoning.
Ile kosztuje GPT-5.5 w API i jak to się ma do konkurencji?
Cennik GPT-5.5 jest dwukrotnie wyższy niż GPT-5.4, co potwierdza tezę, że to nowa generacja, nie inkrement.
| Model | Input / 1M tokenów | Output / 1M tokenów | Kontekst |
|---|---|---|---|
| GPT-5.5 | $5 | $30 | 1M |
| GPT-5.5 Pro | $30 | $180 | 1M |
| GPT-5.4 (ref.) | $2,50 | $15 | 400k |
| Claude Opus 4.7 (ref.) | $15 | $75 | 1M |
Dla developera oznacza to konkretną decyzję architektoniczną: czy płacisz 2× więcej za GPT-5.5 vs 5.4, czy routingujesz zapytania między modelami. Moja rekomendacja dla RAG-ów produkcyjnych: klasyfikator intentu + router — proste zapytania zostają na GPT-5.4 ($2,50), a agentic tasks + long-context idą na GPT-5.5.
from openai import OpenAI
client = OpenAI()
def route_model(task_type: str, context_tokens: int) -> str:
"""
Routing oparty na koszcie. GPT-5.5 jest 2x droższy od 5.4,
wiec uzywamy go tylko przy realnym gain.
"""
if task_type in ("agentic_coding", "research", "frontier_math"):
return "gpt-5.5-pro" # $30/$180
if context_tokens > 300_000 or task_type == "long_document":
return "gpt-5.5" # $5/$30 + 1M context
return "gpt-5.4" # $2.50/$15 — default
response = client.responses.create(
model=route_model("agentic_coding", 50_000),
input="Debuguj failing test w repo i napraw root cause."
)
Co dokładnie daje milion tokenów kontekstu?
GPT-5.5 wchodzi do API z oknem 1M tokenów — to ~750 tys. słów, czyli ~1500 stron A4. W praktyce zmienia to cztery klasy zastosowań:
- Codebase-aware agents. Średni repo open-source Pythona ma 200–500k tokenów. GPT-5.5 wczytuje całość jednym calls, zamiast polegać na RAG-u z ryzykiem błędnego retrieval.
- Analiza dokumentów regulacyjnych. EU AI Act + GDPR + MiCA razem to ~180k tokenów. Możesz wrzucić cały stack i pytać o konflikty.
- Due diligence finansowe. 10-K raporty 500 stron + transkrypcje earnings calls z 4 kwartałów mieszczą się w jednym kontekście.
- Literary/academic review. Kilka monografii naraz, z cross-referencing między nimi.
max_tokens na input i monitoruj usage.input_tokens w loggingu.
Jaka jest różnica między GPT-5.5 a GPT-5.5 Pro?
OpenAI pozycjonuje dwa warianty: bazowy GPT-5.5 (dla większości zastosowań) i GPT-5.5 Pro (dla frontier reasoning). Kluczowe różnice:
Kiedy ROI GPT-5.5 Pro się opłaca?
Prosta heurystyka: jeśli błąd w output kosztuje >$200 (błędna analiza prawna, błędna rekomendacja inwestycyjna, złe review kodu krytycznego), to Pro zwraca się nawet przy 1 query na 7 tys. tokenów. Do zadań rutynowych Pro to marnotrawstwo.
Co OpenAI zmieniło w bezpieczeństwie GPT-5.5?
OpenAI wypuściło GPT-5.5 z „najsilniejszym zestawem zabezpieczeń do tej pory” — to oficjalna deklaracja z Deployment Safety Hub. Co to znaczy konkretnie:
- Ewaluacja na pełnym Preparedness Framework — biologia, cyber, self-exfiltration, model autonomy.
- Redteaming wewnętrzny + zewnętrzny przed release; rozszerzone testy dla cyber i biologii (model jest na tyle capable, że OpenAI przypisuje mu wyższą klasę ryzyka).
- Feedback od ~200 trusted early-access partners — rzeczywiste use cases, nie tylko syntetyczne red-teamy.
- Tightsze kontrole wokół wrażliwych zapytań (cyber offensive, sensitive personal data) i mechanizmy wykrywania powtarzającego się misuse per użytkownik.
Dla zespołów wdrażających GPT-5.5 produkcyjnie oznacza to jedno: więcej refusal na graniczne zapytania niż w GPT-5.4. Jeśli twój pipeline polegał na tym, że GPT-5.4 odpowiadał na pytania o pentesting lub syntezę chemiczną — GPT-5.5 będzie odmawiał częściej. Trzeba przeanalizować refusal_rate po migracji.
Jak GPT-5.5 mieści się w EU AI Act i jakie są obowiązki?
GPT-5.5 jest modelem general-purpose AI (GPAI) w rozumieniu EU AI Act 2024/1689. Z racji capabilities (FrontierMath, agentic coding) kwalifikuje się najpewniej jako GPAI z ryzykiem systemowym (Art. 51–55 AI Act) — próg 10^25 FLOPs przy treningu plus zdolności przekraczające state-of-the-art.
Obowiązki OpenAI jako dostawcy:
- Ewaluacja modelu wg standardowych benchmarków (Art. 55 lit. a) — spełnione przez Deployment Safety Hub.
- Ocena i mitigation ryzyka systemowego (Art. 55 lit. b) — redteaming + Preparedness Framework.
- Zgłaszanie poważnych incydentów do AI Office (Art. 55 lit. c).
- Cybersecurity adekwatny dla modelu i infrastruktury.
- Publikacja podsumowania danych treningowych — compliance deadline już upłynął (sierpień 2025 dla GPT-5, kwiecień 2026 to aktualizacja).
Obowiązki deployera (ciebie, jeśli wdrażasz GPT-5.5 w swojej aplikacji):
- Jeśli system high-risk (Annex III: scoring kredytowy, rekrutacja, edukacja, wymiar sprawiedliwości) — pełne Art. 26 AI Act: nadzór ludzki, monitoring, logging, DPIA.
- Transparency (Art. 50): użytkownik musi wiedzieć, że rozmawia z AI.
- Deepfake labelling (Art. 50 ust. 4): output generatywny oznaczamy jako AI-generated.
Gdzie GPT-5.5 realnie zmienia workflow? 5 case’ów z praktyki
1. Agentic coding w CI/CD
Z Terminal-Bench 82,7% wynika, że GPT-5.5 może obsłużyć pętlę „failing test → odczytaj log → zaproponuj fix → uruchom testy → iteruj” bez człowieka. W Codex CLI udaje mi się odpalić go jako runner debugujący małe bugi w branchach feature przed opening PR.
2. Due diligence finansowe (1M kontekst)
Wrzucam 10-K + earnings call transcripts + guidance z 4 kwartałów — łącznie ~600k tokenów — i pytam o inconsistencies między forward-looking statements a reported results. Rok temu wymagało to RAG-u z manualną weryfikacją; teraz jedno wywołanie. Koszt: ~$3 na query input.
3. Knowledge work z GDPval 84,9%
Dla retail traderów i analityków oznacza to, że rutynowe briefy makro czy screener comments stają się commodity. Przewagę konkurencyjną daje teraz to, co GDPval nie mierzy: timing, conviction, relacje.
4. Research asystent z FrontierMath 39,6% (Pro)
W matematyce badawczej GPT-5.5 Pro przestaje być „lepszym kalkulatorem” i zaczyna być współautorem przy wyprowadzeniach. To nie znaczy, że zastąpi matematyka — ale znaczy, że rutynowe verification kroków dowodu można delegować.
5. Edukacja i learning (PL)
Dla uczniów i licealistów (pisze to licealista z Krakowa): GPT-5.5 w darmowej wersji ChatGPT nie jest dostępny — trzeba Plus ($20/msc). Dla subskrypcji rodzicielskiej ma to sens przy intensywnym korzystaniu (olimpiady, matura rozszerzona). Dla sporadycznego użycia GPT-5.4 w darmowym pakiecie nadal wystarcza.
Jak zacząć z GPT-5.5 — minimalny kod i checklist migracji z 5.4
from openai import OpenAI
client = OpenAI() # odczyta OPENAI_API_KEY z env
# Prosty call tekstowy
response = client.responses.create(
model="gpt-5.5",
input="Wyjasnij GDPval benchmark w 3 zdaniach po polsku.",
max_output_tokens=500,
)
print(response.output_text)
# Z agentic tools (function calling)
tools = [{
"type": "function",
"name": "get_stock_price",
"description": "Zwraca aktualna cene akcji.",
"parameters": {
"type": "object",
"properties": {"ticker": {"type": "string"}},
"required": ["ticker"],
},
}]
response = client.responses.create(
model="gpt-5.5",
input="Ile kosztuje akcja AAPL?",
tools=tools,
)
Checklist migracji z GPT-5.4:
- Zmień
model="gpt-5.4"na"gpt-5.5"w jednym endpointcie (canary). - Zaloguj
response.usage.input_tokensioutput_tokensprzed i po — koszt 2× wyższy. - Porównaj
refusal_ratena reprezentatywnej próbce 500 produkcyjnych promptów. Spodziewaj się wzrostu. - Jeśli używasz structured outputs (JSON schema) — zweryfikuj, że schema parser zachowuje się identycznie. Nowa base może łamać edge case parsing.
- Dla >300k tokenów kontekstu: test chunk ordering. Modele z dłuższym kontekstem nadal pokazują „lost in the middle” problem.
- Update monitoring alertów: latencja per-token identyczna z 5.4, więc alerting nie powinien się zmienić.
FAQ
Kiedy GPT-5.5 został wydany?
OpenAI opublikowało GPT-5.5 dnia 23 kwietnia 2026. Roll-out w ChatGPT rozpoczął się tego samego dnia dla Plus, Pro, Business i Enterprise; GPT-5.5 Pro trafił do subskrypcji Pro/Business/Enterprise. API było dostępne w Responses i Chat Completions w dniu premiery.
Ile kosztuje GPT-5.5 w API?
GPT-5.5 kosztuje $5 za 1M tokenów input i $30 za 1M tokenów output. GPT-5.5 Pro: $30/$180 za 1M tokenów. Oba warianty mają 1M kontekstu. To dwukrotnie więcej niż GPT-5.4 ($2,50/$15), co OpenAI uzasadnia nową bazą modelu i wyższymi capability.
Czy GPT-5.5 jest lepszy niż Claude Opus 4.7?
Zależy od zadania. Na FrontierMath Tier 4 GPT-5.5 Pro (39,6%) wyraźnie pokonuje Claude Opus 4.7 (22,9%). Na Terminal-Bench 2.0 GPT-5.5 (82,7%) wąsko prowadzi nad Claude Mythos Preview. Claude Opus 4.7 pozostaje konkurencyjny w długich zadaniach z utrzymywaniem kontekstu konwersacji i jest tańszy ($15/$75 vs $30/$180 dla Pro). Dla frontier math — GPT-5.5 Pro. Dla długiej konwersacji z wieloma narzędziami — nadal warto testować Opus 4.7.
Czy GPT-5.5 jest dostępny w darmowym ChatGPT?
Nie. GPT-5.5 wymaga subskrypcji ChatGPT Plus ($20/msc), Pro ($200/msc), Business lub Enterprise. Darmowi użytkownicy ChatGPT mają dostęp do starszych modeli z limitami. GPT-5.5 Pro dostępny jest tylko w planach Pro/Business/Enterprise.
Co to jest „pierwszy przetrenowany od zera model od GPT-4.5″?
OpenAI między GPT-4.5 (luty 2025) a GPT-5.5 (kwiecień 2026) wypuszczało GPT-5, 5.1, 5.2 i 5.4, ale były to post-treningi i fine-tuningi istniejącej bazy GPT-5. GPT-5.5 ma całkowicie nowy base model — nowe pre-training z nuli, nową mieszankę danych, nową architekturę. To dlatego benchmarki skaczą skokowo, a nie liniowo, i dlatego cena API się podwoiła.
Czy GPT-5.5 ma okno kontekstu 1 miliona tokenów w ChatGPT?
W API — tak, pełny 1M kontekstu. W interfejsie ChatGPT limit per konwersacja jest mniejszy (nie został oficjalnie opublikowany na dzień premiery, historycznie OpenAI trzymało ~128k–200k dla ChatGPT Pro). Pełne 1M realnie wykorzystuje się przez API lub Codex.
Czy GPT-5.5 wymaga nowego kontraktu z OpenAI ze względu na EU AI Act?
Nie — to GPAI ogólnego przeznaczenia dostępne w ramach istniejących Terms of Service OpenAI. Natomiast jeśli wdrażasz GPT-5.5 w systemie high-risk (Annex III AI Act: scoring kredytowy, rekrutacja, edukacja), to ty jako deployer musisz spełnić Art. 26 AI Act — niezależnie od kontraktu z OpenAI: nadzór ludzki, logging, DPIA, Fundamental Rights Impact Assessment. Polski UOKiK i KNF traktują te obowiązki poważnie.
Bibliografia i źródła
- OpenAI — Introducing GPT-5.5 (oficjalna nota, 23.04.2026)
- OpenAI — GPT-5.5 Deployment Safety Hub (System Card)
- OpenAI API — dokumentacja Responses i Chat Completions
- Rozporządzenie (UE) 2024/1689 — EU AI Act (Art. 51–55 dla GPAI z ryzykiem systemowym)
- Komisja Nadzoru Finansowego — komunikaty nt. AI w sektorze finansowym
- UOKiK — praktyki rynkowe z wykorzystaniem AI
- Epoch AI — FrontierMath Benchmark methodology and tiers (2024–2026)
- Terminal-Bench 2.0 — Evaluation framework for agentic coding
- GDPval — Knowledge work benchmark across 44 occupations (OpenAI, 2026)
- Ignacy Kwiecień — osobiste testy GPT-5.5 w Codex CLI, kwiecień 2026 (DTF)