WWDC 2026 Apple Intelligence 아키텍처 한눈에 보기

2026년 6월 WWDC에서 Apple은 Apple Intelligence를 3세대 파운데이션 모델(AFM 3) 위로 통째로 재설계했습니다. 모델 한두 개를 바꾼 게 아니라, 요청이 들어와서 처리되어 나가기까지의 전체 경로를 다시 짠 것에 가깝습니다. 그래서 이번 글은 깊게 파기보다 한 장의 그림으로 전체 구조를 잡는 것을 목표로 합니다.

전체 구조 — 한 장으로

WWDC 2026 Apple Intelligence 아키텍처 전체 구조

읽는 법은 위에서 아래로입니다. ① 사용자 요청(텍스트·이미지·음성)이 들어오면 ② System Orchestrator가 받아서, 활성 앱과 현재 작업을 보고 ③ 온디바이스 모델로 처리할지 Private Cloud Compute(PCC) 로 넘길지 정합니다. 이 둘은 Apple 프라이버시 경계 안에 함께 묶여 Google과 격리돼 있습니다. 그림 오른쪽의 Google Gemini는 점선 — 즉 학습 단계에만 관여하고 실제 추론 경로에는 닿지 않습니다. 맨 아래 Foundation Models framework는 이 모든 걸 개발자에게 여는 표면입니다.

아래에서 각 블록을 하나씩 짚습니다.

1. System Orchestrator — 중앙 라우터

새 아키텍처의 한가운데에는 System Orchestrator가 있습니다. 모든 Apple Intelligence 요청이 여기를 거칩니다.

활성 앱의 context + 사용자의 현재 작업을 읽어 응답을 맞춤화합니다. 메일 앱에서의 “요약”과 사진 앱에서의 “요약”이 다르게 처리되는 이유입니다.
그 판단으로 요청을 온디바이스냐 PCC냐로 라우팅합니다. 가볍고 즉각적인 일은 기기에서, 무겁고 복잡한 일은 클라우드로.
Apple이 말하는 “진짜 시스템 전역 지능(system-wide intelligence)“의 실체가 이 조정자입니다.

2. On-device — 기기 안에서 도는 두 모델

오프라인에서도 즉각 응답하고 데이터가 기기 밖으로 나가지 않는 영역입니다. 두 모델이 있습니다.

AFM 3 Core — 3B dense. 라우팅·자연어 이해(NLU)·경량 텍스트를 담당하는 기본기. 더 많은 기기에서 돕니다.
AFM 3 Core Advanced — 20B sparse인데 요청마다 1~4B만 활성됩니다. 새 Siri·dictation·TTS·이미지 이해를 맡는 최상위 온디바이스 모델입니다.

여기서 핵심 기술이 IFP(Instruction-Following Pruning) 입니다. 프롬프트를 먼저 읽고 그 입력에 필요한 부분만 동적으로 켜는 방식이라, 20B 전체를 메모리에 올리지 않고도 폰에서 굴릴 수 있습니다. IFP·MoE·메모리 운용의 내부 동작은 별도 딥다이브 글에서 자세히 다룹니다 — 이 글은 “전체 지도에서 어디에 있는가”까지만 봅니다.

3. Private Cloud Compute — 서버로 넘기는 세 모델

기기가 감당하기 버거운 일은 Private Cloud Compute로 갑니다. 기기 수준 보안을 클라우드까지 확장해, 보낸 데이터는 즉시 요청 처리에만 쓰이고 Apple조차 접근할 수 없으며, 그 사실을 외부에서 검증할 수 있게 설계됐습니다.

AFM 3 Cloud — 메인 텍스트·이미지 이해 모델. 32K 토큰 컨텍스트.
AFM 3 Cloud Image — Image Playground·Reframe·Extend·Cleanup 등 이미지 생성·편집 전용.
AFM 3 Cloud Pro — 가장 강력. 복잡한 추론과 에이전트형 도구 사용 담당. 이것만 Google Cloud의 NVIDIA GPU에서 구동됩니다(그래도 PCC 보안 경계 안).

4. Google Gemini의 진짜 역할 — 오해 정정

보도 헤드라인은 “Gemini가 Apple Intelligence를 돌린다”였지만, 실제 구조는 다릅니다. 그림에서 Gemini를 점선·경계 바깥에 둔 이유입니다.

Apple 자체 AFM 3 모델들은 추론에 Gemini 코드를 한 줄도 쓰지 않습니다. Gemini는 모델을 만드는 학습(distillation) 단계의 신호로만 쓰였습니다 — “full replacement가 아니라 distillation”.
사용자가 Siri/Apple Intelligence를 써도 Google 코드·Gemini 에이전트·Google 검색을 거치지 않습니다. Apple Intelligence와 Gemini 앱은 서로 흔적을 남기지 않게 완전히 격리됩니다.
한 임원의 표현: “우리가 쓰는 Google Assistant의 양은 전혀 없다(none).”

정리하면 “Gemini의 모델 기술”을 학습에 빌렸을 뿐, “Gemini라는 어시스턴트”를 갖다 쓴 게 아닙니다. 유일한 인프라 접점은 위에서 본 Cloud Pro의 Google Cloud GPU뿐입니다.

5. 개발자 표면 — Foundation Models framework

같은 모델 패밀리를 개발자에게 여는 Swift API입니다. API 키·토큰당 과금 없이 온디바이스 모델을 쓸 수 있고(다운로드 200만 미만 개발자는 PCC 모델도 무료), 올해 이미지 입력이 추가돼 클라우드 왕복 없이 사진 캡셔닝·영수증 추출 같은 작업을 기기에서 합니다.

Language Model protocol — 온디바이스 AFM은 물론 Claude·Gemini 같은 서드파티 클라우드 모델도 같은 API로 호출합니다. 단, 이건 개발자의 선택지이지 Apple Intelligence 본체가 그걸로 도는 건 아닙니다.
Dynamic Profiles — 세션 도중에 모델·도구·지시문을 즉석 교체 → 멀티 에이전트 워크플로 구성.
App Intents → Spotlight — 앱 콘텐츠를 시맨틱 인덱스에 기여해 자연어로 검색·실행되게 합니다.

곁다리 — 성능과 출시 제약

세대 간 선호도(2025 대비 blind 비교): AFM 3 Core 텍스트 45.6% vs 23.3%, AFM 3 Cloud 텍스트 64.7% vs 8.7%. Cloud Pro는 텍스트 +10%·수학 +14%·이미지 이해 +14% 추가 우위. 다만 타사 frontier 모델과의 비교가 아니라 Apple 라인업 내 진보 지표입니다.
하드웨어: iPhone 16, iPhone 15 Pro/Pro Max 이상.
지역: EU는 출시 시점 iPhone/iPad용 Siri AI 제외(Mac·Watch·Vision Pro는 포함), 중국 본토는 승인 대기.
언어: 영어로 시작해 32개 로케일 순차 확대.

정리

System Orchestrator가 모든 요청을 받아 context를 보고 온디바이스 ↔ PCC로 라우팅한다.
온디바이스는 AFM 3 Core(3B dense)와 IFP 기반 Core Advanced(20B sparse, 1~4B 활성).
PCC는 Cloud(32K)·Cloud Image·Cloud Pro 3종, 무거운 추론과 에이전트·이미지를 담당.
Gemini는 학습 distillation 신호일 뿐 추론 경로 밖 — 격리와 프라이버시가 설계의 중심.
Foundation Models framework가 이 모두를 Swift API로 개발자에게 연다.

핵심 한 줄: “무엇이 더 똑똑해졌나”보다, 요청을 적재적소(기기/클라우드)로 나누는 조정자와 프라이버시 경계를 중심에 둔 구조가 이번 재설계의 진짜 골자입니다.