Open-Source Inference Engineering for the Agentic Era

SponsorWorkshop trackconfirmed

Open-Source Inference Engineering for the Agentic Era

Day: Day 1 — Workshop Day
Time: 9:00am-11:00am
Room: Track 8
Track: Workshops Day 1

Accessible with the Engineering + Workshops pass and above.

About this session

Agentic coding workloads demand long contexts, multi-turn conversations, and throughput at a scale that most inference engines weren't built for. TokenSpeed is a new open-source engine purpose-built for this regime, built collaboratively by NVIDIA DevTech, AMD Triton, Qwen Inference, Together AI, and others. In this 2-hour hands-on workshop, Together Inference Research Engineers and a TokenSpeed co-creator will cover TokenSpeed architecture, deploying your first model, optimizing for agentic workloads, kernel and hardware tuning, and throughput/latency trade-offs.

Speakers

Zain Hasan

Staff AI/ML Engineer - DX · Together AI

Yubo Wang

LLM Inference · Together AI

Qingyang Wu

Staff Research Scientist · Together AI

Jue Wang

Senior Staff Researcher · Together AI