LIBRISTO
LIBROAMANTO
verplicht
Word lid van een gemeenschap van boekenliefhebbers van over de hele wereld en krijg een heleboel voordelen. Gratis account aanmaken
0
Gratis bezorging met Zásilkovna boven 59.99 €
DPD koerier 5.49 DHL koeriersdienst 5.49 GLS koerier 4.99 DPD-punt 3.99

Gratis verzending vanaf 59,99 euro.

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Taal EngelsEngels
Boek Gebonden (paperback)
Boek AI Inference Optimization Engineering ChatVariety Team
Libristo-code: 52770465
Uitgeverij Independently published, juni 2026
Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Volledige beschrijving
? points 28 b Wordt verwacht Wordt verwacht Nieuw Nieuw
11.41
Naar verwachting op voorraad Op voorraad op 07. 06. 2026

Retourneren binnen 30 dagen

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:
  • Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
  • State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
  • Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
  • Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
  • Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Actrice & Polyglot
EWA KASP voor
Video afspelen
Ewa Kasp
Libristo heeft de grootste selectie boeken in vreemde talen. Daarom koop ik mijn boeken hier.

Informatie over het boek

Volledige naam AI Inference Optimization Engineering
Taal Engels
Bindwijze Boek - Gebonden (paperback)
Datum van uitgifte 2026
Aantal pagina's 96
EAN 9798199720021
Libristo-code 52770465
Gewicht 142
Afmetingen 152 x 229 x 5
Geef dit boek vandaag nog cadeau
Dat gaat heel eenvoudig
1 Voeg het boek toe aan je winkelwagentje en selecteer Als cadeau bezorgen 2 Je krijgt van ons per omgaand een voucher 3 Het boek wordt bezorgd op het adres van de ontvanger

Inloggen

Log in op je account. Heb je nog geen Libristo-account? Maak nu een account aan!

 
verplicht
verplicht

Heb je geen account? Profiteer van de voordelen van een Libristo-account!

Met een Libristo-account heb je alles onder controle.

Een Libristo-account aanmaken