Announcement_1

Created on April 06, 2026

2026

New preprint: TriAttention achieves 2.5x throughput for long-context LLM reasoning via trigonometric KV cache compression, enabling deployment on a single consumer GPU.