Hadamard и LLM: когда «эффективность» снова звучит как «костыль».

Все мы давно привыкли к тому, что увеличение контекстного окна больших языковых моделей неизбежно влечёт за собой квадратичный рост вычислительных затрат – и смирились с этим как с неизбежностью. Но, когда появляется работа вроде “Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference”, предлагающая решить проблему, не просто оптимизируя существующие подходы, а переосмысливая саму структуру внимания, возникает вопрос: а не является ли эта кажущаяся простотой идея всего лишь очередной красивой математической абстракцией, оторванной от суровой реальности ограниченных ресурсов и реальных требований к скорости?





