離線 LLM 真的比較省?把 Apple Silicon 成本攤開來看,答案可能剛好相反
本地跑模型,真的比較划算嗎?
這篇來自 William Angel 的分析,把很多人直覺上會忽略的事拆得很清楚:離線 LLM 的門檻,從來不只是一張電費帳單。真正影響成本的,是整台機器的折舊、推論吞吐量,以及你到底想用它完成多少工作。當這些數字一起攤開來看,Apple Silicon 在本地跑大型模型,未必比直接走 OpenRouter 這類雲端服務便宜。
先看最容易讓人誤判的電力成本。以 M5 MacBook Pro 在高負載下約 50 到 100 瓦、每度電約 0.20 美元來估算,純電費其實低得驚人,每小時大約只要 0.01 到 0.02 美元。換句話說,長時間推論的電費雖然不是零,但它根本不是壓垮成本的主因。很多人討論本地 AI 時,第一個反應都是「很耗電吧」,這個方向其實抓錯重點。
真正貴的是硬體本身。假設一台 14 吋、M5 Max、64GB RAM 的 MacBook Pro 售價 4,299 美元,若分別用 3 年、5 年、10 年來攤提,它每小時的硬體成本大約會落在 0.16、0.10、0.05 美元。這還沒算上高負載使用可能帶來的壽命壓力。也就是說,就算電費幾乎可以忽略,硬體折舊還是會直接把每百萬 token 的成本往上推。
接下來就回到最現實的問題:這台機器每秒到底能吐出多少 token?如果是像 Gemma 4 31B 這種夠有用的大模型,作者在 M5 Max 上觀察到的速度約為每秒 10 到 40 token。若只有每秒 10 token,每小時就是 36,000 token;若能跑到每秒 40 token,才會來到每小時 144,000 token。這個差距非常關鍵,因為它直接決定硬體成本要被多少輸出攤平。
把電費、折舊與推論速度一起換算後,Apple Silicon 本地推論的成本,大致會落在每百萬 token 0.40 到 4.79 美元之間。這個範圍很大,因為它取決於你採用的是樂觀估法還是保守估法。不過拿來跟市面雲端方案相比,方向已經很明顯。以 OpenRouter 上的 Gemma 4 31B 為例,價格大約在每百萬 token 0.38 到 0.50 美元。最理想的情況下,本地成本才可能勉強貼近;只要情境稍微沒那麼漂亮,差距就會被直接拉開。
這還只是單看帳面成本。如果把速度一起算進來,本地方案的劣勢會更明顯。作者提到,有些 OpenRouter 供應商能把 Gemma 4 拉到每秒 60 到 70 token,大約是本地 Pro Max 觀察值的 3 到 7 倍。這代表當使用者等待模型輸出的那段時間,本地不是單純「慢一點」,而是可能慢到影響整個工作流。對個人研究者或重視資料不外流的情境來說,本地推論仍然有價值;但對需要高頻互動、追求開發效率,甚至直接把 AI 當工作夥伴的人來說,時間就是成本,速度差距往往比電費差距更致命。
更殘酷的一點是,人力通常比 token 貴太多。若今天使用情境是開發者、分析師或知識工作者拿公司配的筆電做事,那一小時的人力成本,往往遠高於模型 token 的花費。站在這個角度來看,把時間卡在比較慢的本地推論上,不一定是節省,反而可能是把整體工作效率往下拉。這也是為什麼在很多商業情境裡,直接付費使用 Anthropic 或其他雲端模型,反而是更合理的選擇。
真正值得記住的,不是「本地 LLM 比較便宜」或「雲端一定比較好」這種偷懶結論,而是算成本時不能只盯著電。硬體折舊、tokens/sec、工作情境、等待成本,這些才是決定答案的主軸。Apple Silicon 能在消費級裝置上跑出接近 Sonnet 等級的模型,這件事依然很猛;只是如果問題是「本地跑模型,真的比較划算嗎?」目前看起來:不一定,而且很多時候其實比較貴。
消息來源:https://www.williamangel.net/blog/2026/05/17/offline-llm-energy-use.html