離線 LLM 真的比較省？把 Apple Silicon 成本攤開來看，答案可能剛好相反

5/19/2026

離線 LLM 真的比較省？把 Apple Silicon 成本攤開來看，答案可能剛好相反

本地跑模型，真的比較划算嗎？

這篇來自 William Angel 的分析，把很多人直覺上會忽略的事拆得很清楚：離線 LLM 的門檻，從來不只是一張電費帳單。真正影響成本的，是整台機器的折舊、推論吞吐量，以及你到底想用它完成多少工作。當這些數字一起攤開來看，Apple Silicon 在本地跑大型模型，未必比直接走 OpenRouter 這類雲端服務便宜。

先看最容易讓人誤判的電力成本。以 M5 MacBook Pro 在高負載下約 50 到 100 瓦、每度電約 0.20 美元來估算，純電費其實低得驚人，每小時大約只要 0.01 到 0.02 美元。換句話說，長時間推論的電費雖然不是零，但它根本不是壓垮成本的主因。很多人討論本地 AI 時，第一個反應都是「很耗電吧」，這個方向其實抓錯重點。

真正貴的是硬體本身。假設一台 14 吋、M5 Max、64GB RAM 的 MacBook Pro 售價 4,299 美元，若分別用 3 年、5 年、10 年來攤提，它每小時的硬體成本大約會落在 0.16、0.10、0.05 美元。這還沒算上高負載使用可能帶來的壽命壓力。也就是說，就算電費幾乎可以忽略，硬體折舊還是會直接把每百萬 token 的成本往上推。

接下來就回到最現實的問題：這台機器每秒到底能吐出多少 token？如果是像 Gemma 4 31B 這種夠有用的大模型，作者在 M5 Max 上觀察到的速度約為每秒 10 到 40 token。若只有每秒 10 token，每小時就是 36,000 token；若能跑到每秒 40 token，才會來到每小時 144,000 token。這個差距非常關鍵，因為它直接決定硬體成本要被多少輸出攤平。

把電費、折舊與推論速度一起換算後，Apple Silicon 本地推論的成本，大致會落在每百萬 token 0.40 到 4.79 美元之間。這個範圍很大，因為它取決於你採用的是樂觀估法還是保守估法。不過拿來跟市面雲端方案相比，方向已經很明顯。以 OpenRouter 上的 Gemma 4 31B 為例，價格大約在每百萬 token 0.38 到 0.50 美元。最理想的情況下，本地成本才可能勉強貼近；只要情境稍微沒那麼漂亮，差距就會被直接拉開。

這還只是單看帳面成本。如果把速度一起算進來，本地方案的劣勢會更明顯。作者提到，有些 OpenRouter 供應商能把 Gemma 4 拉到每秒 60 到 70 token，大約是本地 Pro Max 觀察值的 3 到 7 倍。這代表當使用者等待模型輸出的那段時間，本地不是單純「慢一點」，而是可能慢到影響整個工作流。對個人研究者或重視資料不外流的情境來說，本地推論仍然有價值；但對需要高頻互動、追求開發效率，甚至直接把 AI 當工作夥伴的人來說，時間就是成本，速度差距往往比電費差距更致命。

更殘酷的一點是，人力通常比 token 貴太多。若今天使用情境是開發者、分析師或知識工作者拿公司配的筆電做事，那一小時的人力成本，往往遠高於模型 token 的花費。站在這個角度來看，把時間卡在比較慢的本地推論上，不一定是節省，反而可能是把整體工作效率往下拉。這也是為什麼在很多商業情境裡，直接付費使用 Anthropic 或其他雲端模型，反而是更合理的選擇。

真正值得記住的，不是「本地 LLM 比較便宜」或「雲端一定比較好」這種偷懶結論，而是算成本時不能只盯著電。硬體折舊、tokens/sec、工作情境、等待成本，這些才是決定答案的主軸。Apple Silicon 能在消費級裝置上跑出接近 Sonnet 等級的模型，這件事依然很猛；只是如果問題是「本地跑模型，真的比較划算嗎？」目前看起來：不一定，而且很多時候其實比較貴。

消息來源：https://www.williamangel.net/blog/2026/05/17/offline-llm-energy-use.html

Search This Blog

metamuse

離線 LLM 真的比較省？把 Apple Silicon 成本攤開來看，答案可能剛好相反