來源:圖靈人工智能
The following article is from 數據實戰派 Author Neil、Svenja
數據實戰派
作者:Neil C. Thompson(麻省理工學院學者), Svenja Spanuth(瑞士蘇黎世聯邦理工學院博士研究生)
譯者:LZM
原文:The Decline of Computers as a General Purpose Technology
也許沒有一種其他技術能像計算機技術一樣,在過去幾十年里有如此巨大的進步。據估計,自 1974 年以來,美國總生產力增長的三分之一來自信息技術,它是國家繁榮的最大貢獻者之一。
關鍵點
丨揭示處理器發展規律的摩爾定律由兩股力量推進,科技進步和通用技術的經濟周期規律。后者簡稱 GPT(general purpose technology),受到市場增長和技術投資的相互作用左右。二者相互刺激,產生了強烈的經濟動力,促使用戶對快速改進的 CPU 進行標準化,而不是發展專用處理器。
丨今天,促進通用技術發展的兩股力量逐漸解開糾纏,導致市場增長和技術進步放緩。
丨隨著 CPU 技術發展減速,經濟動機將推動用戶轉向專用處理器。在這樣的計算環境中,一些用戶將走在快車道上,從定制的硬件中受益,而另一些用戶將留在慢車道上,受困于更新緩慢的 CPU。
計算機的興起一部分是由于技術上的成功,另一部分是由于資助它們的經濟力量。Bresnahan 和 Trajtenberg 創造了 “通用技術”(general purpose technology, GPT) 這一術語,指的是具有廣泛技術適用性,且產品改進和市場增長會相互推動的技術,如計算機技術。但是,他們也預測,GPT 在其生命周期結束時可能會遇到挑戰:隨著通用技術發展放緩,其他技術可能會在特定的利基領域取代通用技術,并破壞這種經濟強化周期。我們今天正在觀察這樣的轉變:中央處理器 (CPU) 發展緩慢,因此應用程序轉而求助于專用處理器,例如圖形處理單元 (GPU)。專用處理器比傳統的通用處理器提供更少種類的功能,但能更好地執行某些特定功能。許多應用已經在追隨這一趨勢,包括深度學習 (機器學習的一種形式) 和比特幣挖礦。
在此背景下,我們可以更精確地給出這一論點:“計算機作為一種通用技術正在衰落。” 我們并不是說計算機技術將失去其自身的科技能力,“忘記” 如何做計算。我們的意思是,以快速迭代的通用處理器支撐的通用計算平臺為主體的經濟周期,正在讓位于一個分裂周期。在這個周期中,經濟效益將把用戶推向由專用處理器驅動的不同計算平臺。
這種分裂意味著不同的計算將以不同的速度發展。對于那些進入 “快車道” 的應用來說,這并沒什么問題。快車道上的改進將繼續保持快速,但對于那些不再從推動計算技術進步的領導者那里獲得好處、因此不得不留在計算技術改進 “慢車道” 的應用和市場來說,情況就不妙了。這種轉變也可能減緩計算機發展的整體速度,危及這一經濟繁榮的重要來源。
通用計算和專用計算
早期 —— 從專門化到通用化。早期的電子技術產品,并非可執行多種不同計算任務的通用計算機,而是有專門用途的設備,如收音機和電視機。這些設備被設計用來完成某一項任務,而且只能完成這一項任務。這種專門化有如下優點:設計復雜且易于管理,處理器效率高,工作速度快,耗電量少。但與之對應的,專用處理器也 “更窄”,只能被很少一些上層應用所使用。
早期的電子計算機實際上都是為特定算法量身定制的,很難適應其他算法,即使是那些為 “通用” 目的而設計的計算機。例如,1946 年的 ENIAC 在理論上是一臺通用計算機,但它主要用于計算火炮射程表。如果需要稍微不同的計算,計算機將不得不手動重新連接,采用新的硬件設計。解決這一問題的關鍵是一種能夠存儲指令的新型計算機架構。這種架構使計算機更加靈活,使它能夠在通用硬件上執行許多不同的算法,而不是在專門的硬件上才能工作。這種 “馮?諾伊曼架構”(von Neumann architecture)十分成功,以至于它仍然是當今幾乎所有通用處理器的設計基礎。
通用處理器的崛起。許多技術,當它們被引入市場時,大多都經歷了一個良性的強化循環,幫助它們發展 (圖 1a)。早期使用者購買產品,然后獲得投資,使產品更好。隨著產品的改進,更多的消費者購買它,從而為下一輪的發展提供資金,依次類推。對于許多產品來說,隨著產品改進變得過于困難或市場增長停滯,這個周期會在中短期內逐漸結束。
圖 1. 通用處理器的歷史良性周期(a)正在轉變為碎片化周期(b)
通用技術的定義包括它在發展過程中持續受益于這一良性經濟周期的能力 —— 就像通用處理器幾十年來所經歷的那樣。這個市場已經從軍事、太空等領域的一些高價值應用發展到全球使用的 20 多億臺個人電腦。這種市場增長推動了對改進處理器的更大投資。例如,在過去的十年里,英特爾已經在研發和制造設施上花費了 1830 億美元。這帶來了巨大的回報:據估計,自 1971 年以來,處理器的性能提高了約 400,000 倍。
另一種選擇:專用處理器。通用處理器必須能夠很好地進行許多不同類型的計算。這導致設計上需要妥協,許多計算速度較快,但做不到最優化。對于適合專門化的應用來說,這種折衷帶來的性能損失是很高的,比如:
l 大量可并行的計算
l 穩定的計算
l 需要內存訪問的范圍和次數較少的計算
l 不需要高精度的計算
在這些情況下,專用處理器 (例如,專用于應用的集成電路 (ASIC)) 或異構芯片的專用部件 (例如,I.P. 塊) 可以執行得更好,因為它們可以通過定制以適應這些計算。
專門化導致處理器設計變化的程度,可以從典型 CPU (占主導地位的通用處理器) 和典型 GPU (最常見的專門化處理器類型) 的比較中看出。
表. CPU 和 GPU 的技術指標
GPU 運行速度較慢,頻率大約是 CPU 的三分之一。但在每個 clock 周期中,它可以并行執行比 CPU 多 100 倍的計算。這使得在具有大量并行度的任務中,GPU 比 CPU 要快得多,但是對于那些并行度很低的任務,它要慢得多。
GPU 通常有 5 - 10 倍的內存帶寬 (決定一次可以移動多少數據),但是在訪問數據時有更長的延遲 (最近的內存仍需至少 6 倍的 clock 周期)。這使得 GPU 在可預測的計算 (從內存中需要的數據可以在正確的時間被帶到處理器中) 方面做得更好,而在不可預測的計算方面做得更差。
對于與專用硬件匹配良好的應用程序 (并且可以使用編程模型 (例如 CUDA) 來利用該硬件),性能上的提高是相當可觀的。例如,在 2017 年,據 GPU 的領先制造商英偉達 (NVIDIA) 估計,深度學習 (AlexNet with Caffe) 在 GPU 上的運行速率可以達到 CPU 的 35 倍以上。
專用處理器的另一個重要好處是,它們使用更少的電力來進行相同的計算。這對于受電池壽命限制的應用程序 (手機、物聯網設備),以及那些進行大規模計算的應用程序 (云計算 / 數據中心、超級計算) 尤其有價值。
截至 2019 年,功率效率最高的 10 臺超級計算機中有 9 臺使用的是英偉達的 GPU。
專用處理器也有嚴重的缺點:它們只能運行有限范圍的程序,很難編程,通常需要運行操作系統的通用處理器來控制它們。設計和制造專門的硬件也很昂貴。對于通用處理器,它們的固定成本 (也稱為非經常性工程成本,NRE) 可以均攤到大量的芯片上。相比之下,專用處理器通常只擁有更小的市場,因此每個芯片的固定成本更高。更具體地說,使用尖端技術生產帶有特殊處理器的芯片的總成本約為 8000 萬美元 (截至 2018 年)。使用老一代的技術可以將成本降低到 3000 萬美元左右。
盡管專用處理器有很多優點,但是它們的缺點也很成問題,以至于在過去的幾十年里很少有人采用它們 (GPU 除外)。只有在性能提升非常有價值的領域,像軍事應用、游戲和加密貨幣挖掘,專用處理器確實得到了應用。而這種情況正在開始改變,專用處理器的應用越來越為廣泛。
專用處理器的現狀。所有主要的計算平臺,PC、移動端、物聯網 (IoT) 和云 / 超級計算機,都變得越來越專業化。其中,個人電腦仍然是最通用的。相比之下,由于電池壽命的關系,能源效率在移動端和物聯網領域更為重要。因此,智能手機芯片上的大部分電路和傳感器,如 RFID 標簽,都使用專門的處理器。
云 / 超級計算機也變得更加專業化。例如,2018 年,全球最快的 500 臺超級計算機中新增的超級計算機,其專用處理器的性能首次超過了通用處理器。
國際半導體技術路線(International Technology Roadmap for Semiconductors,ITRS), 作為協調了維持摩爾定律所需技術發展的重要組織,在 2015 年的執行報告中也暗示了這種向專用化轉變的趨勢。他們承認,傳統的 “一刀切” 的縮小晶體管方法不應再被確定為設計要求,而應針對特定的應用量身定制專用處理器。
在下一部分里,我們將探討所有主要計算平臺向專用處理器的轉變,以及這一過程將對生產通用處理器產生的經濟學方面的影響。
通用技術的碎片化
支持通用技術的良性循環,來自相互加強的一系列科學技術和經濟力量。不幸的是,這種相互加強也適用于相反的方向:如果在周期的某個部分中改進變慢,則在周期的其他部分中改進也會變慢。我們將此稱為 “分裂周期”,因為它有可能將計算碎片化為一組松散相關的筒倉,這些筒倉以不同的速度前進。
如圖 1(b)所示,分裂周期分為三個部分:
l 技術進步緩慢
l 更少的新用戶
l 為創新籌集資金更加困難
這個周期背后的直覺很簡單:如果技術進步緩慢,那么采用的新用戶的人數就會減少。但是,如果沒有這些用戶提供的市場增長,則改進該技術所需的不斷上升的成本可能變得令人望而卻步,從而減緩了技術進步。因此,該協同反應的每個部分進一步增強了碎片化。
在這里,我們描述了計算技術循環周期的這三個組成部分中每個部分的狀態,并表明分裂已經開始。
科學技術進步緩慢。為了衡量處理器的升級改進速度,我們考慮兩個關鍵指標:性能和每美元性能。從歷史上看,這兩個指標均在迅速提高,這主要得益于晶體管的小型化使得每個芯片的晶體管密度更高(摩爾定律)并且晶體管開關速度(通過 Dennard Scaling)也變得更快。不幸的是,由于技術原因,Dennard Scaling 于 2004/2005 年結束,而現在,摩爾定律也即將終結。這是由于制造商達到了現有的材料和設計的物理極限,而突破這些極限將需要付出大量的努力。在經濟放緩過程中,我們可以明顯地看到性能提升和每美元性能提升都有所放緩。
基于 Hennessy 和 Patterson 對 SPECInt 進度的描述(見圖 2.a)以及基于美國勞工統計局生產者價格指數(圖 2.b),顯示了通用計算機性能提升的顯著放緩。我們需要正確地看待這些比率,如果每美元的性能每年以 48%的速度提高,那么在 10 年內,其性能將提高 50 倍。相比之下,如果每年僅以 8%的速度提高,那么在 10 年內,它只會提高 2 倍。
圖 2. 微處理器的改進率,可以通過(a)SPECint 基準的年度性能改進和(b)年度質量調整后的價格下降來衡量
更少的新用戶。隨著通用處理器的改進步伐放慢,開發人員將創建更少的具有新功能的應用程序,因此客戶將失去更換其計算機設備的動力。英特爾首席執行官克贊尼希(Krzanich)在 2016 年證實了這一點,他說,PC 的更換率已從每四年一次逐步增加到現在的每 5-6 年一次。有時,客戶甚至跳過了多代處理器的改進,直到真的值得更新自己的電腦。在其他平臺方面,美國的智能手機在 2014 年平均每 23 個月進行一次升級;但到 2018 年時,這一時間延長至 31 個月。
用戶從通用處理器向專用處理器的遷移,是我們關于計算碎片化的論點的核心。因此我們將對其進行詳細地討論。考慮一個既可以使用通用處理器也可以使用專用處理器的用戶,同時他也是一個希望以最低成本獲得最佳性能的用戶。圖 3(a)和 3(b)給出了我們進行分析所需要的直觀信息。每個面板均顯示了通用處理器和專用處理器隨時間的性能變化曲線。圖 a 假設通用處理器的改進速度較快,而圖 b 假設通用處理器的改進速度較慢。在所有情況下,我們假設到時間 T,專用處理器的較高價格與對通用處理器進行一系列改進的成本所平衡。這意味著兩條曲線是成本均衡的,那么更好的性能同時意味著更卓越的每美元性能。這也是為什么在這兩張圖中,我們把專用處理器的性能描述成了恒定的。(當專用處理器得到了更新,它也同樣會受益于我們剛剛所描述的通用處理器受益于改進的過程。那么用戶將重復相同的決策過程)。
圖 3. 最佳處理器選擇取決于專用處理器提供的性能提升以及通用處理器的速度提升
如果專用處理器可以提供更強大的性能初始收益,那么它將會更具吸引力。但是,如果通用處理器的改進從(a)中快速發展模式到(b)中的較慢發展模式,它也會變得更具吸引力。我們通過考慮兩條時間路徑中的哪一條可帶來更多收益,來對此進行正式的建模。也就是說,專用處理器會更有吸引力,如果
其中,通用處理器和專用處理器在時間 T 上可提供性能分別為 Pu 和 Ps,通用處理器的改進速率記為 r。我們在在線附錄(https://doi.org/10.1145/3430936)中展示了該模型的完整推導過程。該推導使我們能夠從數字上估算專用處理器需要提供多少優勢,才能得以抵消更高的成本(圖 3(c)所示,CPU 的年改進率從每年 48%降低到每年 8%)。
專用處理器在提供更大的加速比或將其成本攤銷到更大的數量時,對消費者們更具吸引力。但是,基于通用處理器改進的步伐,當專業化變得更有吸引力時,這些臨界值將發生變化。重要的是,這種變化其實是不會出現的,因為我們假設總體上專用處理器與通用處理器之間的改進速率有所不同,即假定所有處理器都能夠使用當前最先進的制造技術。相反地,它的出現是因為必須分攤較高的專用處理器的每單位 NRE,以及在此期間與升級通用處理器相比帶來多少好處。
數值示例清楚地表明了這一變化的重要性。在摩爾定律的頂峰時期,當時每年的改進速度為 48%,即使專用處理器的速度比通用處理器快 100 倍,也需要至少 83000 個專用處理器的體量才能使投資獲得回報。考慮另一個極端,如果性能收益僅為 2 倍,則需要約 100 萬的產量才能使專用處理器變得有吸引力。這些結果清楚地說明了為什么在摩爾定律的鼎盛時期,專用處理器廠商很難進入市場。
然而,如果我們使用 8%(2008-2013 年的增長率)增長率重新計算處理器的選擇問題,則最終結果將發生顯著的變化:對于提速 100 倍的應用程序,所需的處理器數量從 83,000 降至 15,000;對于那些提速 2 倍的應用程序,所需的處理器數量從 1,000,000 下降到 81,000。因此,在通用處理器的發展速度變慢之后,更多的應用程序就有機會開始其專用化處理器的研發進程了。
為創新籌集資金更加困難。2017 年,根據半導體行業協會的估計,為下一代芯片建造和配備制造設施(“fab”)付出的總成本約為 70 億美元。“下一代” 是指芯片的下一個小型化組件(即 “process node”)。
投資于芯片制造設施的成本必須由它們產生的收入來補償。2016 年,該行業 3430 億美元的年收入中,多達 30%來自尖端芯片。因此,盡管收入是可觀的,但是成本也在增長。在過去的 25 年中,建造領先的晶圓廠(如圖 4a 所示)的投資每年以 11%的速度增長,這其中的主要推動因素是極高的光刻成本。將過程開發成本包括在此估算中,則進一步將成本增長率將提高到每年 13%(由 Santhanam 等根據 2001 至 2014 年間的數據測算。)。這些事實都導向了芯片制造商間廣為流傳的 “摩爾第二定律”,即:芯片廠的成本每四年翻一番。
圖 4. 芯片制造行業的經濟狀況每況愈下
從歷史上看,如此快速的固定成本增長對單位成本的影響,只能部分被強勁的整體半導體市場增長所抵消(1996-2016 年的復合增長率為 5%),這使半導體制造商能夠依靠更大的體量攤銷固定成本。固定成本每年增長 13%與市場每年增長 5%之間的巨大缺口,預計將導致競爭力較弱的參與者退出市場,而其余參與者則通過繼續增大體量來攤銷其固定成本。
如圖 4(b)所示,行業中確實存在著巨大的整合,生產領先芯片的公司越來越少。從 2002/2003 年到 2014/2015/2016 年,擁有領先晶圓廠的半導體制造商數量已從 25 家減少到只有 4 家,他們分別是:英特爾,臺積電(TSMC),三星和 GlobalFoundries。GlobalFoundries 最近宣布,他們不會繼續開發下一代通用處理器芯片。
我們發現,這種不正常的產業合并很有可能是由于固定成本快速上升且市場規模有限增長帶來的經濟惡化所致。通過一些更詳細的計算,我們可以看出市場整合在多大程度上改善了這些經濟性。如果將市場平均分配給不同公司,則意味著平均市場份額將從 2002/2003 年的 4% 增長到 2014/2015/2016 年的 25%。以年復合增長率表示,這個數字將是 14%。這意味著,生產商可以通過市場增長并占據現有工廠的市場份額(13%<5%+ 14%)來彌補晶圓廠建設方面日益惡化的經濟狀況。
在實踐中,市場不是平均分配的,英特爾占有主導地位。因此,英特爾將無法通過這種方式抵消固定成本的增長。實際上,在過去十年中,英特爾固定成本與其可變成本的比率已從 60%上升到 100%以上。考慮到英特爾近年來已經放慢了發布新處理器的步伐,那么他們其實已經減緩了繼續投資固定資產的節奏,這個比率的增長更令人震驚。
市場整合抵消固定成本增長的能力只能持續一段時間。我們根據當前的趨勢預測未來的發展,預計到 2026 年至 2032 年(取決于市場增長率),領先的半導體制造將只能支持單個壟斷制造商,并且為每款芯片建立一個新設施的年固定成本將等于年度行業收入。我們提出這一點并不是因為它在二十一世紀 20 年代末會變成現實,而是要強調當前的趨勢不能再繼續下去,否則僅在大約 10 年內,制造商們就將被迫大大放慢新技術和芯片的發布速度,并被迫尋找其他控制成本的方法。這兩方面的壓力都會進一步減緩通用處理器的研發速度。
分裂周期。在碎片化周期循環的三個部分中,每個部分都在相互加強的情況下,我們會看到越來越多的用戶將發現通用處理器更新甚微而因此轉向到專用處理器。對于那些有足夠需求和非常適合專用處理器(例如深度學習)的計算來說,這將意味著專用處理器能夠帶來顯著改善。對于其他人來說,專用化將不是他們的選擇。他們將留在通用處理器上,然而通用處理器卻發展地越來越慢。
深入理解 / 延伸
誰會使用專用處理器?如圖 3(c)所示,專用處理器技術將被那些從變革中獲得大幅度提速的任務處理器所采用,并且需要足夠的處理器需求量來平衡固定成本。根據以上這些標準,大型科技公司搖身變為最早投入研究專用處理器芯片的公司并不奇怪,例如 Google、Microsoft、Baidu 和 Alibaba。與已經被廣泛應用使用的 GPU 不同的是,我們所說的專業處理器是在一些更專業的領域中,因為只需要少量的處理器就可以使收益具有足夠的吸引力。
我們還期望那些原本不是專用處理器的硬件設計者,能像深度學習使用者利用 GPU 一樣,重新為專用處理器設計新算法,充分利用新的硬件。
預計小型化的最終好處將是價格溢價,并且僅可能由占市場主導地位的商業應用來支付。
誰會被拋在專用化潮流后面?不遷移到專用處理器的應用程序可能會失敗,因為它們:
l 收效甚微
l 沒有足夠大的市場來證明前期固定成本的合理性
l 無法協調他們的需求
先前,我們描述了四個特征,這些特征使得使用專用處理器可以加快計算速度。如果沒有這些特性,那么專門化只能帶來最小的性能提升(如果有的話)。一個重要的例子是數據庫。正如我們采訪的一位專家告訴我們的那樣:在過去的幾十年中,很明顯,專用于數據庫的處理器可能非常有用,但是數據庫所需的計算卻不適合采用專用處理器。
第二類將無法獲得專用處理器賦能的,是那些需求不足以證明前期固定成本合理的應用。正如我們從模型中得出的那樣,需要數以千計的處理器市場來證明專用化的合理性。這可能會影響那些在小范圍內進行密集計算的人(例如,研究科學家進行的罕見計算任務)或那些計算隨時間而快速變化從而需求迅速消失的人。
可能會落在后面的第三類,是那些沒有單個用戶代表足夠需求且協調困難的人群。例如,即使成千上萬的小型用戶集體有足夠的需求,要他們共同為生產專門的處理器做出貢獻也將是極其困難的。一種可能的方式是,云計算公司可以為創建專用處理器提供資金,然后將其出租出去。
技術進步會幫助我們擺脫困境嗎?回到一個用戶繼續使用通用處理器的循環中,處理器的性能和 / 或每美元性能都需要有快速提高。但是技術趨勢指向了相反的方向。例如,在性能方面,預計微型化的最終好處將是價格溢價,并且僅可能由重要的商業應用來支付。我們甚至不禁疑慮,所有剩余的、在技術上實際可行的小型化是否還要繼續完成?Gartner 預測,到 2026 年將有規模生產 5nm 節點尺寸,將會實現更多功能。而臺積電(TSMC)最近宣布了一項 195 億美元的 3nm 芯片工廠的計劃,但我們接觸的許多受訪者對是否值得將其小型化仍然表示懷疑。
是否有可能有其他的技術進步能恢復通用處理器改進的步伐嗎?當然,有關此類技術的討論很多:量子計算,碳納米管,光學計算等等。不幸的是,專家們預計,至少要再過十年,工業界才能設計出一種更廣泛使用的量子計算機,從而有可能替代傳統的通用計算機。擁有更廣闊前景的其他技術可能仍將需要大量資金來開發和生產,直至投入市場。
結論
傳統意義上,計算經濟學是由通用技術模型驅動的:通用處理器的發展越來越好,市場增長不斷推動了處理器的改進和對它們的改進的投資。幾十年來,這個良好的通用技術經濟周期使計算機成為經濟增長的最重要驅動力之一。
本文提供的證據表明,通用處理器的通用技術周期已被一種新的碎片化的周期所取代。在這個碎片化的周期當中,計算速度開始放緩,并且過去的用戶群體開始分崩離析。我們展示了碎片化周期的三個部分,每一個部分都已經處于正在進行中。通用處理器的改進速率已經出現了急劇且程度不斷加深的放緩。購買通用處理器和專用處理器之間的經濟權衡已急劇轉向專用處理器一邊。而且,建造更好的通用處理器的固定成本不斷上升,以至于無法再由市場增長率來彌補。
總而言之,這些發現清楚地表明,處理器的經濟狀況已經發生了巨大變化,將計算推入了截然不同的專業領域,彼此之間也很難互相促進減少了。而且,由于此循環是自我增強的,因此它將永久存在,從而進一步分散通用計算的份額,最終將會拆分出更多的應用程序以及它們的專用硬件。通用處理器的改進速度將進一步放慢。
總的來說,我們的文章強調了經濟學推動計算機技術發展的重大轉向,并對想要抵制碎片化循環的人提出了挑戰。
References:
1、 Amazon Web Services: Elastic GPUs, 2017; https://aws.amazon.com/de/ec2/elastic-gpus/
2. Bloom, N., Jones, C., Van Reenen, J. and Webb, M. Are Ideas Getting Harder to Find? Cambridge, MA, 2017; https://doi.org/10.3386/w23782
原文鏈接