บ้าน ส่งต่อความคิด Google cloud tpus เป็นส่วนหนึ่งของแนวโน้มที่มีต่อโปรเซสเซอร์ ai เฉพาะ

Google cloud tpus เป็นส่วนหนึ่งของแนวโน้มที่มีต่อโปรเซสเซอร์ ai เฉพาะ

2024

วีดีโอ: à¹€à¸žà¸¥à¸‡à¹ à¸”à¸™à¸‹à¹Œà¸¡à¸²à¹ƒà¸«à¸¡à¹ˆ2017à¹€à¸šà¸ªà¹ à¸™à¹ˆà¸™à¸Ÿà¸±à¸‡à (ธันวาคม 2024)

วีดีโอ: à¹€à¸žà¸¥à¸‡à¹ à¸”à¸™à¸‹à¹Œà¸¡à¸²à¹ƒà¸«à¸¡à¹ˆ2017à¹€à¸šà¸ªà¹ à¸™à¹ˆà¸™à¸Ÿà¸±à¸‡à (ธันวาคม 2024)

ในช่วงไม่กี่สัปดาห์ที่ผ่านมามีการเปิดตัวแพลตฟอร์มการประมวลผลใหม่จำนวนมากที่ออกแบบมาเฉพาะสำหรับการทำงานบนเครือข่ายนิวรัลเพื่อการเรียนรู้ของเครื่องรวมถึง "cloud TPUs" ใหม่ของ Google และการออกแบบ Volta ใหม่ของ Nvidia

สำหรับฉันนี่เป็นแนวโน้มที่น่าสนใจที่สุดในสถาปัตยกรรมคอมพิวเตอร์ - ยิ่งกว่า AMD และตอนนี้ Intel ขอแนะนำซีพียู 16-core และ 18-core แน่นอนว่ามีวิธีการอื่น ๆ แต่ Nvidia และ Google สมควรได้รับความสนใจอย่างมากสำหรับวิธีการเฉพาะของพวกเขา

ที่ Google I / O ฉันเห็นว่ามันแนะนำ "cloud TPU" (สำหรับหน่วยประมวลผล Tensor ซึ่งระบุว่าเหมาะสำหรับกรอบการเรียนรู้ของเครื่อง TensorFlow ของ Google) TPU รุ่นก่อนหน้านี้เปิดตัวเมื่อปีที่แล้วเป็น ASIC ที่ได้รับการออกแบบมาเพื่อการอนุมาน - การดำเนินการเรียนรู้ของเครื่อง - แต่รุ่นใหม่ได้รับการออกแบบสำหรับการอนุมานและฝึกอบรมอัลกอริธึมดังกล่าว

ในกระดาษล่าสุด Google ให้รายละเอียดเพิ่มเติมเกี่ยวกับ TPU ต้นฉบับซึ่งอธิบายว่าประกอบด้วยเมทริกซ์ของหน่วย 256-by-256 multi-accumulate (MAC) (รวม 65, 536) ด้วยประสิทธิภาพสูงสุด 92 teraops (ล้านล้านการดำเนินการต่อ วินาที) มันได้รับคำแนะนำจากโฮสต์ซีพียูบน PCIe Gen 3 บัส Google กล่าวว่านี่เป็นไดร์ 28nm ที่มีขนาดน้อยกว่าครึ่งหนึ่งของโปรเซสเซอร์ Intel Haswell Xeon 22nm และมีประสิทธิภาพสูงกว่าโปรเซสเซอร์นั้นและโปรเซสเซอร์ 28nm K80 ของ Nvidia

เวอร์ชั่นใหม่ขนานนาม TPU 2.0 หรือ cloud TPU (ดังที่เห็นด้านบน) มีตัวประมวลผลสี่ตัวบนบอร์ดและ Google กล่าวว่าแต่ละบอร์ดมีความสามารถในการเข้าถึง 180 teraflops (180 ล้านล้านจุดต่อวินาที) เช่นเดียวกับที่สำคัญบอร์ดได้รับการออกแบบให้ทำงานร่วมกันโดยใช้เครือข่ายความเร็วสูงที่กำหนดเองดังนั้นพวกเขาจึงทำหน้าที่เป็นเครื่องเดียวที่เรียนรู้เรื่องซุปเปอร์คอมพิวติ้งที่ Google เรียกว่า "พ็อด TPU"

พ็อด TPU รุ่นนี้ประกอบไปด้วย TPU รุ่นที่สอง 64 วินาทีและมี Petaflops มากถึง 11.5 เพ็ทเพื่อเร่งการฝึกอบรมรูปแบบการเรียนรู้ของเครื่องขนาดใหญ่เพียงเครื่องเดียว ในการประชุม Fei Fei Li ผู้เป็นหัวหน้าฝ่ายวิจัย AI ของ Google กล่าวว่าในขณะที่หนึ่งในรูปแบบการเรียนรู้ขนาดใหญ่ของ บริษัท สำหรับการแปลต้องใช้เวลาทั้งวันในการฝึกฝนบน 32 ของ GPU ที่ดีที่สุดในเชิงพาณิชย์ ความแม่นยำเดียวกันในช่วงบ่ายโดยใช้หนึ่งในแปดของพ็อด TPU นั่นเป็นการกระโดดครั้งใหญ่

เข้าใจว่าระบบเหล่านี้ไม่ใช่ระบบขนาดเล็ก - พ็อดจะมีขนาดประมาณสี่แร็คการคำนวณปกติ

และตัวประมวลผลแต่ละตัวนั้นดูเหมือนจะมีฮีทซิงค์ขนาดใหญ่มากซึ่งหมายความว่าบอร์ดไม่สามารถเรียงซ้อนกันแน่นเกินไป Google ยังไม่ได้ให้รายละเอียดเกี่ยวกับสิ่งที่มีการเปลี่ยนแปลงในโปรเซสเซอร์รุ่นนี้หรือการเชื่อมต่อระหว่างกัน แต่เป็นไปได้ว่าอาจเป็นเช่นนั้นโดยใช้ MAC 8 บิต

เมื่อสัปดาห์ก่อน Nvidia ได้เปิดตัวรายการล่าสุดในหมวดนี้ซึ่งเป็นชิปขนาดใหญ่ที่รู้จักกันในชื่อ Telsa V100 Volta ซึ่งได้อธิบายว่าเป็นซีพียูตัวแรกที่มีสถาปัตยกรรม Volta ใหม่นี้ออกแบบมาสำหรับ GPU คุณภาพสูง

Nvidia กล่าวว่าชิปตัวใหม่มีความสามารถ 120 เทนเซอร์โฟลวเทอราฟลอป (หรือ 15 32- บิต TFLOPS หรือ 7.5 64- บิต) ซึ่งใช้สถาปัตยกรรมใหม่ที่มี 80 สตรีมมิ่งมัลติโพรเซสเซอร์ (SM) แต่ละอันประกอบด้วยแปดเทสเซอร์คอร์ใหม่ และเป็นอาร์เรย์ 4x4x4 ที่สามารถทำการดำเนินการ 64 FMA (Fused Multiply-Add) ต่อนาฬิกา Nvidia กล่าวว่าจะนำเสนอชิปในเวิร์กสเตชัน DGX-1V พร้อมบอร์ด 8 V100 ในไตรมาสที่สามตามหลัง DGX-1 ของ บริษัท ที่ใช้สถาปัตยกรรม P100 รุ่นก่อนหน้านี้

บริษัท กล่าวว่ากล่อง $ 149, 000 นี้ควรส่งมอบประสิทธิภาพการฝึกอบรม 960 teraflops โดยใช้ 3200 วัตต์ ต่อมาคนแรกกล่าวว่าจะจัดส่งสถานี DGX ส่วนตัวด้วย V100 สี่เครื่องและในไตรมาสที่สี่กล่าวว่าผู้ค้าเซิร์ฟเวอร์รายใหญ่จะจัดส่งเซิร์ฟเวอร์ V100

ชิปนี้เป็นรุ่นแรกที่ประกาศใช้โปรเซสเซอร์ 12nm ของ TSMC และจะเป็นชิปขนาดใหญ่ที่มีทรานซิสเตอร์ 21.1 ล้านทรานซิสเตอร์บนพื้นที่ 815 ตารางมิลลิเมตร Nvidia อ้างถึงทั้ง Microsoft และ Amazon ในฐานะลูกค้ารายแรก ๆ สำหรับชิป

หมายเหตุมีความแตกต่างใหญ่ระหว่างวิธีการเหล่านี้ Google TPU เป็นชิปที่กำหนดเองได้รับการออกแบบมาสำหรับแอปพลิเคชัน TensorFlow ในขณะที่ Nvidia V100 เป็นชิปทั่วไปที่ค่อนข้างมีความสามารถในการคำนวณทางคณิตศาสตร์ที่หลากหลายสำหรับการใช้งานอื่น ๆ

ในขณะเดียวกันผู้ให้บริการคลาวด์ขนาดใหญ่รายอื่นกำลังมองหาทางเลือกโดย Microsoft ใช้ทั้ง GPUs สำหรับการฝึกอบรมและเกทอาเรย์ที่ตั้งโปรแกรมได้ (FPGA) สำหรับการอนุมานและเสนอให้กับลูกค้าทั้งคู่ ขณะนี้ Amazon Web Services ทำให้ทั้ง GPU และ FPGA อินสแตนซ์พร้อมใช้งานสำหรับนักพัฒนา และ Intel ได้ผลักดัน FPGA และโฮสต์ของเทคนิคอื่น ๆ ในขณะเดียวกันจำนวนการเริ่มต้นระบบใหม่กำลังทำงานในแนวทางอื่น

ในบางกรณีนี่เป็นการเปลี่ยนแปลงที่รุนแรงที่สุดที่เราเคยเห็นในเวิร์กสเตชันและโปรเซสเซอร์เซิร์ฟเวอร์ในปีที่ผ่านมาอย่างน้อยก็ตั้งแต่นักพัฒนาเริ่มใช้ "GPU คำนวณ" หลายปีที่ผ่านมา มันจะน่าสนใจที่จะเห็นว่าการพัฒนา