บ้าน ส่งต่อความคิด Oracle, nvidia, แขนใช้สปอตไลท์ที่ชิปร้อน

Oracle, nvidia, แขนใช้สปอตไลท์ที่ชิปร้อน

2024

วีดีโอ: №2.9 День Коронации [Equestria at War] (ธันวาคม 2024)

ในขณะที่ความตื่นเต้นของชิปในสัปดาห์ที่ผ่านมามาจากการประกาศ Broadwell ของ Intel แต่ก็มีจำนวนของชิปอื่น ๆ ที่กล่าวถึงในรายละเอียดในการประชุมประจำปี Hot Chips ซึ่งมีแนวโน้มที่จะมุ่งเน้นไปที่ชิปที่ออกแบบมาสำหรับเซิร์ฟเวอร์และศูนย์ข้อมูล

รายการดังกล่าวเป็นที่รู้จักกันดีสำหรับชิประดับไฮเอนด์โดยมี Intel, Oracle, และ IBM ทั้งหมดพูดคุยเกี่ยวกับรายการล่าสุดของพวกเขา แต่เฉพาะ Sparc M7 ของ Oracle เท่านั้นที่เป็นเรื่องใหม่ การแสดงส่วนใหญ่จบลงที่การมุ่งเน้นไปที่ผลิตภัณฑ์ที่ใช้ ARM รวมถึงรายละเอียดแรกของ Nvidia รุ่น "เดนเวอร์" 64 บิตของโปรเซสเซอร์ Tegra K1

Oracle, Intel และ IBM ตั้งเป้าหมายไว้สูงด้วยชิปเซิร์ฟเวอร์

ในบรรดาชิประดับไฮเอนด์ข่าวที่น่าประทับใจที่สุดมาจาก Oracle ซึ่งกล่าวถึงโปรเซสเซอร์ SPARC รุ่นต่อไปที่รู้จักกันในชื่อ M7 ชิปนี้จะมี 32 S4 SPARC cores (แต่ละอันมีเธรดไดนามิกสูงสุดแปดเธรด), แคช L3 64MB, ตัวควบคุมหน่วยความจำ DDR4 แปดตัว (สูงสุด 2TB ต่อโปรเซสเซอร์และแบนด์วิดท์หน่วยความจำ 160GBps พร้อม DDR4-2133) และเร่งการวิเคราะห์ข้อมูลแปดตัว เครือข่ายบนชิป

ชิปนั้นแบ่งออกเป็นแปดกลุ่มด้วยสี่คอร์แต่ละตัวพร้อมแคช L2 ที่แบ่งใช้และพาร์ติชั่นแคช L3 8MB พร้อมแบนด์วิธมากกว่า 192GBps ระหว่างคลัสเตอร์หลักและแคช L3 ในพื้นที่ เมื่อเปรียบเทียบกับ M6 (ชิป 28nm ที่มี 12 แกน 3.6 3.6GHz SPARC S3) M7 ให้ประสิทธิภาพที่ดีกว่าบนแบนด์วิดท์หน่วยความจำ 3-3.5 เท่า, ปริมาณข้อมูลจำนวนเต็ม, OLTP, Java, ระบบ ERP และปริมาณข้อมูลลอยตัว สตีเฟ่นฟิลลิปส์ผู้อำนวยการอาวุโสของสถาปัตยกรรม SPARC ของออราเคิลกล่าวว่าเป้าหมายคือการเพิ่มประสิทธิภาพการทำงานแบบขั้นตอนแทนที่จะเพิ่มผลกำไรที่เพิ่มขึ้น

M7 สามารถปรับขนาดได้ถึง 8 ซ็อคกาวน้อย (มากถึง 256 คอร์ 2, 000 เธรดและหน่วยความจำ 16TB) และด้วยสวิตช์ ASIC เพื่อจัดการทราฟฟิกระหว่างพวกเขาในการกำหนดค่า SMP สูงสุด 32 โปรเซสเซอร์ดังนั้นคุณจึงสามารถจบได้ ด้วยระบบที่มี 1, 024 คอร์, 8, 192 เธรด, และหน่วยความจำสูงสุด 64TB ค่อนข้างน่าประทับใจ Oracle กล่าวว่ามีประสิทธิภาพที่ดีขึ้น 3 ถึง 3.5 เท่าในการทดสอบที่หลากหลายเมื่อเทียบกับ SPARC M6 ของปีที่แล้ว บริษัท กล่าวว่าสิ่งนี้จะได้รับการปรับให้เหมาะสมกับซอฟต์แวร์สแต็คของ Oracle ผลิตโดยกระบวนการ 20 นาโนเมตรและวางจำหน่ายในบางระบบในปีหน้า

ไอบีเอ็มยังให้รายละเอียดเพิ่มเติมเกี่ยวกับสาย Power8 ซึ่งได้ประกาศเมื่อปีที่แล้ว ชิปรุ่นนั้นมี 12 คอร์แต่ละตัวมีเธรดมากถึงแปดเธรดที่มีแคชระดับ SRAM ระดับ 2 ที่ 512KB ต่อคอร์ (L2 รวม 6MB) และ DRAM แบบฝังที่แชร์ 96MB เป็นแคชระดับ 3 ชิปขนาดใหญ่นี้ซึ่งมีขนาด 650 ตารางมิลลิเมตรโดยมีทรานซิสเตอร์ 4.2 พันล้านตัวผลิตขึ้นบนกระบวนการ 22nm ซอยของไอบีเอ็มและเริ่มจัดส่งในเดือนมิถุนายน

ไม่กี่เดือนที่ผ่านมา IBM ประกาศรุ่นที่มีหกคอร์ที่มีขนาด 362 มม. ² การพูดคุยในปีนี้เกี่ยวกับวิธีที่ IBM สามารถรวมสองรุ่นหกคอร์ลงในแพคเกจเดียวกับ 48 เลนของ PCIe Gen 3 IBM กล่าวว่ารุ่นสองซ็อกเก็ตที่มี 24 คอร์และ 192 เธรดจะมีประสิทธิภาพเหนือกว่าโปรเซสเซอร์สองตัว เซิร์ฟเวอร์ Xeon Ivy Bridge ที่มี 24 คอร์ (มี 48 เธรด) IBM ขายพลังงานส่วนใหญ่ในตลาดที่มีประสิทธิภาพสูงและเฉพาะดังนั้นคนส่วนใหญ่จะไม่เปรียบเทียบทั้งสอง แต่ก็น่าสนใจ ในความพยายามที่จะทำให้สถาปัตยกรรม Power มีความสำคัญมากขึ้น IBM ในปีที่ผ่านมาได้ประกาศ Open Power Consortium และในปีนี้ บริษัท กล่าวว่ามีซอฟต์แวร์โอเพ่นซอร์สแบบเต็มสำหรับแพลตฟอร์ม แต่จนถึงขณะนี้ยังไม่มีใครอื่นนอกจาก IBM ได้ประกาศเซิร์ฟเวอร์ที่ใช้แพลตฟอร์ม

Intel ได้พูดถึง "Ivytown" ซึ่งเป็นเวอร์ชั่นเซิร์ฟเวอร์ของ Ivy Bridge ซึ่งรวมถึง Xeon E5 รุ่นที่เปิดตัวเมื่อปีที่แล้วและ Xeon E7 เปิดตัวในเดือนกุมภาพันธ์ การพูดคุยในปีนี้มุ่งเน้นไปที่วิธีการที่ Intel มีสถาปัตยกรรมเดียวที่สามารถครอบคลุมตลาดทั้งสองด้วยชิปที่อนุญาตให้มีมากถึง 15 คอร์ตัวควบคุมหน่วยความจำ DDR3 สองตัวตัวเชื่อม QPI สามตัวและเลน PCI Gen 3 จำนวนสามชุด แผนที่สามารถเปลี่ยนเป็นสามแบบที่แตกต่างกันได้แต่ละแบบออกแบบมาสำหรับซ็อกเก็ตที่แตกต่างกันมีทั้งหมดกว่า 75 สายพันธุ์ สามารถใช้กับเซิร์ฟเวอร์ซ็อกเก็ตสอง, สี่และแปดโดยไม่มีการเชื่อมต่อพิเศษ

แน่นอนว่าชิปเหล่านี้ประกอบไปด้วยการซื้อเซิร์ฟเวอร์จำนวนมากในทุกวันนี้เนื่องจากบัญชี Intel สำหรับเซิร์ฟเวอร์ส่วนใหญ่ แต่ก่อนหน้านี้ข้อมูลจำนวนมากถูกครอบคลุมไว้ที่ ISSCC และ Intel คาดว่าจะเปิดตัวตระกูล E5 รุ่นต่อไป (E5-1600v3 และ E5-2600 v3) ในไม่ช้าโดยอิงจากรุ่นที่อัปเดตโดยใช้ตัวแปร สถาปัตยกรรม Haswell เรียกว่า Haswell-EP (สัปดาห์ที่แล้ว Dell ประกาศเวิร์กสเตชันใหม่โดยใช้ชิปใหม่เหล่านี้)

Intel ยังได้พูดถึง Atom C2000 หรือที่รู้จักกันในชื่อ Avoton ซึ่งเริ่มผลิตในปลายปี 2556 ชิปนี้และชิป Ivy Bridge และ Haswell ทั้งหมดขึ้นอยู่กับกระบวนการ 22nm ของ Intel

Nvidia, AMD, Applied Micro Aim ที่ตลาดใหม่สำหรับ ARM

สิ่งที่น่าประหลาดใจที่สุดของการจัดแสดงคือการมุ่งเน้นไปที่เทคโนโลยีที่ใช้ ARM รวมถึงการกล่าวสุนทรพจน์จากลำโพง ARM และรายละเอียดของ Nvidia เกี่ยวกับโปรเซสเซอร์ "Tegra K1" รุ่นที่กำลังจะมาถึงของ Nvidia

ในประเด็นสำคัญ ARM CTO Mike Muller พูดถึงข้อ จำกัด ด้านพลังงานในทุกสิ่งตั้งแต่เซ็นเซอร์ไปจนถึงเซิร์ฟเวอร์และมุ่งเน้นไปที่วิธีที่ ARM พยายามขยายเข้าไปในองค์กร มุลเลอร์ผลักแนวคิดของการใช้ชิปเซ็นเซอร์ ARM สำหรับ Internet of Things หัวข้อที่สะท้อนออกมาในประเด็นสำคัญจาก Rob Chandhok ของ Qualcomm แต่ บริษัท ทั้งสองไม่ได้ประกาศคอร์หรือโปรเซสเซอร์ใหม่

แต่ข่าวใหญ่ที่อยู่ด้านหน้านั้นมาจาก Nvidia ซึ่งให้รายละเอียดเพิ่มเติมเกี่ยวกับโปรเซสเซอร์ K1 รุ่นใหม่ เมื่อโครงการเดนเวอร์ของ บริษัท ได้รับการประกาศครั้งแรกมันฟังดูเหมือนว่าชิปนี้จะมุ่งเป้าไปที่ตลาดคอมพิวเตอร์ประสิทธิภาพสูง แต่ตอนนี้ บริษัท ดูเหมือนว่าจะให้ความสำคัญกับสิ่งต่าง ๆ เช่นแท็บเล็ตและตลาดยานยนต์มากขึ้น Tegra K1 มีสองเวอร์ชั่น ครั้งแรกซึ่งประกาศเมื่อต้นปีนี้และขณะนี้กำลังจัดส่งในแท็บเล็ต Shield ของ บริษัท มีแกน ARM Cortex-A15 32 บิตสี่แกนพร้อมแกน "สหายหลัก" ที่ใช้พลังงานต่ำในการกำหนดค่า 4 + 1 ที่ Nvidia ผลักดัน สาย Tegra เป็นเวลาหลายปี

รุ่นเดนเวอร์นั้นค่อนข้างแตกต่างกับคอร์ 64- บิตใหม่ที่เป็นกรรมสิทธิ์ซึ่งออกแบบโดย Nvidia และ บริษัท กำลังโน้มน้าวประสิทธิภาพที่เพิ่มเข้ามา แกนกลางเป็น superscalar เจ็ดทาง (หมายความว่ามันสามารถทำงานได้มากถึงเจ็ด micro-ops พร้อมกัน) และมีแคชคำสั่ง L1 แบบสี่ทาง 128KB และแคชข้อมูล L1 แบบสี่ทาง 64KB ชิปรวมสองแกนเหล่านี้พร้อมกับแคช 2MB ระดับ 2 ที่ให้บริการทั้งสองแกนในขณะที่ 192 "CUDA แกน" (แกนกราฟิก) ที่ใช้ร่วมกันกับ K1 แบบ 32 บิต เช่นนี้มันหมายถึงการเดินทางครั้งใหญ่จากสถาปัตยกรรม 4 + 1

การเปลี่ยนแปลงครั้งใหญ่ครั้งหนึ่งนั้นรวมถึงสิ่งที่ Nvidia เรียกว่า "การเพิ่มประสิทธิภาพโค้ดแบบไดนามิก" ซึ่งได้รับการออกแบบมาเพื่อใช้รหัส ARM ที่ใช้บ่อยและแปลงให้เป็นไมโครโค้ดที่ปรับแต่งเป็นพิเศษสำหรับโปรเซสเซอร์ สิ่งนี้ถูกเก็บไว้ในหน่วยความจำแคช 128 MB (แกะออกมาจากหน่วยความจำหลักระบบดั้งเดิม) เป้าหมายคือให้ประสิทธิภาพของการดำเนินการที่ไม่เป็นไปตามคำสั่งโดยไม่จำเป็นต้องใช้กำลังมากเท่าที่มักจะใช้เทคนิค แนวคิดไม่ใช่เรื่องใหม่ - Transmeta ลองใช้งานเมื่อไม่นานมานี้กับชิป Crusoe - แต่ Nvidia บอกว่าตอนนี้ใช้งานได้ดีกว่าอย่างเห็นได้ชัด

Nvidia มีเกณฑ์มาตรฐานหลายประการซึ่งอ้างว่าชิปใหม่สามารถบรรลุประสิทธิภาพที่สูงกว่าซีพียูมือถือสี่หรือแปดคอร์ที่มีอยู่ในปัจจุบันโดยเฉพาะอ้างถึง Snapdragon 800 (MSM8974) ของ Qualcomm, Apple A7 (บางครั้งเรียกว่าพายุไซโคลน) ใน iPhone 5s - และแม้แต่โปรเซสเซอร์พีซีหลักบางตัว Nvidia กล่าวว่ามันมีประสิทธิภาพสูงกว่าโปรเซสเซอร์ Atom (Bay Trail) และคล้ายกับโปรเซสเซอร์ Celeron (Haswell) 1.4GHz dual-core ของ Intel แน่นอนว่าฉันมักจะนำตัวเลขประสิทธิภาพของผู้ขายมาด้วยเม็ดเกลือ: ไม่เพียง แต่ผู้ขายจะเลือกเกณฑ์มาตรฐาน แต่ก็ไม่ชัดเจนว่าเรากำลังพูดถึงความเร็วสัญญาณนาฬิกาเดียวกันหรือใช้พลังงานเท่าเดิม

ในขณะเดียวกันในชิปที่มุ่งเน้นไปที่เซิร์ฟเวอร์มากขึ้นเอเอ็มดีได้พูดคุยเกี่ยวกับ Opteron A1100 หรือที่รู้จักกันในชื่อ "ซีแอตเทิล" กับ บริษัท ว่ากำลังสุ่มตัวอย่างและคาดว่าจะวางจำหน่ายในเซิร์ฟเวอร์ปลายปีนี้ ชิปนี้มีคอร์ Cortex A57 แปดคอร์ 64 บิต; L2 cache 4MB และ L3 cache 8MB หน่วยความจำสองช่องสำหรับหน่วยความจำ DDR3 หรือ DDR4 สูงสุด 128GB พร้อมการแก้ไขข้อผิดพลาด I / O ในตัวจำนวนมาก (8 เลนในแต่ละ PCIe Gen3 และ 6Gbps SATA และพอร์ต Ethernet 10Gbps สองพอร์ต) Cortex A5 "ระบบควบคุมโปรเซสเซอร์" สำหรับการบู๊ตที่ปลอดภัย และคันเร่งสำหรับเร่งการเข้ารหัสและถอดรหัส มันถูกผลิตขึ้นบนกระบวนการ 28nm ของ GlobalFoundries AMD ยังไม่ได้ให้รายละเอียดเกี่ยวกับความถี่กำลังไฟหรือประสิทธิภาพของชิป แต่ได้แสดงไดอะแกรมพื้นฐานของชิพแล้ว (ข้างบน)

Applied Micro ได้รับการขนานนามว่ามีชิปเซิร์ฟเวอร์ ARM เป็นรายแรกในตลาดโดยมี X-Gene 1 (รู้จักกันในชื่อ Storm) ที่มี 8 คอร์ ARMv8 ที่เป็นกรรมสิทธิ์ 2.4GHzHZ, คอนโทรลเลอร์หน่วยความจำ DDR3 สี่ตัว, PCIe Gen3 และ 6Gbps SATA และ 10Gbps Ethernet . ขณะนี้อยู่ระหว่างการผลิตในกระบวนการ 40nm ของ TSMC บริษัท กล่าว

ที่ Hot Chips Applied Micro ได้ผลักดันการออกแบบ X-Gene 2 (Shadowcat) ซึ่งจะมีแปดหรือ 16 "เพิ่ม" คอร์ทำงานที่ความเร็ว 2.4 ถึง 2.8GHz และเพิ่ม RoCE (RDMA ผ่าน Converged Ethernet) Host Channel Adaptor เป็นอุปกรณ์เชื่อมต่อที่ออกแบบมาเพื่อเปิดใช้งานการเชื่อมต่อที่มีความหน่วงต่ำในกลุ่มของไมโครเซอร์เวอร์ สิ่งนี้ถูกออกแบบมาเพื่อใช้ในกลุ่มด้วยแร็คเซิร์ฟเวอร์เดียวที่รองรับได้ถึง 6, 480 เธรดและหน่วยความจำ 50TB ทุกการแชร์พูลหน่วยเก็บข้อมูลเดียว บริษัท กล่าวว่า X-Gene 2 จะให้ประสิทธิภาพของเลขจำนวนเต็มที่ดีขึ้นประมาณ 60 เปอร์เซ็นต์เพิ่มประสิทธิภาพของ Memcache เป็นสองเท่าและให้บริการ Apache บนเว็บได้ดีขึ้น 25% มันผลิตขึ้นบนกระบวนการ 28nm และขณะนี้กำลังทำการสุ่มตัวอย่าง

Applied Micro กล่าวว่า X-Gene 2 เติมเต็มช่องว่างระหว่างไมโครไซต์คู่แข่ง (Cavium ThunderX, Intel Atom C2000 "Avoton" และ AMD Opteron A1100 "Seattle") และเซิร์ฟเวอร์ Xeon ขนาดเต็ม มันให้รายละเอียดบางอย่างในรุ่นต่อไป X-Gene 3 (Skylark) ซึ่งมีกำหนดจะเริ่มสุ่มตัวอย่างในปีหน้า ชิปนี้จะมีแกน ARMv8 16 คอร์ที่ทำงานที่ความเร็วสูงสุด 3 GHz และจะผลิตโดยใช้เทคโนโลยี 16nm FinFet