บ้าน ส่งต่อความคิด สถาปัตยกรรมทางเลือกจะเป็นกฎของการคำนวณความเร็วสูงหรือไม่

สถาปัตยกรรมทางเลือกจะเป็นกฎของการคำนวณความเร็วสูงหรือไม่

2024

วีดีโอ: A day with Scandale - Harmonie Collection - Spring / Summer 2013 (ธันวาคม 2024)

ในช่วงไม่กี่ปีที่ผ่านมาเราได้เห็นวิธีการใหม่ ๆ ที่น่าสนใจในการคำนวณประสิทธิภาพสูงโดยเฉพาะอย่างยิ่งการเปลี่ยนจากตัวประมวลผลขนาดใหญ่แบบดั้งเดิมและไปสู่กลุ่มของ x86 CPUs ด้วยตัวเร่งความเร็ว ออกมาจากงาน Supercomputing เมื่อสัปดาห์ที่แล้วเราเห็นว่า Intel ได้รวมตัวประมวลผลร่วม Xeon Phi เข้ากับโปรเซสเซอร์เซิร์ฟเวอร์ Xeon ดั้งเดิมเพื่อให้การเขียนโปรแกรมง่ายขึ้น Nvidia แนะนำ Tesla GPU Accelerator รุ่นใหม่ และไมครอนให้การสนับสนุนโปรเซสเซอร์ชนิดต่าง ๆ สำหรับการประมวลผลเฉพาะทางมากยิ่งขึ้น และทั้งหมดนี้เกิดขึ้นในช่วงเวลาที่ตัวเร่งความเร็วและตัวประมวลผลร่วมเข้ามาครองอันดับ 500 ของคอมพิวเตอร์ที่เร็วที่สุดในโลกซึ่งนำผู้เชี่ยวชาญบางคนเพื่อแนะนำมาตรฐานที่มีอยู่ให้น้ำหนักกับโปรเซสเซอร์เหล่านี้มากเกินไป

Nvidia กำลังสานต่อความสำเร็จด้วยบอร์ดเร่งความเร็วเทสลากลุ่ม GPU ขนาดใหญ่ที่เชื่อมต่อกับโปรเซสเซอร์หลักจาก Intel หรือ AMD ชิปดังกล่าวใช้ในระบบที่หลากหลายรวมถึงระบบไททันที่ห้องปฏิบัติการแห่งชาติ Oak Ridge และระบบ Piz Daint ใหม่ที่ศูนย์คอมพิวเตอร์ซูเปอร์คอมพิวเตอร์แห่งชาติสวิส น่าสนใจยิ่งกว่านี้ บริษัท กล่าวว่าบอร์ด Tesla อยู่ใน 10 อันดับแรกของระบบในรายการ Green 500 ล่าสุดของซูเปอร์คอมพิวเตอร์ที่ประหยัดพลังงานที่สุดในโลก ระบบเหล่านี้ทั้งหมดใช้ Intel Xeons ยกเว้น Titan ที่ใช้ AMD Opteron ซึ่งเป็นระบบที่เร็วเป็นอันดับสองของโลกใน Top 500 แต่ติดอันดับต่ำกว่ามากใน Green 500 list

นอกจากนี้ Nvidia ยังได้ประกาศความร่วมมือกับ IBM ในการนำเสนอตัวเร่งความเร็ว Tesla ในระบบที่ใช้สถาปัตยกรรม IBM Power IBM ได้โน้มน้าวประสิทธิภาพการทำงานต่อเนื่องเป็นเวลานานและระบบ BlueGene / Q ซึ่งใช้โปรเซสเซอร์พลังงานเรียกใช้ระบบ Sequoia ที่ห้องปฏิบัติการแห่งชาติลอเรนซ์ลิเวอร์มอร์และระบบ Mira ที่ห้องปฏิบัติการแห่งชาติ Argonne การมี IBM และ Nvidia ทำงานร่วมกันควรส่งผลให้ระบบที่น่าสนใจในอนาคต

ในงานนี้ บริษัท ได้ประกาศ Tesla K40 ซึ่งเป็นบอร์ดเร่งความเร็ว GPU รุ่นต่อไป บริษัท กล่าวว่าจะให้ประสิทธิภาพความแม่นยำสองเท่า 1.4 teraflops, หน่วยความจำ 12GB (แบนด์วิดธ์ 288GBps) และคุณสมบัติ GPU Boost ซึ่งช่วยให้สามารถทำงานที่ความเร็วสัญญาณนาฬิกาที่เร็วขึ้นในบางสถานการณ์ นี่เป็นการอัปเกรดจากซีรี่ส์ Tesla K20 ที่มีอยู่เดิมโดยใช้การออกแบบ GPU ขั้นพื้นฐานแบบเดียวกันกับเทคโนโลยี 28nm

ความคิดริเริ่มอื่น ๆ รวมถึงวิธีในการทำให้การเขียนโปรแกรม GPU ง่ายขึ้นรวมถึง CUDA 6 ซึ่งขณะนี้รองรับหน่วยความจำแบบรวมทำให้ผู้พัฒนาเข้าถึงหน่วยความจำแบบพูลเดียวแม้ว่าหน่วยความจำ CPU และ GPU จะแยกจากกัน บริษัท ยังสนับสนุน OpenACC ซึ่งเป็นชุดมาตรฐานของคอมไพเลอร์คำสั่งที่บอกระบบว่าส่วนใดของโปรแกรม (เขียนใน C / C ++ และ Fortran) สามารถถ่ายจากซีพียูไปยังเครื่องเร่งความเร็วเพื่อเพิ่มประสิทธิภาพ

แนวทางของ Intel ซึ่งเรียกว่าสถาปัตยกรรม Integrated Core (MIC) ของมันนั้นแตกต่างกันมาก มันรวมแกน x86 ขนาดเล็กหลาย ๆ ตัวไว้ในชิปตัวเดียวที่เรียกว่า Xeon Phi ในช่วงหลายปีที่ผ่านมา Intel ได้รับการโน้มน้าวความจริงที่ว่ามันคือ x86 ทั้งหมดเพื่อให้ง่ายต่อการเขียนโปรแกรมแม้ว่าจะเป็นนักพัฒนาที่ชัดเจนยังคงต้องกำหนดเป้าหมายสถาปัตยกรรมโดยตรง รุ่นปัจจุบันของ Xeon Phi เรียกว่า Knights Corner ถูกออกแบบมาเพื่อใช้เป็นตัวเร่งพร้อมกับชิปเซิร์ฟเวอร์ Xeon E แบบดั้งเดิมและใช้งานโดยระบบชั้นนำที่หลากหลายรวมถึง Tianhe-2 ของจีน (ปัจจุบันเป็นระบบที่เร็วที่สุด ในโลก) และระบบแตกตื่นที่ Advanced Computing Center ที่มหาวิทยาลัยเท็กซัส

ในการแสดงนั้น Intel ได้เปิดตัว Knights Landing รุ่นใหม่ซึ่งจะทำงานเป็น CPU แบบสแตนด์อโลนที่สามารถปรับให้เข้ากับสถาปัตยกรรมชั้นวางมาตรฐานและรันระบบปฏิบัติการโดยตรงโดยไม่ต้องใช้ CPU โฮสต์ (เช่น Xeon E) นี่อาจเป็นสิ่งสำคัญในการขยายความดึงดูดของ Xeon Phi โดยเฉพาะในตลาดเวิร์กสเตชัน อีกครั้งนี้ถูกออกแบบมาเพื่อให้ง่ายขึ้นสำหรับนักพัฒนาซอฟต์แวร์เพื่อดูว่าเป็น CPU ตัวเดียว Knights Landing จะมีทั้งแบบ CPU แบบสแตนด์อโลนและแบบ PCI Express ที่เหมาะกับระบบที่มีอยู่เป็นการอัพเกรดจาก Knights Corner

มีการเปลี่ยนแปลงที่สำคัญอื่น ๆ กับ Knights Landing เช่นกันรวมถึงการเพิ่ม "near memory" อย่างมีประสิทธิภาพ DRAM ที่นำเสนอบนแพ็คเกจด้วย CPU และทำให้สามารถส่งมอบแบนด์วิดท์ที่สูงกว่าหน่วยความจำ DDR ดั้งเดิมซึ่ง จำกัด ด้วยความเร็ว รถบัส. (มันเริ่มเร็วขึ้นเหมือนกัน แต่ไม่มากเท่านี้) นี่ไม่ใช่การเคลื่อนไหวครั้งแรกในทิศทางนี้ IBM ได้โน้มน้าวให้ DRAM แบบฝังตัวในสถาปัตยกรรม Power มาเป็นเวลาหลายปีและ Intel เองก็ใส่ DRAM แบบฝังลงในกราฟิกในรุ่น Iris Pro ของตระกูล Haswell Core ถึงกระนั้นฉันเดาว่าเราจะเห็นความพยายามมากขึ้นในทิศทางนี้ในอีกไม่กี่ปีข้างหน้า

ในขณะเดียวกันหนึ่งในแนวทางใหม่ที่น่าสนใจที่สุดมาจากไมครอนซึ่งประกาศตัวเร่งความเร็วใหม่ที่เรียกว่าตัวประมวลผลอัตโนมัติที่ออกแบบมาเพื่อจัดการปัญหาข้อมูลที่ไม่มีโครงสร้างที่ซับซ้อนเป็นส่วนใหญ่

ไมครอนอธิบายว่าสิ่งนี้เป็นการเสนอเนื้อผ้าซึ่งประกอบด้วยองค์ประกอบการประมวลผลหลายหมื่นถึงล้านที่เชื่อมต่อเพื่อแก้ไขงานเฉพาะ บริษัท ซึ่งเป็นหนึ่งในผู้ผลิต DRAM และหน่วยความจำ NAND รายใหญ่ที่สุดกล่าวว่าสิ่งนี้จะใช้การประมวลผลแบบอิงหน่วยความจำเพื่อแก้ปัญหาการประมวลผลที่ซับซ้อนในด้านต่าง ๆ เช่นการรักษาความปลอดภัยเครือข่ายชีวสารสนเทศศาสตร์การประมวลผลภาพและการวิเคราะห์ ไมครอนจะเริ่มจำหน่ายโปรเซสเซอร์ออโตเมตาบนบอร์ด PCI-Express เพื่อให้นักพัฒนาทำงานร่วมกับมัน แต่ บริษัท วางแผนที่จะขายโปรเซสเซอร์ในหน่วยความจำมาตรฐานที่รู้จักกันในชื่อ DIMM หรือชิปแต่ละตัวสำหรับระบบฝังตัว ในบางวิธีเสียงนี้คล้ายกับเกทอาเรย์เกท (FPGA) ซึ่งปรับแต่งเพื่อแก้ปัญหาแอปพลิเคชันเฉพาะที่เกี่ยวข้องกับการจับคู่รูปแบบ

บริษัท กล่าวว่าทำงานร่วมกับ Georgia Tech, มหาวิทยาลัย Missouri และ University of Virginia เพื่อพัฒนาแอปพลิเคชั่นใหม่สำหรับ Automata แม้ว่า บริษัท ยังไม่ได้ประกาศวันที่สำหรับผลิตภัณฑ์ขั้นสุดท้ายชุดพัฒนาซอฟต์แวร์มีกำหนดจะออกมาในปีหน้าพร้อมกับเครื่องมือจำลอง

Automata ดูเหมือนกำลังดำเนินการอยู่และอาจเร็วเกินไปที่จะทราบว่าแอปพลิเคชันในวงกว้างเป็นอย่างไร แต่เป็นวิธีการที่น่าสนใจ

โดยรวมแล้วเรากำลังเห็นวิวัฒนาการของการคำนวณประสิทธิภาพสูง ไม่กี่ปีที่ผ่านมาคอมพิวเตอร์ที่เร็วที่สุดส่วนใหญ่เป็นเพียงตัวประมวลผลเซิร์ฟเวอร์มาตรฐานจำนวนมาก แท้จริงแล้วระบบ IBM Blue Gene และระบบ Sparc (เช่นคอมพิวเตอร์ K ที่ RIKEN Advanced Institute for Computational Science ในญี่ปุ่นซึ่งใช้ตัวประมวลผล Fujitsu Sparc) ยังคงเป็นส่วนใหญ่ของตลาดรวมถึงห้าใน 10 ที่เร็วที่สุด ระบบในโลก แต่ในช่วงไม่กี่ปีที่ผ่านมาโมเมนตัมได้เปลี่ยนไปสู่ตัวประมวลผลร่วมโดยมีระบบที่ใช้ Tesla และตัวเร่งความเร็ว Xeon Phi ที่สร้างขึ้นจากระบบที่ใหม่กว่า ด้วยการปรับปรุงในระบบเหล่านั้นพันธมิตรใหม่ซอฟต์แวร์ที่ดีขึ้นและแนวทางใหม่บางอย่างตลาดการคำนวณความเร็วสูงอาจแตกต่างกันมากในอนาคต