บ้าน ส่งต่อความคิด ทำไมการเรียนรู้ของเครื่องจักรจึงเป็นอนาคต

ทำไมการเรียนรู้ของเครื่องจักรจึงเป็นอนาคต

2024

สารบัญ:

การแข่งขันการเรียนรู้ของเครื่อง

วีดีโอ: Faith Evans feat. Stevie J – "A Minute" [Official Music Video] (ธันวาคม 2024)

ในการประชุม SC16 Supercomputing ของเดือนนี้มีสองแนวโน้มที่โดดเด่น สิ่งแรกคือการปรากฏตัวของ Xeon Phi ล่าสุดของ Intel (Knights Landing) และ Tesla ล่าสุดของ Nvidia (Pascal-based P100) ในรายการ Top500 ของคอมพิวเตอร์ที่เร็วที่สุดในโลก ทั้งสองระบบมีที่ดินติดอันดับ 20 อันดับแรกข้อที่สองคือการเน้นอย่างมากว่าผู้ผลิตชิปและระบบกำลังนำแนวคิดจากระบบการเรียนรู้ของเครื่องจักรที่ทันสมัยมาใช้กับซูเปอร์คอมพิวเตอร์อย่างไร

ในการแก้ไขรายการ Top500 ปัจจุบันซึ่งได้รับการปรับปรุงสองครั้งต่อปีอันดับต้น ๆ ของแผนภูมิยังคงอยู่ในมือของคอมพิวเตอร์ Sunway TaihuLight จากศูนย์คอมพิวเตอร์ซูเปอร์คอมพิวเตอร์แห่งชาติใน Wuxi และคอมพิวเตอร์ Tianhe-2 จาก National Super Computer ของจีน ศูนย์ในกวางโจวตามที่ได้รับตั้งแต่การแสดง ISC16 ของเดือนมิถุนายน ไม่มีคอมพิวเตอร์เครื่องใดที่มีประสิทธิภาพใกล้เคียงกันโดยมีระบบอันดับที่สามและสี่ - ยังเป็นซูเปอร์คอมพิวเตอร์ไททันที่ Oak Ridge และระบบ Sequoia ที่ Lawrence Livermore - ทั้งสองมีประสิทธิภาพครึ่งหนึ่งของ Tianhe-2

ครั้งแรกของเหล่านี้ขึ้นอยู่กับหน่วยประมวลผลภาษาจีนที่เป็นเอกลักษณ์คือ 1.45GHz SW26010 ซึ่งใช้แกน RISC 64 บิต นี่มี 10, 649, 600 แกนที่ไม่มีใครเทียบได้ส่งมอบ 125.4 petaflops ของปริมาณงานสูงสุดตามทฤษฎีและ 93 petaflops ของประสิทธิภาพสูงสุดที่วัดได้บนมาตรฐาน Linpack โดยใช้พลังงาน 15.4 เมกะวัตต์ ควรสังเกตว่าในขณะที่เครื่องนี้ติดอันดับชาร์ตในประสิทธิภาพการทำงานของ Linpack โดยมีอัตรากำไรสูง แต่ก็ไม่ได้ดีเท่าการทดสอบอื่น ๆ มีการวัดประสิทธิภาพอื่น ๆ เช่นมาตรฐานประสิทธิภาพการไล่ระดับสีสูง (HPCG) ซึ่งเครื่องจักรมักจะเห็นเพียง 1 ถึง 10 เปอร์เซ็นต์ของประสิทธิภาพสูงสุดตามทฤษฎีของพวกเขาและที่ระบบชั้นนำ - ในกรณีนี้เครื่อง Riken K - ยังให้น้อยลง มากกว่า 1 petaflop

แต่การทดสอบ Linpack เป็นมาตรฐานสำหรับการพูดคุยเกี่ยวกับการคำนวณประสิทธิภาพสูง (HPC) และสิ่งที่ใช้สร้างรายการ Top500 เมื่อใช้การทดสอบ Linpack เครื่องหมายเลข 2 คือ Tianhe-2 นั้นเป็นหมายเลข 1 ในแผนภูมิในช่วงไม่กี่ปีที่ผ่านมาและใช้ Xeon E5 และตัวเร่งความเร็ว Xeon Phi (Knights Corner) ที่เก่ากว่า สิ่งนี้นำเสนอ 54.9 petaflops ของประสิทธิภาพสูงสุดในทางทฤษฎีและมาตรฐานที่ 33.8 petaflops ใน Linpack ผู้สังเกตการณ์หลายคนเชื่อว่าการสั่งห้ามการส่งออก Xeon Phi (Knights Landing) เวอร์ชั่นใหม่ทำให้จีนต้องสร้างโปรเซสเซอร์ซูเปอร์คอมพิวเตอร์ของตัวเอง

Knights Landing Xeon Phi 7250 มีบทบาทสำคัญในระบบใหม่ในรายการเริ่มต้นด้วยซูเปอร์คอมพิวเตอร์ Cori ที่ Lawrence Berkeley National Laboratory มาที่อันดับที่ห้าด้วยประสิทธิภาพสูงสุด 27.8 petaflops และประสิทธิภาพที่วัดได้ 14 petaflops . นี่คือระบบ Cray XC40 โดยใช้การเชื่อมต่อระหว่างเมษ โปรดทราบว่า Knights Landing สามารถทำหน้าที่เป็นตัวประมวลผลหลักโดยมี 68 คอร์ต่อโปรเซสเซอร์ซึ่งให้ยอดเทราฟลอปสูงถึง 3 คอร์ (Intel แสดงรายการชิปรุ่นอื่นที่มี 72 คอร์ที่ 3.46 teraflops ของประสิทธิภาพที่มีความแม่นยำสูงสุดในเชิงทฤษฎีสองเท่าในรายการราคา แต่ไม่มีเครื่องใดในรายการที่ใช้รุ่นนี้อาจเป็นเพราะมีราคาแพงกว่าและใช้พลังงานมากขึ้น)

Xeon Phis ก่อนหน้านี้สามารถทำงานเป็นตัวเร่งความเร็วในระบบที่ควบคุมโดยโปรเซสเซอร์ Xeon แบบดั้งเดิม อันดับที่หกคือระบบ Oakforest-PACS ของ Joint Centre สำหรับคอมพิวเตอร์ประสิทธิภาพสูงขั้นสูงของญี่ปุ่นได้คะแนน petaflops สูงสุด 24.9 คะแนน สิ่งนี้สร้างโดยฟูจิตสึโดยใช้ Knights Landing และการเชื่อมต่อ Omni-Path ของ Intel Knights Landing ยังใช้ในระบบหมายเลข 12 (คอมพิวเตอร์ Marconi ที่ CINECA ของอิตาลีสร้างโดย Lenovo และใช้ Omni-Path) และระบบหมายเลข 33 (Camphor 2 ที่มหาวิทยาลัย Kyoto ของญี่ปุ่นสร้างโดย Cray และใช้ Aries เชื่อมต่อระหว่างกัน)

Nvidia นั้นมีการนำเสนอในรายการใหม่เช่นกัน ระบบหมายเลข 8, Piz Daint ที่ Swiss National Supercomputing Center ได้รับการอัพเกรดเป็น Cray XC50 พร้อม Xeons และ Nvidia Tesla P100 และตอนนี้มีประสิทธิภาพการทำงานสูงสุดเพียง 16 petaflops และประสิทธิภาพของ Linpack 9.8 petaflops อัปเกรดจาก 7.8 petaflops ของประสิทธิภาพสูงสุดและ 6.3 petaflops ของประสิทธิภาพของ Linpack ในการทำซ้ำก่อนหน้านี้ตาม Cray XC30 กับตัวเร่งความเร็ว Nvidia K20x

ระบบที่ใช้ P100 อื่น ๆ ในรายการคือ DGX Saturn V ของ Nvidia โดยใช้ระบบ DGX-1 ของ บริษัท เองและการเชื่อมต่อระหว่าง Infiniband ซึ่งติดอันดับที่ 28 ในรายการ โปรดทราบว่า Nvidia กำลังขายทั้งโปรเซสเซอร์และอุปกรณ์ DGX-1 ซึ่งรวมถึงซอฟต์แวร์และ Tesla P100 จำนวนแปดตัว ระบบ DGX Saturn V ซึ่ง Nvidia ใช้สำหรับการวิจัยภายในของ AI ได้คะแนน petaflops สูงสุด 4.9 อันดับและ 3.3 Linpack petaflops แต่สิ่งที่ Nvidia ชี้ให้เห็นก็คือใช้พลังงานเพียง 350 กิโลวัตต์เท่านั้นทำให้มีประสิทธิภาพด้านพลังงานมากกว่า เป็นผลให้ระบบนี้ติดอันดับ Green500 ระบบที่ประหยัดพลังงานมากที่สุด Nvidia ชี้ให้เห็นว่านี่เป็นพลังงานที่น้อยกว่าระบบ Camphor 2 ซึ่งใช้ Xeon Phi ซึ่งมีประสิทธิภาพใกล้เคียงกัน (เกือบ 5.5 petaflops peak และ 3.1 Linpack petaflops)

เป็นการเปรียบเทียบที่น่าสนใจเมื่อใช้ Nvidia ทำให้ประสิทธิภาพการใช้พลังงานของ GPU ดีขึ้นและ Intel ใช้รูปแบบการเขียนโปรแกรมที่คุ้นเคยมากขึ้น ฉันแน่ใจว่าเราจะเห็นการแข่งขันที่เพิ่มขึ้นในอีกไม่กี่ปีข้างหน้าเนื่องจากสถาปัตยกรรมที่แตกต่างกันแข่งขันกันเพื่อดูว่าพวกเขาจะเป็นคนแรกที่เข้าถึง "การคำนวณแบบเกินพิกัด" หรือไม่ว่าวิธีการปลูกบ้านแบบจีน ขณะนี้โครงการ Exascale Computing ของกระทรวงพลังงานสหรัฐคาดว่าจะมีการติดตั้งเครื่องจักร exascale เครื่องแรกในปี 2565 และจะเปิดตัวในปีต่อไป

ฉันพบว่ามันน่าสนใจที่จะทราบว่าแม้จะมีการเน้นไปที่ตัวเร่งความเร็วแบบคอร์เช่น Nvidia Tesla และ Intel Xeon Phi แต่มีเพียง 96 ระบบเท่านั้นที่ใช้ตัวเร่งความเร็วดังกล่าว (รวมถึงตัวที่ใช้ Xeon Phi เพียงอย่างเดียว) เมื่อเทียบกับ 104 ระบบในปีที่แล้ว Intel ยังคงเป็นผู้ให้บริการชิปรายใหญ่ที่สุดโดยมีชิปใน 462 ระบบจาก 500 อันดับแรกตามด้วยโปรเซสเซอร์ IBM Power ใน 22 Hewlett-Packard Enterprise สร้างระบบ 140 ระบบ (รวมถึงระบบที่สร้างโดย Silicon Graphics ซึ่ง HPE ซื้อ) Lenovo สร้างขึ้น 92 และ Cray 56

การแข่งขันการเรียนรู้ของเครื่อง

มีการประกาศจำนวนมากที่หรือรอบการแสดงซึ่งส่วนใหญ่เกี่ยวข้องกับรูปแบบของปัญญาประดิษฐ์หรือการเรียนรู้ของเครื่อง Nvidia ประกาศความร่วมมือกับ IBM ในชุดเครื่องมือซอฟต์แวร์การเรียนรู้ลึกที่เรียกว่า IBM PowerAI ที่รันเซิร์ฟเวอร์ IBM Power โดยใช้การเชื่อมต่อ NVLink ของ Nvidia

เอเอ็มดีซึ่งเป็นความคิดในภายหลังทั้งใน HPC และสภาพแวดล้อมการเรียนรู้ของเครื่องจักรกำลังทำงานเพื่อเปลี่ยนแปลงสิ่งนั้น ในพื้นที่นี้ บริษัท ให้ความสำคัญกับ Radeon GPU ของตัวเองผลักดันเซิร์ฟเวอร์ GPU FirePro S9300 x2 ของตนและประกาศความร่วมมือกับ Google Cloud Platform เพื่อให้สามารถใช้งานผ่านระบบคลาวด์ แต่เอเอ็มดีไม่ได้ลงทุนมากในซอฟต์แวร์สำหรับการเขียนโปรแกรม GPU เนื่องจากเน้น OpenCL มากกว่าวิธีการที่เป็นกรรมสิทธิ์ของ Nvidia ในการเปิดตัว AMD ได้เปิดตัว Radeon Open Compute Platform (ROCm) เวอร์ชั่นใหม่และมีแผนที่จะสนับสนุน GPUs ในสถานการณ์การคำนวณที่แตกต่างด้วยซีพียูหลายตัวรวมถึงซีพียู "Zen" x86 ที่กำลังจะมาถึงซึ่งเริ่มต้นด้วย Cavium's ThunderX และ IBM Power 8 CPUs

ในการแสดงนั้น Intel ได้พูดถึงชิพ Xeon E5v4 (Broadwell) รุ่นใหม่ที่ได้รับการปรับจูนสำหรับปริมาณการใช้งานจุดลอยตัวและรุ่นถัดไปที่อิงกับแพลตฟอร์ม Skylake จะเปิดตัวในปีหน้า แต่ในเหตุการณ์ต่อมาในสัปดาห์นั้น Intel ได้จัดทำประกาศที่ออกแบบมาเพื่อจัดวางชิปของตนในปัญญาประดิษฐ์หรือพื้นที่การเรียนรู้ของเครื่อง (นี่คือการนำของ ExtremeTech) สิ่งนี้มีความเกี่ยวข้องกับการคำนวณประสิทธิภาพสูง แต่ส่วนใหญ่แยกจากกัน เริ่มต้นด้วยนอกเหนือจากโปรเซสเซอร์ Xeon มาตรฐาน บริษัท ยังส่งเสริม FPGAs สำหรับการทำข้อตกลงในเครือข่ายประสาทเทียม นั่นเป็นเหตุผลสำคัญอย่างยิ่งที่ บริษัท เพิ่งซื้อ Altera เมื่อเร็ว ๆ นี้และ FPGA ดังกล่าวถูกใช้โดย บริษัท เช่น Microsoft

แต่การให้ความสำคัญกับ AI เมื่อสัปดาห์ที่แล้วได้จัดการกับชิปใหม่ ๆ อย่างแรกคือ Xeon Phi ที่ Intel ได้ระบุไว้ว่า Knights Landing เวอร์ชั่นปัจจุบันจะได้รับการเสริมในปีหน้าด้วย Knights Mill รุ่นใหม่ที่มุ่งเน้นไปที่ตลาด "การเรียนรู้ลึก" ประกาศที่ IDF นี่เป็นรุ่น 14nm อีกรุ่นหนึ่ง แต่รองรับการคำนวณแบบครึ่งความแม่นยำซึ่งใช้บ่อยในการฝึกอบรมโครงข่ายประสาทเทียม อันที่จริงข้อดีอย่างหนึ่งของชิป Nvidia ปัจจุบันในการเรียนรู้อย่างลึกซึ้งคือการสนับสนุนการคำนวณครึ่งความแม่นยำและการดำเนินการจำนวนเต็ม 8 บิตซึ่ง Nvidia มักจะอ้างถึงเป็นการเรียนรู้อย่างลึก "tera-ops" Intel กล่าวว่า Knights Mill จะส่งมอบประสิทธิภาพของ Knights Landing สูงสุดถึงสี่เท่าสำหรับการเรียนรู้อย่างลึกซึ้ง (ชิปนี้ยังคงมีกำหนดที่จะตามมาในภายหลังด้วยรุ่น 10nm ที่เรียกว่า Knights Hill ซึ่งอาจมุ่งเป้าไปที่ตลาดคอมพิวเตอร์ประสิทธิภาพสูงแบบดั้งเดิม)

สิ่งที่น่าสนใจที่สุดสำหรับปีหน้าคือการออกแบบจาก Nervana ซึ่ง Intel เพิ่งซื้อมาซึ่งใช้กลุ่มการประมวลผลที่ออกแบบมาเพื่อดำเนินการทางคณิตศาสตร์อย่างง่ายที่เชื่อมต่อกับหน่วยความจำแบนด์วิดท์สูง (HBM) สิ่งแรกในตระกูลนี้คือ Lake Crest ซึ่งออกแบบมาก่อนที่ Intel จะซื้อ บริษัท และผลิตด้วยกระบวนการ 28nm TSMC เนื่องจากในเวอร์ชันทดสอบในช่วงครึ่งแรกของปีหน้า Intel กล่าวว่าจะให้ประสิทธิภาพในการคำนวณที่ดิบกว่า GPU ในที่สุดก็จะตามมาด้วย Knights Crest ซึ่งใช้เทคโนโลยีของ Nervana ควบคู่ไปกับ Xeon โดยที่รายละเอียดยังคงไม่แจ้ง

"เราคาดหวังว่าเทคโนโลยีของ Nervana จะสามารถเพิ่มประสิทธิภาพได้ถึง 100 เท่าในช่วง 3 ปีข้างหน้าเพื่อฝึกอบรมเครือข่ายประสาทที่ซับซ้อนทำให้นักวิทยาศาสตร์ด้านข้อมูลสามารถแก้ไขปัญหาความท้าทายด้าน AI ที่ใหญ่ที่สุดได้เร็วขึ้น" Brian Krzanich ซีอีโอของอินเทลเขียน

Intel เพิ่งประกาศแผนการที่จะซื้อ Movidius ซึ่งทำให้ชิปที่ใช้ DSP เหมาะอย่างยิ่งสำหรับการมองเห็นในคอมพิวเตอร์ - อีกครั้งเพื่อทำการตัดสินใจตามรุ่นที่ผ่านการฝึกอบรมมาก่อน

มันเป็นเรื่องราวที่ซับซ้อนและพัฒนาอย่างแน่นอนไม่ตรงไปตรงมาเหมือน Nvidia ที่ผลักดันให้ GPU ของตนไปทุกที่ แต่สิ่งที่ชัดเจนคือการถอดการเรียนรู้ของเครื่องอย่างรวดเร็วและวิธีการต่าง ๆ ที่ บริษัท วางแผนที่จะแก้ไขปัญหาตั้งแต่ GPU เช่น Nvidia และ AMD ไปจนถึงโปรเซสเซอร์ x86 หลักเช่น Xeon Phi, FPGAs เพื่อผลิตภัณฑ์พิเศษสำหรับการฝึกอบรมเช่น Nervana และ TrueNorth ของไอบีเอ็มในการกำหนดเอนจิ้นที่มีลักษณะคล้าย DSP เช่นหน่วยประมวลผล Tensor ของ Google มันจะน่าสนใจมากที่จะดูว่าตลาดมีที่ว่างสำหรับแนวทางเหล่านี้ทั้งหมดหรือไม่