บ้าน ส่งต่อความคิด ชิปร้อนแรง: การเรียนรู้ของเครื่องใช้เวลาอยู่ตรงกลาง

ชิปร้อนแรง: การเรียนรู้ของเครื่องใช้เวลาอยู่ตรงกลาง

2024

หัวข้อที่ร้อนแรงที่สุดในการคำนวณสมัยนี้คือการเรียนรู้ของเครื่องและเห็นได้ชัดในด้านฮาร์ดแวร์ ในช่วงไม่กี่สัปดาห์ที่ผ่านมาเราได้ยินเรื่องเกี่ยวกับชิปใหม่ ๆ ที่ออกแบบมาเพื่อการเรียนรู้อย่างลึกซึ้งตั้งแต่เทสลา P100 ของ Nvidia และ Drive PX 2 ไปจนถึงหน่วยประมวลผล Tensor ของ Google ไปจนถึง Xeon Phi ของ Intel ดังนั้นจึงไม่น่าแปลกใจที่ในการประชุม Hot Chips เมื่อสัปดาห์ที่แล้วเราได้ยินจากหลาย ๆ บริษัท ที่มีวิธีการที่แตกต่างกันมากในการออกแบบที่เหมาะกับการเรียนรู้ของเครื่องและการประมวลผลด้วยสายตา

บางทีข่าวที่ยิ่งใหญ่ที่สุดคือ Nvidia เปิดเผยรายละเอียดเพิ่มเติมเกี่ยวกับชิป Parker ที่ใช้ในโมดูล Drive PX 2 สำหรับรถยนต์ที่ขับเคลื่อนด้วยตนเองและมุ่งเน้นการเรียนรู้อย่างลึกซึ้งสำหรับเครื่องจักรอิสระ ชิปนี้ใช้แกน CPU เดนเวอร์ที่เข้ากันได้แบบกำหนดเองได้สองตัว, ARM Cortex-A57 สี่คอร์, และ 256 ของสิ่งที่ Nvidia ใช้กับ Pascal CUDA (กราฟิก) คอร์

Nvidia กล่าวว่านี่เป็นชิปตัวแรกที่ได้รับการออกแบบและให้คะแนนสำหรับการใช้งานรถยนต์ด้วยคุณสมบัติความยืดหยุ่นพิเศษและพูดคุยถึงความเร็วและหน่วยความจำที่เร็วขึ้นโดยสังเกตว่าแกนกลางของเดนเวอร์นั้นให้ประสิทธิภาพที่ดีขึ้นต่อวัตต์ ในบรรดาคุณสมบัติใหม่คือการจำลองเสมือนแบบใช้ฮาร์ดแวร์ช่วยซึ่งมีมากถึง 8 VMS เพื่อเปิดใช้งานการรวมคุณสมบัติรถยนต์ที่ทำตามประเพณีบนคอมพิวเตอร์ที่แยกต่างหาก โดยรวมแล้ว บริษัท กล่าวว่ารุ่น Drive PX 2 สามารถมีชิป Parker สองตัวนี้และ GPU แยกสองตัวโดยมีประสิทธิภาพรวม 8 teraflops (ความแม่นยำสองเท่า) หรือการดำเนินการเรียนรู้ 24 ลึก (8 บิตหรือครึ่งความแม่นยำ) บริษัท รวมมาตรฐานเปรียบเทียบกับการประมวลผลมือถือในปัจจุบันโดยใช้ SpecInt_2000 ซึ่งเป็นเกณฑ์มาตรฐานที่ค่อนข้างเก่า แต่ประสิทธิภาพดูน่าประทับใจและเมื่อไม่นานมานี้วอลโว่ได้กล่าวว่าจะใช้เพื่อทดสอบรถยนต์อิสระในปีหน้า

แน่นอนว่ายังมีวิธีอื่นอีกมากมาย

DeePhi ชาวจีนที่เริ่มต้นพูดถึงแพลตฟอร์มที่ใช้ FPGA สำหรับเครือข่ายประสาทเทียมโดยมีสถาปัตยกรรมที่แตกต่างกันสองแบบขึ้นอยู่กับประเภทของเครือข่ายที่เกี่ยวข้อง อริสโตเติลได้รับการออกแบบสำหรับเครือข่ายประสาทเทียมขนาดค่อนข้างเล็กและใช้ Xilinx Zynq 7000 ในขณะที่ Descartes ได้รับการออกแบบสำหรับเครือข่ายประสาทที่มีขนาดใหญ่ขึ้นอีกโดยใช้หน่วยความจำระยะสั้น (RNN-LSTM) ตาม Kintex Ultrascale FPGA DeePhi อ้างว่าคอมไพเลอร์และสถาปัตยกรรมลดเวลาในการพัฒนาเมื่อเปรียบเทียบกับการใช้ FPGA ส่วนใหญ่และการใช้ FPGA สามารถให้ประสิทธิภาพที่ดีกว่าโซลูชั่น Tegra K1 และ K40 ของ Nvidia

อีกวิธีหนึ่งคือการใช้ตัวประมวลผลสัญญาณดิจิตอลหรือ DSP ซึ่งโดยทั่วไปแล้วจะทำหน้าที่เฉพาะหรือชุดเล็ก ๆ ของฟังก์ชั่นอย่างรวดเร็วโดยใช้พลังงานน้อยมาก บ่อยครั้งที่สิ่งเหล่านี้ฝังอยู่ในชิปอื่น ๆ ที่ซับซ้อนกว่าเพื่อเพิ่มความเร็วให้กับฟังก์ชั่นบางอย่างเช่นการประมวลผลการมองเห็น มี บริษัท หลายแห่งรวมถึง Movidius, CEVA และ Cadence แบ่งปันโซลูชันของพวกเขาที่ Hot Chips

Movidius กำลังแสดงโซลูชั่นที่ใช้ DSP ซึ่งรู้จักกันในชื่อหน่วยประมวลผลการมองเห็น Myriad 2 และวางมันไว้บน DJI Phantom 4 โดรน นอกจากนี้ยังแสดงให้เห็นว่า Myriad 2 มีประสิทธิภาพเหนือกว่า GPU และเครือข่ายนิวรัลลึก GoogLeNet ที่ใช้ในการแข่งขัน ImageNet 2014

CEVA ได้ส่งเสริม CEVA-XM4 Vision DSP ซึ่งได้รับการปรับแต่งเป็นพิเศษสำหรับการประมวลผลการมองเห็นและมุ่งเป้าไปที่ตลาดยานยนต์พร้อมกับแพลตฟอร์ม CEVA Deep Neural Network 2 ซึ่งกล่าวว่าสามารถนำสิ่งใดก็ตามที่เขียนให้กับกรอบ Caffe หรือ TensorFlow บน DSP โปรเซสเซอร์ใหม่ควรอยู่ใน SoCs ในปีหน้า

ในขณะเดียวกัน Cadence ซึ่งทำให้ตระกูล Tensilica ของวิชันซิสเต็ม (ซึ่งสามารถฝังลงในผลิตภัณฑ์อื่น ๆ ) ได้กล่าวถึง Vision P6 เวอร์ชันใหม่ล่าสุดซึ่งได้เพิ่มคุณสมบัติใหม่เช่นการสนับสนุน vector floating-point และคุณสมบัติอื่น ๆ สำหรับโครงข่ายประสาทเทียม . ผลิตภัณฑ์แรกควรจะออกในไม่ช้า

ไมโครซอฟท์ได้พูดคุยเกี่ยวกับรายละเอียดของฮาร์ดแวร์สำหรับชุดหูฟัง HoloLens ว่าใช้โปรเซสเซอร์ Intel Atom Cherry Trail 14nm ที่ใช้ Windows 10 และฮับเซ็นเซอร์ Holographic Processing Unit (HPU 1.0) ที่กำหนดเองผลิตโดย TSMC ในกระบวนการ 28nm ซึ่งรวมถึง 24 Tensilica DSP cores

ฉันถ่ายภาพนิ่งของ Cadence ที่แสดงความแตกต่างในปริมาณงานและประสิทธิภาพของ GPU, FPGA และ DSP ชนิดต่าง ๆ ในแง่ของการดำเนินการเพิ่มทวีคูณซึ่งเป็นหนึ่งในหน่วยการสร้างหลักสำหรับเครือข่ายประสาท ในขณะที่เห็นได้ชัดว่าให้บริการตนเอง (ตามการนำเสนอของผู้ขายทั้งหมด) มันชี้ให้เห็นว่าเทคนิคที่แตกต่างกันนั้นแตกต่างกันอย่างไรในแง่ของความเร็วและประสิทธิภาพ (ประสิทธิภาพต่อวัตต์) ไม่ต้องพูดถึงต้นทุนและความสะดวกในการเขียนโปรแกรม มีวิธีแก้ปัญหามากมายสำหรับแนวทางที่แตกต่างกันและมันน่าสนใจที่จะเห็นว่าสิ่งนี้จะเกิดขึ้นในอีกไม่กี่ปีข้างหน้า