บ้าน ธุรกิจ ข้อมูลพื้นฐานขนาดใหญ่: วิธีสร้างแผนการกำกับข้อมูล

ข้อมูลพื้นฐานขนาดใหญ่: วิธีสร้างแผนการกำกับข้อมูล

วีดีโอ: दà¥?निया के अजीबोगरीब कानून जिनà¥?हें ज (ธันวาคม 2024)

วีดีโอ: दà¥?निया के अजीबोगरीब कानून जिनà¥?हें ज (ธันวาคม 2024)
Anonim

เราได้เขียนเกี่ยวกับบทบาทของข้อมูลในธุรกิจสมัยใหม่เป็นอย่างมาก ตั้งแต่ธุรกิจเริ่มต้นจนถึงธุรกิจขนาดเล็กจนถึงธุรกิจขนาดกลาง (SMBs) ไปจนถึงองค์กรขนาดใหญ่ข้อมูลเชิงลึกและการวิเคราะห์จะเข้าถึงได้ง่ายขึ้นสำหรับธุรกิจทุกขนาดมากขึ้นกว่าเดิม นี่คือส่วนหนึ่งเนื่องจากการเพิ่มขึ้นของระบบธุรกิจอัจฉริยะแบบบริการตนเอง (BI) และเครื่องมือสร้างภาพข้อมูล

แม้ว่าก่อนที่คุณจะสามารถใช้เครื่องมือ BI หรือเรียกใช้การวิเคราะห์เชิงพยากรณ์ในชุดข้อมูล แต่ก็มีปัจจัยหลายอย่างที่จะต้องทำ เริ่มต้นด้วยการทำความเข้าใจว่า Big Data คืออะไรมันคืออะไร (คำใบ้: ไม่ใช่ลูกบอลคริสตัล) และวิธีจัดการที่เก็บข้อมูลองค์กรสิทธิ์และความปลอดภัยภายในสถาปัตยกรรมข้อมูลองค์กรของคุณ นี่คือที่มาของการกำกับดูแลข้อมูลกระบวนการที่คุณมั่นใจได้ว่าการกำกับดูแลภายในองค์กรนั้นแตกต่างกันไปขึ้นอยู่กับว่าคุณคุยกับใคร แต่ที่แกนกลางของการจัดการข้อมูลเป็นเรื่องเกี่ยวกับความไว้วางใจและความรับผิดชอบของข้อมูลแต่งงานกับแนวทางปฏิบัติที่ดีที่สุดด้านความปลอดภัยของข้อมูลที่ครอบคลุม

ฉันได้พูดคุยกับ Hortonworks และ MapR ซึ่งเป็นผู้จำหน่าย Hadoop ขององค์กรที่ใหญ่ที่สุดสองคนในตลาด Scott Gnau ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Hortonworks และ Jack Norris รองประธานอาวุโสฝ่ายข้อมูลและแอพพลิเคชั่นที่ MapR แต่ละคนอธิบายว่าการกำกับดูแลข้อมูลมีความหมายอย่างไรต่อองค์กรของพวกเขา พวกเขาพูดถึงวิธีรับมือกับความท้าทายที่ซับซ้อนในการรับรองการกำกับดูแลข้อมูลภายในสถาปัตยกรรมข้อมูลที่ซับซ้อนและลำดับชั้นขององค์กรขององค์กรขนาดใหญ่

สิ่งที่แน่นอนคือ การกำกับดูแลข้อมูลและทำไมเราต้องการมัน?

การกำกับดูแลหมายถึงการทำให้แน่ใจว่าข้อมูลองค์กรได้รับอนุญาตจัดระเบียบและได้รับอนุญาตในฐานข้อมูลที่มีข้อผิดพลาดน้อยที่สุดเท่าที่จะเป็นไปได้ในขณะที่รักษาความเป็นส่วนตัวและความปลอดภัย มันไม่ใช่เรื่องง่ายที่จะสมดุลโดยเฉพาะอย่างยิ่งเมื่อความเป็นจริงของสถานที่และวิธีการจัดเก็บและประมวลผลข้อมูลอยู่ในฟลักซ์อย่างต่อเนื่อง Norris ของ MapR อธิบายว่าทำไมธุรกิจจำเป็นต้องดูการควบคุมข้อมูลจากระดับที่สูงขึ้นและมุ่งเน้นไปที่ไปป์ไลน์ข้อมูลขนาดใหญ่ที่เล่น

"เมื่อคุณเริ่มปรับขนาดความหลากหลายและความเร็วของข้อมูลขนาดใหญ่ที่เรากำลังเผชิญอยู่คุณจะต้องมีการจัดการข้อมูล แต่มันอยู่ในบริบทที่กว้างขึ้นนี้ข้อมูลที่คุณมีใครมีสิทธิ์เข้าถึงและคุณเป็นอย่างไร จัดการสายเลือดของข้อมูลนั้นตลอดเวลาหรือไม่ " Norris กล่าว "จากมุมมองการกำกับดูแลข้อมูลคุณสามารถมีขั้นตอนต่าง ๆ ของข้อมูลที่มีอยู่ในระบบที่สามารถถ่ายภาพได้เพื่อให้คุณสามารถย้อนกลับได้ทุกเวลาในขั้นตอนไปป์ไลน์มันเกี่ยวกับการสร้างความสามารถในการตรวจสอบและควบคุมการเข้าถึงลงในแพลตฟอร์มข้อมูล แน่ใจว่าการค้นพบและวิเคราะห์ข้อมูลมีความโปร่งใสไม่ว่าคุณจะเป็นผู้จัดการธุรกิจกำลังดูชุดข้อมูลทางการเงินหรือนักวิทยาศาสตร์ข้อมูลที่ทำงานกับข้อมูลต้นน้ำดิบ "

ที่มา: Rimes คลิกที่ภาพเพื่อดูแบบเต็ม

Gnau ของ Hortonworks ใส่กุญแจลงไปในจุดที่คล้ายกัน ไม่ว่าคุณกำลังจัดการกับคลังข้อมูลหรือสถาปัตยกรรมดาต้าดาต้าการจัดการข้อมูลคือการสร้างสมดุลให้กับฝ่ายตรงข้าม มันเกี่ยวกับการเข้าถึงข้อมูลแบบไม่ส่งข้อมูลเพื่อผลักดันนวัตกรรมและได้รับข้อมูลเชิงลึกรวมถึงการอนุญาตอย่างละเอียดและความเป็นส่วนตัวเพื่อปกป้องข้อมูลพร้อมกัน

“ เปรียบเทียบและตรงกันข้ามโลกเก่าของการปกครองแบบดั้งเดิมในพื้นที่ข้อมูลมันง่ายขึ้นเล็กน้อย” Gnau กล่าว "ข้อมูลเคยถูกกำหนดไว้อย่างดีจากบทบาทงานหรือแอปพลิเคชันในโลกใหม่คุณจะได้รับคุณค่ามากที่สุดเมื่อนักวิทยาศาสตร์ข้อมูลสามารถเข้าถึงข้อมูลได้มากที่สุดเท่าที่จะเป็นไปได้และการค้นหาสื่อที่มีความสุขนั้นสำคัญมาก

“ มันกำลังผลักดันกระบวนทัศน์ใหม่ทั้งหมดในวิธีที่คุณต้องการแนวทางการกำกับดูแล” Gnau เพิ่ม "ในโลกใหม่นี้ฉันพิจารณาเรื่องการกำกับดูแลและความปลอดภัยที่จำเป็นต้องได้รับการคุ้มครองร่วมกันหลาย บริษัท ยังคงดิ้นรนที่จะดำเนินการเพื่อให้นักวิทยาศาสตร์ด้านข้อมูลของพวกเขามีประสิทธิภาพในการค้นหากรณีการใช้ใหม่ในขณะเดียวกันในเวลาเดียวกัน ทำความเข้าใจวิธีจัดการกับความปลอดภัยความเป็นส่วนตัวการกำกับดูแล - ทุกสิ่งที่สำคัญจากมุมมองด้านล่างและจากมุมมองด้านชื่อเสียงของ บริษัท "

แผนธรรมาภิบาลข้อมูลขององค์กรควรล้อมรอบและตอบสนองกองกำลังต่อต้านทั้งหมดอย่างไร โดยการแก้ปัญหาความต้องการแต่ละอย่างเป็นระบบหนึ่งขั้นในเวลา

วิธีการสร้างแผนการกำกับดูแลข้อมูล

Hortonworks, MapR และ Cloudera เป็นผู้เล่นอิสระรายใหญ่ที่สุดสามคนในพื้นที่ Hadoop บริษัท ต่าง ๆ มีอิทธิพลต่อการบริหารข้อมูล MapR ได้เผยแพร่เอกสารทางเทคนิคจำนวนหนึ่งเกี่ยวกับเรื่องนี้และสร้างการกำกับดูแลข้อมูลทั่วทั้งแพลตฟอร์มข้อมูล Converged ในขณะที่ Hortonworks มีความปลอดภัยของข้อมูลและโซลูชันการกำกับดูแลของตนเองและร่วมก่อตั้ง Data Governance Initiative (DGI) ในปี 2558 แหล่งที่มาโครงการ Apache Atlas ที่ให้กรอบการกำกับดูแลข้อมูลแบบเปิดสำหรับ Hadoop

แต่เมื่อพูดถึงวิธีที่แต่ละผู้ขายจัดทำระบบการกำกับดูแลข้อมูลและกลยุทธ์ด้านความปลอดภัย Gnau และ Norris ต่างก็พูดในลักษณะเดียวกัน ต่อไปนี้เป็นขั้นตอนรวมที่ Hortonworks และ MapR แนะนำธุรกิจที่ควรคำนึงถึงเมื่อสร้างแผนการกำกับดูแลข้อมูล

Big One: การเข้าถึงข้อมูลที่ละเอียดและการอนุญาต

ทั้งสอง บริษัท ยอมรับว่าคุณไม่สามารถมีการควบคุมข้อมูลที่มีประสิทธิภาพหากไม่มีการควบคุมอย่างละเอียด MapR ทำสิ่งนี้ให้สำเร็จเป็นหลักผ่าน Access Control Expressions (ACEs) ตามที่ Norris อธิบายไว้ ACE ใช้การจัดกลุ่มและตรรกะบูลีนเพื่อควบคุมการเข้าถึงและการอนุญาตข้อมูลที่ยืดหยุ่นด้วยการอนุญาตตามบทบาทและการตั้งค่าการมองเห็น

เขาบอกว่าให้คิดว่ามันเหมือนรุ่นการ์ตเนอร์ บนแกน Y ที่ส่วนล่างสุดคือการกำกับดูแลที่เข้มงวดและความคล่องตัวต่ำและบนแกน X ที่ปลายบนสุดนั้นมีความคล่องตัวสูงกว่าและมีการกำกับดูแลน้อยลง

"ในระดับต่ำคุณปกป้องข้อมูลที่สำคัญโดยทำให้งงงวยที่ด้านบนคุณมีสัญญาลับสำหรับนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ BI" Norris กล่าว "เรามักจะทำสิ่งนี้ด้วยความสามารถในการปิดบังและมุมมองต่าง ๆ ที่คุณล็อคข้อมูลดิบไว้ที่ด้านล่างให้มากที่สุดและค่อย ๆ ให้การเข้าถึงมากขึ้นจนกระทั่งในตอนบนสุดคุณจะทำให้ผู้ดูแลระบบมองเห็นได้กว้างขึ้น เข้าถึงคนที่ใช่ไหม?

"ถ้าคุณดูรายการควบคุมการเข้าถึงในวันนี้มันจะพูดว่า 'ทุกคนในวิศวกรรมสามารถเข้าถึงสิ่งนี้ได้'" Norris เพิ่ม “ แต่ถ้าคุณต้องการให้ผู้กำกับที่ได้รับการคัดเลือกในโครงการด้านไอทีสามารถเข้าถึงได้หรือทุกคนยกเว้นบุคคลคุณต้องสร้างกลุ่มพิเศษมันเป็นวิธีที่ซับซ้อนและซับซ้อนมากในการดูการเข้าถึง”

นั่นคือสิ่งที่ให้สิทธิ์การเข้าถึงในระดับต่าง ๆ และกลุ่มเข้ามาอ้างอิงจากส Norris "เราได้รวม ACE เข้ากับวิธีการต่าง ๆ ที่คุณสามารถเข้าถึงข้อมูล - ผ่านไฟล์ตารางสตรีม ฯลฯ - และนำมุมมองไปใช้โดยไม่คัดลอกข้อมูลแยกต่างหากดังนั้นเราจึงให้มุมมองกับข้อมูลดิบและ Views สามารถมีระดับการเข้าถึงที่แตกต่างกันซึ่งจะช่วยให้คุณได้รับการรักษาความปลอดภัยแบบบูรณาการที่ตรงกว่า "

Hortonworks จัดการการเข้าถึงแบบละเอียดในลักษณะเดียวกัน โดยการรวม Apache Atlas เข้ากับการกำกับดูแลและ Apache Ranger, Gnau กล่าวว่า บริษัท จัดการการอนุญาตในระดับองค์กรผ่านบานหน้าต่างกระจกเดียว เขากล่าวว่ากุญแจสำคัญคือความสามารถในการให้สิทธิ์การเข้าถึงฐานข้อมูลและในแท็กข้อมูลเมตาเฉพาะโดยใช้นโยบายที่ใช้แท็ก

“ เมื่อมีคนอยู่ในฐานข้อมูลมันเป็นการแนะนำให้พวกเขาผ่านข้อมูลที่พวกเขาควรมีการเข้าถึงที่เกี่ยวข้อง” Gnau กล่าว "นโยบายความปลอดภัยของแรนเจอร์ในระดับออบเจ็กต์มีความละเอียดและทุกที่ในนั้นสามารถจัดการกับสิ่งนั้นได้การคาดว่าความปลอดภัยในการปกครองนั้นเป็นสิ่งที่น่าสนใจจริงๆ

"ในการขยายองค์กรขนาดใหญ่คุณต้องรวมบทบาทเหล่านั้นเข้ากับการกำกับดูแลและการติดแท็กข้อมูลเมตา" Gnau กล่าว "ถ้าฉันลงชื่อเข้าใช้จากสิงคโปร์อาจมีกฎแตกต่างกันไปตามกฎหมายว่าด้วยความเป็นส่วนตัวในท้องถิ่นหรือกลยุทธ์ของ บริษัท เมื่อ บริษัท กำหนดกำหนดและทำความเข้าใจกับกฎเหล่านั้นจากมุมมองจากบนลงล่างแบบองค์รวม ชุดกฎเฉพาะขณะที่ดำเนินการทุกอย่างภายในแพลตฟอร์มหลัก "

ที่มา: IBM Big Data & Hub การวิเคราะห์ คลิกที่ภาพเพื่อดูแบบเต็ม

2. ความปลอดภัยในขอบเขตการปกป้องข้อมูลและการรับรองความถูกต้องแบบรวม

การกำกับดูแลจะไม่เกิดขึ้นหากไม่มีการรักษาความปลอดภัยปลายทาง Gnau กล่าวว่าเป็นสิ่งสำคัญในการสร้างขอบเขตและไฟร์วอลล์ที่ดีรอบ ๆ ข้อมูลที่รวมเข้ากับระบบการตรวจสอบและมาตรฐานที่มีอยู่เดิม Norris เห็นด้วยว่าเมื่อต้องมีการรับรองความถูกต้องเป็นเรื่องสำคัญที่องค์กรต่างๆต้องทำการซิงค์กับระบบที่ผ่านการทดลองและทดสอบแล้ว

"ภายใต้การรับรองความถูกต้องเป็นเรื่องเกี่ยวกับวิธีที่คุณผสานรวมกับ LDAP, Active Directory และบริการไดเรกทอรีบุคคลที่สาม" Norris กล่าว "เรายังสนับสนุนชื่อผู้ใช้และรหัสผ่านของ Kerberos สิ่งสำคัญคือไม่ต้องสร้างโครงสร้างพื้นฐานแยกต่างหากทั้งหมด แต่เป็นวิธีที่คุณผสานรวมกับโครงสร้างที่มีอยู่และใช้ประโยชน์จากระบบเช่น Kerberos"

3. การเข้ารหัสข้อมูลและ Tokenization

ขั้นตอนต่อไปหลังจากการรักษาความปลอดภัยของคุณและรับรองความถูกต้องของการเข้าถึงข้อมูลแบบละเอียดทั้งหมดที่คุณให้: ตรวจสอบให้แน่ใจว่าไฟล์และข้อมูลที่สามารถระบุตัวบุคคลได้ (PII) ได้รับการเข้ารหัสและโทเค็นตั้งแต่ต้นจนจบ Gnau กล่าวถึงวิธีที่ Hortonworks รักษาความปลอดภัยข้อมูล PII

“ เมื่อคุณผ่านพ้นขอบเขตและเข้าถึงระบบความสามารถในการปกป้องข้อมูล PII นั้นมีความสำคัญอย่างยิ่ง” Gnau กล่าว "คุณต้องเข้ารหัสและทำข้อมูลให้ถูกต้องโดยไม่คำนึงว่าใครสามารถเข้าถึงข้อมูลนั้นได้พวกเขาสามารถเรียกใช้การวิเคราะห์ที่พวกเขาต้องการโดยไม่ต้องเปิดเผยข้อมูล PII ใด ๆ ในบรรทัด"

สำหรับวิธีการที่คุณเข้าถึงข้อมูลที่เข้ารหัสอย่างปลอดภัยทั้งในแบบเคลื่อนไหวและแบบที่เหลือ Norris ของ MapR อธิบายว่าเป็นสิ่งสำคัญที่ต้องคำนึงถึงกรณีการใช้งานเช่นการสำรองข้อมูลและการกู้คืนความเสียหาย (DR) เช่นกัน เขากล่าวถึงแนวคิดของ MapR ซึ่งเรียกว่าโลจิคัลวอลุ่มซึ่งสามารถนำนโยบายการควบคุมไปใช้กับกลุ่มไฟล์และไดเรกทอรีที่กำลังเติบโต

"ที่ระดับต่ำสุด MapR ได้ทำการจำลองแบบ WAN สำหรับ DR และสแน็ปช็อตที่สอดคล้องกับเวลาสำหรับข้อมูลทั้งหมดที่สามารถตั้งค่าที่ความถี่ที่แตกต่างกันโดยไดเรกทอรีหรือปริมาณ" Norris กล่าว "กว้างกว่าการกำกับดูแลข้อมูลคุณสามารถมีฟิสิคัลคลัสเตอร์พร้อมไดเร็กทอรีและแนวคิดโลจิคัลวอลุ่มเป็นหน่วยการจัดการที่น่าสนใจจริง ๆ และวิธีจัดกลุ่มสิ่งต่าง ๆ ในขณะที่ควบคุมการปกป้องข้อมูลและความถี่เป็นลูกศรในข้อมูลของผู้ดูแลระบบไอที ธรรมาภิบาลสั่นเทา "

4. การตรวจสอบอย่างต่อเนื่องและการวิเคราะห์

เมื่อมองภาพการกำกับดูแลที่กว้างขึ้นทั้ง Hortonworks และ MapR กล่าวว่ากลยุทธ์นี้ใช้ไม่ได้หากไม่มีการตรวจสอบ ระดับความสามารถในการรองรับและความรับผิดชอบในทุกขั้นตอนของกระบวนการเป็นสิ่งที่ช่วยให้ฝ่ายไอทีสามารถ "ควบคุม" ข้อมูลได้อย่างแท้จริงเมื่อเทียบกับการตั้งค่านโยบายและการควบคุมการเข้าถึงและหวังให้ดีที่สุด นอกจากนี้ยังเป็นวิธีที่องค์กรสามารถรักษากลยุทธ์ของพวกเขาในสภาพแวดล้อมที่เราเห็นข้อมูลและเทคโนโลยีที่เราใช้ในการจัดการและวิเคราะห์การเปลี่ยนแปลงทุกวัน

“ ชิ้นส่วนสุดท้ายของกลยุทธ์การกำกับดูแลที่ทันสมัยคือการบันทึกและติดตาม” Gnau กล่าว "เรากำลังอยู่ในช่วงเริ่มต้นของ Big Data และ IoT และเป็นสิ่งสำคัญที่จะต้องสามารถติดตามการเข้าถึงและจดจำรูปแบบในข้อมูลเพื่อที่ว่าเมื่อกลยุทธ์จำเป็นต้องได้รับการปรับปรุงเราจะก้าวไปข้างหน้า"

Norris กล่าวว่าการตรวจสอบและการวิเคราะห์สามารถทำได้ง่ายเพียงแค่ติดตามไฟล์ JavaScript Object Notation (JSON) ไม่ใช่ทุกชิ้นส่วนของข้อมูลที่จะคุ้มค่าในการติดตามและวิเคราะห์ แต่ธุรกิจของคุณจะไม่มีทางรู้ว่าจนกว่าคุณจะระบุความเข้าใจที่เปลี่ยนไปของเกมหรือวิกฤติที่เกิดขึ้นและคุณจำเป็นต้องใช้หลักฐานการตรวจสอบ

"ไฟล์บันทึก JSON ทุกไฟล์จะเปิดขึ้นเพื่อการวิเคราะห์และเรามี Apache Drill เพื่อค้นหาไฟล์ JSON ด้วยสคีมาดังนั้นจึงไม่ใช่ขั้นตอนไอทีแบบแมนนวลในการตั้งค่าการวิเคราะห์ข้อมูลเมตา" Norris กล่าว "เมื่อคุณรวมกิจกรรมการเข้าถึงข้อมูลทั้งหมดและการดำเนินการด้านการดูแลระบบทั้งหมดจะมีการวิเคราะห์ที่หลากหลาย"

5. สถาปัตยกรรมข้อมูลแบบครบวงจร

ในที่สุดเจ้าหน้าที่เทคโนโลยีหรือผู้ดูแลระบบไอทีที่ดูแลกลยุทธ์การกำกับดูแลข้อมูลองค์กรควรคำนึงถึงข้อมูลเฉพาะของการเข้าถึงแบบละเอียดการตรวจสอบความปลอดภัยการเข้ารหัสและการตรวจสอบ แต่เจ้าหน้าที่เทคโนโลยีหรือผู้ดูแลระบบไอทีไม่ควรหยุดอยู่แค่นั้น แต่บุคคลนั้นควรคิดด้วยว่าองค์ประกอบเหล่านี้แต่ละตัวป้อนเข้ากับสถาปัตยกรรมข้อมูลที่มีขนาดใหญ่ขึ้นอย่างไร เขาหรือเธอควรคิดด้วยว่าโครงสร้างพื้นฐานนั้นจำเป็นต้องปรับขนาดและปลอดภัยได้อย่างไรตั้งแต่การรวบรวมและจัดเก็บข้อมูลไปจนถึง BI, การวิเคราะห์และบริการของบุคคลที่สาม Gnau กล่าวว่าการกำกับดูแลข้อมูลเป็นเรื่องเกี่ยวกับการคิดใหม่กลยุทธ์และการดำเนินการตามที่เป็นเรื่องเกี่ยวกับเทคโนโลยีเอง

" นอกเหนือไปจากกระจกบานเดียวหรือชุดกฎความปลอดภัย" Gnau กล่าว "มันเป็นสถาปัตยกรรมเดียวที่คุณสร้างบทบาทเหล่านี้และพวกเขาซิงค์ข้ามแพลตฟอร์มทั้งหมดและเครื่องมือทั้งหมดที่คุณนำมาใช้ความงามของโครงสร้างพื้นฐานที่มีการควบคุมอย่างปลอดภัยคือความว่องไวซึ่งวิธีการใหม่ ๆ ถูกสร้างขึ้นในแต่ละระดับแพลตฟอร์มหรือแม้แต่ใน สภาพแวดล้อมคลาวด์แบบไฮบริดคุณมีจุดอ้างอิงเพียงจุดเดียวเพื่อทำความเข้าใจว่าคุณใช้กฎของคุณอย่างไรข้อมูลทั้งหมดผ่านการรักษาความปลอดภัยและการกำกับดูแลเลเยอร์นี้ "

ข้อมูลพื้นฐานขนาดใหญ่: วิธีสร้างแผนการกำกับข้อมูล