บ้าน ธุรกิจ ทะเลสาบข้อมูลอธิบาย

ทะเลสาบข้อมูลอธิบาย

วีดีโอ: What is a Data Lake? (กันยายน 2024)

วีดีโอ: What is a Data Lake? (กันยายน 2024)
Anonim

การปฏิวัติข้อมูลขนาดใหญ่ได้นิยามวิธีการทำงานขององค์กรใหม่ ข้อมูลรองรับทุกอย่าง ไม่เพียงมีเครื่องมือโอเพนซอร์ซเช่น Apache Hadoop และ Spark ทำให้ข้อมูลจำนวนมากง่ายต่อการรวบรวมประมวลผลและจัดเก็บแบบเรียลไทม์ แต่เครื่องมือทางธุรกิจ (BI) และการสร้างภาพข้อมูลได้เริ่มช่วยเราในการวิเคราะห์พื้นผิว และเปลี่ยนข้อมูลนั้นเพื่อแจ้งการตัดสินใจทางธุรกิจหลัก

แม้ว่าจะมีการพัฒนาเทคโนโลยี Big Data และ BI จำนวนเท่าไหร่ แต่เรายังคงต้องเผชิญกับข้อมูลจำนวนมหาศาลที่รวมกันอย่างต่อเนื่องซึ่งการค้นหาจุดที่ถูกต้องในการวิเคราะห์ยังคงรู้สึกเหมือนการดำน้ำสำหรับเข็มในกองหญ้าที่ไม่มีวันสิ้นสุด การแก้ไขปัญหา? ออกแบบกองหญ้าใหม่

ป้อนทะเลสาบข้อมูลซึ่งเป็นสถาปัตยกรรมองค์กรแบบคลาวด์รูปแบบใหม่ที่สร้างโครงสร้างข้อมูลด้วยวิธีที่ปรับขนาดได้มากขึ้นซึ่งทำให้การทดสอบง่ายขึ้นด้วย ทำให้เปิดกว้างสำหรับการสำรวจและการจัดการมากกว่าการถูกล็อคไว้ในแบบแผนและไซโลที่เข้มงวด Nasry Angel นักวิจัยสถาปัตยกรรมองค์กรที่ Forrester Research อธิบายว่าเหตุใดองค์กรต่างๆจึงใช้สถาปัตยกรรมทะเลสาบดาต้า

“ มันฟังดูน่าเบื่อ แต่เมื่อคุณคิดเกี่ยวกับสภาพแวดล้อมข้อมูลที่มีประสิทธิภาพมันเป็นการทดลองที่มากขึ้น” แองเจิลกล่าว "คุณต้องสามารถเรียนรู้อย่างรวดเร็วและล้มเหลวได้อย่างรวดเร็วในอดีตการจัดการข้อมูลโดยเฉพาะอย่างยิ่งในคลังสินค้านั้นเป็นเรื่องเกี่ยวกับคุณภาพจนถึงจุดฐานสิบทำให้แน่ใจว่าทุกอย่างถูกต้องและเป็นจริงอย่างสมบูรณ์ เวอร์ชั่นของความจริงจากนั้นสร้างรายงานพิกเซลที่สมบูรณ์แบบ

“ ทุกวันนี้มันเป็นกระบวนการทางวิทยาศาสตร์ที่มากขึ้นคุณเดินเข้ามาพร้อมกับสมมติฐานเกี่ยวกับข้อมูลที่คุณต้องการทดสอบและคุณต้องการที่จะเล่นกับข้อมูลผสมและจับคู่เพื่อลองสิ่งต่าง ๆ ก่อนที่คุณจะไปและสร้างผลงานบางอย่าง "

ทะเลสาบดาต้าคืออะไร

ดาต้า data เป็นที่เก็บข้อมูล แม้ว่าจะแตกต่างจากคลังข้อมูลหรือ "ดาต้ามาร์ท" แองเจิลอธิบายว่าทะเลสาบมีการกระจายข้อมูลไปยังหลายโหนดแทนที่จะอยู่ในสภาพแวดล้อมที่มีโครงสร้างที่คงที่และมีโครงสร้างของคลังข้อมูลที่พึ่งพา schemas (ดูอินโฟกราฟิกด้านล่าง)

"ดาต้า data อนุญาตให้คุณใช้สคีมาเมื่อคุณเขียนข้อมูลกับคลังข้อมูลที่ต้องการให้คุณทำสคีมาเมื่ออ่านดังนั้นที่สำคัญคลังข้อมูลต้องการให้คุณสร้างแบบจำลองข้อมูลก่อนที่คุณจะเข้าใจบริบทของมัน ไม่สมเหตุสมผล "Angel พูด

ที่มา: JustOne Database, Inc. (คลิกที่ภาพด้านบนเพื่อดูภาพแบบเต็ม)

“ โดยทั่วไปในคลังสินค้าคุณมีผู้เชี่ยวชาญด้านไอทีที่คิดว่าเป็นโมเดลข้อมูลที่ดีที่สุดและพวกเขาไม่ใช่ผู้ใช้ข้อมูลในท้ายที่สุดคุณสามารถดูได้อย่างรวดเร็วว่าจะเป็นอุปสรรคต่อการเพิ่มผลผลิตและมูลค่าทางธุรกิจอย่างไร” . "ในที่สุดคุณและผู้ใช้ทางธุรกิจจำเป็นต้องเป็นคนที่ตัดสินใจเกี่ยวกับโครงสร้างของข้อมูลและในดาต้าเลกคุณสามารถสำรวจและค้นหาสิ่งที่มีอยู่ก่อนแล้วจึงร่างสคีมาเพื่อจัดระเบียบมันให้ดีที่สุด"

โดยทั่วไปทะเลสาบข้อมูลจะถูกสร้างขึ้นบน Hadoop และการแจกจ่าย Hadoop สำหรับองค์กรเช่น Hortonworks และ MapR เสนอสถาปัตยกรรมทะเลสาบข้อมูล ธุรกิจยังสามารถสร้างทะเลสาบข้อมูลโดยใช้คลาวด์ Infrastructure-as-a-Service (IaaS) รวมถึง Amazon Web Services (AWS) และ Microsoft Azure Elastic Compute Cloud ของ Amazon (EC2) สนับสนุนทะเลสาบข้อมูลในขณะที่ Microsoft มีแพลตฟอร์ม Azure Data Lake โดยเฉพาะเพื่อจัดเก็บและวิเคราะห์ข้อมูลตามเวลาจริง แองเจิลกล่าวว่าทะเลสาบข้อมูลเติบโตเต็มที่จนถึงจุดภายในพื้นที่ข้อมูลขนาดใหญ่ที่ธุรกิจสามารถเริ่มลงทุนด้วยความมั่นใจที่สมเหตุสมผล

“ ไม่กี่ปีที่ผ่านมา Hadoop คือความโกรธเกรี้ยวทั้งหมดตอนนี้เราถึงจุดที่ Hadoop ได้รับการค้าขายแล้ว” ทูตสวรรค์กล่าว คำถามนี้ไม่ใช่ถ้า Hadoop แต่เมื่อไหร่และคุณจะทำอะไรกับแอพพลิเคชั่นประเภทใดที่คุณจะสร้างขึ้นบน Hadoop เมื่อคุณได้รับข้อมูลเข้าสู่สถานที่ทั่วไปเช่นทะเลสาบดาต้า ณ จุดนี้มันเกี่ยวกับการใช้ข้อมูลเพื่อพัฒนาแอพพลิเคชั่นเพื่อตอบสนองความต้องการทางธุรกิจของคุณโดยเฉพาะ "

อาคารบนยอดอ่างเก็บน้ำข้อมูล

ส่วนที่น่าตื่นเต้นที่สุดเกี่ยวกับ Big Data นั้นเป็นไปได้ทั้งหมดที่จะปลดล็อค เมื่อคุณตั้งค่า data lake ที่จะเล่นและทดสอบกับชุดข้อมูลและผลลัพธ์ทางธุรกิจที่แตกต่างกันคุณสามารถเริ่มต้นเทคนิคการวิเคราะห์เชิงนวัตกรรมที่อยู่ด้านบน

อัลกอริธึมการเรียนรู้ด้วยเครื่องจักร (ML) กำลังกลายเป็นส่วนหนึ่งของโครงสร้างพื้นฐานของคลาวด์และนักวิจัยกำลังพัฒนาเทคนิคการเรียนรู้ลึกและเครือข่ายประสาทเทียมอย่างต่อเนื่องเพื่อฝึกอบรมเครื่องจักรและระบบข้อมูลเพื่อจดจำรูปแบบที่ซับซ้อน การวิเคราะห์เชิงคาดการณ์กำลังถูกนำไปใช้กับเครื่องมือข้อมูลและแพลตฟอร์มขององค์กรมากขึ้นเรื่อย ๆ เช่นกันโดยใช้สำหรับทุกสิ่งตั้งแต่การให้คะแนนแบบคาดการณ์และการแบ่งส่วนอัตโนมัติสำหรับการจัดการลูกค้าสัมพันธ์ (CRM) ไปจนถึงการระบุแนวโน้มของตลาดการเงิน

ทั้งหมดนี้เกิดขึ้นเหนือสิ่งที่เก็บข้อมูลธุรกิจของคุณคือการป้อนและปรับขนาดตามความต้องการ แองเจิลพูดคุยเกี่ยวกับกรณีการใช้งานจริงบางอย่างที่เขาเห็นข้อมูลทะเลสาบเปลี่ยนวิธีการทำงานขององค์กร

"ฉันทำงานกับ บริษัท สำนักพิมพ์ที่มีผลงานของนิตยสารที่แตกต่างกัน - พวกเขามีสิ่งพิมพ์สำหรับนักกฎหมายคนอื่นสำหรับนักบัญชีคนอื่นที่ปรึกษา ฯลฯ - และสิ่งพิมพ์แต่ละเล่มมีคลังข้อมูลของตัวเองอย่างมีประสิทธิภาพสิ่งพิมพ์แต่ละเล่มมีของตัวเอง ไซโล "ทูตสวรรค์อธิบาย

"ดังนั้นเราจึงดึงข้อมูลทั้งหมดออกจากคลังข้อมูลและใส่ลงในดาต้าเลกและดาต้าเลกให้พวกเขาเห็นผ่านไซโลพวกเขาสามารถสำรวจข้อมูลและทำการค้นหาข้อมูลและตระหนักว่าในสิ่งพิมพ์ต่าง ๆ เหล่านี้ทั้งหมด ลูกค้าจากนิตยสารทุกเล่มสนใจในโลกไซเบอร์ความปลอดภัยของผู้อ่านในโลกไซเบอร์นั้นแข็งแกร่งในทุกบทบาทที่แตกต่างกันดังนั้นพวกเขาจึงทำอะไรพวกเขาทำให้โลกไซเบอร์เป็นหัวข้อของการประชุมประจำปี "

อีกตัวอย่างหนึ่งที่แองเจิลพูดถึงก็คืออีคอมเมิร์ซ ลูกค้ารายอื่นผู้ค้าปลีกศิลปะออนไลน์กำลังทิ้งข้อมูลจำนวนหนึ่งไว้ในดาต้าเลกและไม่เพียงใช้เป็นที่เก็บข้อมูลเท่านั้น แต่ยังเป็นแหล่งรวมข้อมูลเชิงลึกทางธุรกิจ ผู้ค้าปลีกนำข้อมูลการทำธุรกรรม (คำสั่งซื้อใบแจ้งหนี้การชำระเงิน ฯลฯ ) ข้อมูลคลิกสตรีม (ผู้สืบทอดเว็บไซต์ของแต่ละคลิกและหน้า) และข้อมูลจากคลังข้อมูลของผู้ค้าปลีกทั้งหมดลงไปในทะเลสาบและใช้ในคอนเสิร์ตเพื่อต่อสู้กับตะกร้าสินค้า การละทิ้งและการแปลง

“ คุณต้องการสร้างฐานข้อมูลบนดาต้าเซ็นเตอร์และใช้มันเพื่อกำหนดข้อมูลเชิงลึกทางธุรกิจที่ซับซ้อน” แองเจิลกล่าว "ผู้ค้าปลีกที่ทันสมัยสามารถดูข้อมูลการคลิกของลูกค้าและจับคู่การคลิกกับโปรไฟล์ลูกค้าจากนั้นใช้ข้อมูลการทำธุรกรรมเพื่อดูว่าลูกค้าซื้ออะไรในอดีตและใช้ข้อมูลเชิงลึกเหล่านั้นเพื่อเรียกใช้แคมเปญอีเมลที่เฉพาะเจาะจงดังนั้นหากลูกค้าทิ้ง ผู้ค้าปลีกสามารถติดตามได้ในสองชั่วโมงต่อมาและพูดว่า 'เราเห็นคุณกำลังตรวจสอบ Picasso นี้นี่คือลิงค์ถ้าคุณต้องการดูอีกครั้ง' "

ทะเลสาบข้อมูลสามารถนำไปใช้ได้อย่างกว้างขวางในทุกกรณีการใช้งานทางธุรกิจ แต่สำหรับหัวหน้าเจ้าหน้าที่เทคนิค (CTO) หรือหัวหน้าเจ้าหน้าที่ความปลอดภัยของข้อมูล (CISO) เมื่อพิจารณาถึงการโยกย้ายไปยังสถาปัตยกรรมเทวดาเน้นว่าคลังข้อมูลยังไม่ล้าสมัยไม่ยืด สำหรับองค์กรธุรกิจส่วนใหญ่ไม่ว่าคุณจะใช้ผู้ให้บริการคลาวด์หรือการกระจาย Hadoop ที่กำหนดเองธุรกิจยังคงต้องการทั้งสองอย่าง

ทะเลสาบข้อมูลช่วยให้คุณเข้าถึงข้อมูลเชิงลึกที่ไม่มีใครเทียบได้โดยการลบข้อ จำกัด ของข้อมูลที่สอดคล้องกับสคีมาเฉพาะและมาพร้อมกับต้นทุนการเป็นเจ้าของที่ต่ำกว่ามากเนื่องจากการใช้พื้นที่เก็บข้อมูลบนคลาวด์ที่ยืดหยุ่นและราคาถูกเช่น AWS จ่ายเงินสำหรับพลังการประมวลผลที่คุณใช้จริง การเรียกใช้คลังข้อมูลมีราคาแพงกว่าและทำให้ผู้เชี่ยวชาญด้านไอทีเลือกสรรเกี่ยวกับข้อมูลที่เข้าและออกมากขึ้น แต่สำหรับข้อมูลที่สำคัญที่สุดขององค์กรนั่นไม่ใช่เรื่องเลวร้าย

"คลังข้อมูลมีข้อได้เปรียบด้านความปลอดภัยและเป็นเครื่องมือที่ง่ายมากในการควบคุมการกำกับดูแลข้อมูล" นายแองเจิลกล่าว "ดังนั้นคุณยังต้องการเก็บข้อมูลที่ละเอียดอ่อนที่สุดของคุณไว้ในโกดังสิ่งที่มีความสำคัญต่อภารกิจ แต่เมื่อมันมาถึงโอกาสทางธุรกิจใหม่ ๆ และค้นหาข้อมูลเชิงลึกที่ซ่อนอยู่คุณต้องการใช้ประโยชน์จากดาต้าเลก"

ทะเลสาบข้อมูลอธิบาย