Big Data และ Precision Time
ในยุค 4.0 นี้เราจะได้ยินการกล่าวถึงคำว่า
Big Data กันบ่อยๆ Big Data คืออะไร
และมันจะใหญ่มหึมาขนาดไหน บทความนี้ ผู้เขียนจะอธิบายความหมายของ Big Data ให้เข้าใจกัน
Big Data ชื่อก็บอกตรงตัวอยู่แล้วว่าคือข้อมูลขนาดใหญ่
ในชีวิตประจำวันของเราปกติเราก็จะมีการใช้ข้อมูล การเข้าถึงข้อมูลต่างๆ
อยู่ทุกๆวัน ข้อมูลขนาดใหญ่มหาศาลเป็นสิ่งที่เราไม่สามารถมองเห็นหรือจับต้องได้เป็นรูปธรรม
ดังนั้นจะทำการเปรียบเทียบ Big Data ให้เห็นเป็นรูปธรรมมากขึ้น
โดยเปรียบเทียบกับขนาดของธนบัตรดังต่อไปนี้
อันดับแรก เรามาเริ่มต้นกันด้วยธนบัตร 100 ดอลลาร์
$100
|
ต่อไปเมื่อเปรียบเทียบขนาดของธนบัตรจำนวน 1 ล้านดอลลาร์ (1 million;
1,000,000) เมื่อเทียบกับขนาดร่างกายคน
ก็ยังดูไม่ใหญ่มาก
$1 million
|
และเมื่อเปรียบเทียบขนาด ธนบัตร 1 พันล้านดอลลาร์ (1 billion;
1,000,000,000)
ซึงมีขนาดเป็นหนึ่งพันเท่าจากเดิม
จะเห็นว่ามีขนาดที่ใหญ่กว่าตัวคนหลายเท่านัก
$1 billion
|
และเมื่อเพิ่มขนาดอีกหนึ่งพันเท่า ซึ่งก็คือขนาด
1
ล้านล้านดอลลาร์ (1 trillion; 1,000,000,000,000)
ร่ายกายของเราก็เล็กลงไปถนัดตา (ลูกศรชี้)
$1 trillion
|
เมื่อเพิ่มเลขศูนย์ไปอีกสามหลัก ก็จะมีขนาดเป็น 1 พัน ล้านล้านดอลลาร์
(1 quadrillion; 1,000,000,000,000,000) จะเห็นว่าธนบัตรมีขนาดใหญ่กว่าเครื่องบินจัมโบ้
เป็นหลายร้อยเท่า
$1 quadrillion
|
Big Data ก็คือข้อมูลขนาดมหาศาล
ที่มีการใช้งาน การเก็บข้อมูล การประมวลผลข้อมูล ที่ใหญ่มหาศาลกว่าข้อมูลในอดีตที่เรารู้จัก
ตัวอย่างของหน่วยงานที่จัดได้ว่ามีข้อมูลในระดับ Big Data เช่น
- Google โดย Google มีการติดตั้งเครื่องเซิฟเวอร์ จำนวนมากที่เรียกว่า server farm ใน data center 12 แห่งทั่วโลกซึ่งมีจำนวนเครื่องเซิฟเวอร์รวมทั้งหมด เป็นจำนวนมากกว่า 900,000 เครื่องทั่วโลก
- Amazon มีการติดตั้งเครื่องเซิฟเวอร์ ในระดับ server farm เช่นกัน ใน data center 9 แห่งทั่วโลก และมีจำนวนเครื่องเซิฟเวอร์รวมทั้งหมด เป็นจำนวนมากกว่า 450,000 เครื่องทั่วโลก
- Cloud storage และ Cloud computing อื่นๆ เช่น iCloud และ Microsoft OneDrive ซึ่งมีการให้บริการกับผู้ใช้งาน หลายร้อยล้าน user ทั่วโลก โดยเริ่มที่ free account จะให้โควตาการเก็บข้อมูลขั้นต่ำที่ 5GB และสำหรับ subscription account ที่คิดค่าบริการจะได้โควตาสูงถึง 1TB
ถ้าลองคำนวณตัวเลขแบบคร่าวๆ เช่น สมมุติว่ามีจำนวนผู้ใช้งาน
OneDrive
แบบ subscription account จำนวน 10 ล้านคนทั่วโลก ซึ่งแต่ละคนได้โควตา storage คนละ 1TB
ดังนั้นทางบริษัท Microsoft ก็จะต้องจัดเตรียมเซิฟเวอร์
ให้รองรับการเก็บข้อมูลได้ถึง 10 ล้านเทราไบต์
เมื่อมาถึงตรงนี้เราก็ได้เห็นภาพของ Big
Data แล้ว ต่อไปก็จะกล่าวถึงโครงสร้างพื้นฐาน (infrastructure) ที่จะสนับสนุนให้ Big Data ทำงานได้อย่างมีประสิทธิภาพ
Big Data ที่มีการใช้งานอยู่ในปัจจุบัน
มีการขยายขนาดในอัตราที่สูงมาก การติดตั้งระบบอุปกรณ์เน็ตเวิร์ค ก็มีการติดตั้งในลักษณะแบบคู่ขนานและกระจาย
(parallel and distributed systems) เพิ่มขึ้นตามการขยายตัวของระบบ
ซึ่งเมื่อมีการขยายเน็ตเวิร์ค ก็จะมีการติดตั้งฮาร์ดแวร์ เช่น router และ switch เพิ่มขึ้นตามจำนวนที่ต้องการการรองรับ
แต่เมื่อมาถึงจุดหนึ่งการเพิ่มจำนวนของฮาร์ดแวร์เพียงอย่างเดียวก็ไม่สามารถที่จะทำให้ระบบเน็ตเวิร์คมีประสิทธิภาพที่ดีตามที่คาดหวัง
เพราะเน็ตเวิร์คมีโครงสร้างที่สลับซับซ้อนมากขึ้น และเมื่อยิ่งมีการขยายฮาร์ดแวร์มากขึ้น
ก็จะมีปัจจัยอื่นเพิ่มตามมา เช่น ต้องการพื้นที่สำหรับการวางอุปกรณ์
ต้องการกำลังไฟฟ้าที่สูงขึ้น ต้องการระบบทำความเย็นที่มากขึ้น ซึ่งทำให้ผู้วางระบบต้องมาพิจารณาถึงแนวคิดใหม่ๆว่าจะทำอย่างไร
ให้ระบบที่ใหญ่และซับซ้อนสามารถทำงานได้อย่างมีประสิทธิภาพ ถูกต้องและรวดเร็ว
- สิ่งหนึ่งที่จะช่วยให้การทำงานของระบบเน็ตเวิร์คโดยรวมทำงานได้ดี ก็คือจะต้องมีการตรวจสอบประสิทธิภาพของระบบ (performance monitoring) ซึ่งผู้ดูแลระบบจะต้องทำการวัดหรือตรวจสอบปริมาณ traffic เพื่อทราบจำนวนข้อมูลการใช้งานของอุปกรณ์ในเน็ตเวิร์คต่างๆ ที่เชื่อมต่อกัน ซึ่งในการวัดและตรวจสอบ จะต้องอาศัยฐานเวลาที่มีความแม่นยำสูง ที่เรียกว่า precision time สำหรับการบันทึกและประมวลผลของอุปกรณ์ที่ทำงานสัมพันธ์กันจากหลากหลายที่ และถ้าฐานเวลามีความคลาดเคลื่อนไม่สอดคล้องกัน ข้อมูลจากอุปกรณ์เน็ตเวิร์คแต่ละตัวที่ใช้ในการวิเคราะห์ระบบก็จะมีความคลาดเคลื่อนไป ทำให้ไม่สามารถแก้ปัญหาได้ตรงจุด
- นอกจากนี้ precision time ยังมีความสำคัญในการเป็นแหล่งอ้างอิงสำหรับการจัดเก็บข้อมูล เพราะจากแนวคิดในการออกแบบระบบแบบกระจาย (distributed system) ข้อมูลที่เก็บใน cloud จะทำการจัดเก็บหรือบันทึกไปยังเซิฟเวอร์หลายตัว หรือแม้กระทั่งเซิฟเวอร์ที่ตั้งอยู่ต่างสถานที่กัน และเมื่อมีการเรียกใช้ไฟล์หรือข้อมูลจาก cloud ข้อมูลเดียวกันก็จะถูกนำกลับออกมาจากหลายเซิฟเวอร์ และเพื่อป้องกันการชนกันที่เรียกว่า data conflict ดังนั้น precision time จึงถูกนำมาใช้เป็นแหล่งอ้างอิง เพื่อให้ทราบว่าข้อมูลที่เรียกกลับมาจากเซิฟเวอร์ตัวไหน เป็นข้อมูลที่ถูกบันทึกล่าสุด และเหมาะสมสำหรับนำกลับมาใช้งาน เพราะข้อมูลที่จัดเก็บในแต่ละเซิฟเวอร์ จะมีการบันทึกเวลา (timestamps) เอาไว้ การใช้ฐานเวลาอ้างอิงเพื่อตรวจสอบ จึงทำให้ระบบ cloud สามารถทำงานได้อย่างรวดเร็ว และลดการทำงานของระบบประมวลผลทำให้ประสิทธิภาพของระบบสูงขึ้น ข้อมูลต่างๆ ใน Big Data ถึงแม้จะเป็นข้อมูลที่มีขนาดเล็ก แต่เมื่อรวมข้อมูลเล็กๆ จากหลายๆแหล่ง ในเน็ตเวิร์คที่มีจำนวนมากมายมหาศาล ก็สามารถสะสมจนมีขนาดใหญ่โตมโหฬาร
ท้ายที่สุด
เมื่อระบบเน็ตเวิร์คมีการพัฒนาและขยายระบบ อุปกรณ์ time server หรือ NTP server จะมีบทบาทสำคัญมากขึ้น precision
time จาก NTP server จะช่วยทำให้การทำงานของระบบเน็ตเวิร์คขององค์กร
ทำงานได้อย่างมีประสิทธิภาพ ถูกต้อง และแม่นยำ
ข้อมูลหลักของบทความนี้ได้ทำการแปลมาจาก
บทความต้นฉบับของ Spectracom ซึ่งสามารถเข้าไปดาวน์โหลดข้อมูลอ้างอิงตามลิงค์ดังต่อไปนี้
บริษัท NetSync (Thailand) Limited มีความยินดีที่จะให้คำปรึกษาเรื่องระบบ Master Clock, NTP Server, Time & Frequency system
ติดต่อ คุณยุทธนา Tel: 089-136 6399
0 comments:
Post a Comment