DIGITAL CHILL CHILL ตอนที่ 1

DIGITAL CHILL CHILL ตอนที่ 1
หัวข้อ INTRODUCTION TO A BIG DATA PROJECT

Introduction to a big data project คุณรวิโรจน์ ไพวิโรจน์ วันศุกร์ที่ 31 กรกฎาคม 2020

Big Data คือข้อมูลจำนวนมาก และทุกประเภทก็คือ Big Data ยังแบ่งได้ 4 ลักษณะดังนี้

  1. Volume : ข้อมูลจำนวนมหาศาล หรือ เป็นข้อมูลที่เยอะแล้วแต่ยะงเพิ่มขนาดออกไปได้อีกเรื่อยๆ
  2. Variety : ข้อมูลที่หลากหลาย หรือ ข้อมูลที่ไม่ใช่ชนิดเดียวกัน เช่น ในหนึ่ง Big Data จะมีทั้ง รูปภาพ เสียง วิดิโอ และข้อความ เป็นต้น
  3. Velocity : ข้อมูลที่มีความรวดเร็ว หรือ เป็นข้อมูลที่พร้องนำไปใช้งานได้ แล้วเลยไวต่อการวิเคราะห์
  4. Veracity : ข้อมูลที่มีความแม่นยำ หรือ ข้อมูลไม่มีการช้ำซ้อนของข้อมูล เช่น ข้อมูลที่เป็นชื่อจังหวัด บ้างคนจะใส่ข้อมูลแบบ กทม กรุงเทพ กรุงเทพมหานคร หรือ อะไรที่แปลว่า กรุงเทพมหานคร แบบนี้เรียกว่าข้อมูลช้ำซ้อน ข้อมูลที่ไม่มีการช้ำซ้อน แล้วก็จะเป็นแค่จังหวัด กทม อันใดอันหนึ่งก็ได้

สิ่งที่เข้าใจผิดใน Big Data 

        Big Data จะมีค่าในตัวเอง

จริงๆแล้วไม่เลย Big Data ก็คือกลุ่มก้อนของข้อมูลถ้าไม่ได้เอามาวิเคราะห์ ข้อมูลก็จะหายไปตามเวลาเพราะว่าข้อมูลมั้นเก่าไปแล้ว เลยไม่มีประโยชน์หรือค่าในตัวเอง

        Big Data นำพามาซึ่งการเปลี่ยนแปลงครั้งใหญ่

ข้อนี้จะคล้ายๆกับข้อที่แล้ว ข้อมูลถ้าไม่ได้นำมาใช้วิเคราะห์เกิดประโยชน์ก็ จะไม่สามารถสร้างความเปลี่ยนแปลงอะไรให้กับ องค์กรได้

        Big Data มีค่ามากว่า Little Data

จริงอยู่ที่ข้อมูลเยอะๆต้องดีกว่ามีข้อมูลน้อย แต่ถ้าข้อมูลที่เยอะๆแต่มีความช้ำซ้อน และข้อมูลที่มีข้อผิดพลาดมันก็ให้เสียเวลาในการทำมากกว่าข้อมูลที่น้อยแต่ไม่มีความช้ำซ้อน และข้อผิดพลาดที่น้อย ไม่มีอันไหนที่มีค่ากว่ากันขึ้นอยู่กับที่ว่าจะนำไปใช้ ประโยชน์ได้มากกว่ากัน

        Big Data เป็นเรื่องขององค์กร หรือ ธุรกิจขนาดใหญ่

ในปัจจุบันการทำ Big Data วิเคราะห์ข้อมูลไม่ได้มีค่าใช้จ่ายสูงมากกว่า เหมือนในอดีต เพราะฉะนั้นแล้วองค์ที่เล็ก หรือ ธุรกิจที่เล็ก ก็มีโอกาสได้เข้าถึงแล้วเหมือนกัน

หลักการทำ Big Data Project

อย่างแรกที่ต้องดูในองค์กรก่อนจะทำ Big Data Project ว่าในองค์กรยังใช้มนุษย์ตัดสินใจเรื่องอะไรอยู่บ้าง การที่นำเอา Big Data Project มาใช้จะช่วยเรื่องของการตัดสินใจได้อย่างแม่นยำ และทำให้มีข้อผิดพลาดน้อยลง มนุษย์จะใช้ประสบการณ์ และความรู้สึกในการตัดสิน อาจจะทำให้มีโอกาสที่จะผิดพลาด ต่อมาการตรวจสอบข้อมูล ที่ยังไม่ได้ใช้งานมาใช้ให้เกิดประโยชน์ถ้าเอาข้อมูลที่ไม่ได้ใช้มาทำ Big Data มาวิเคราะห์ องค์กรที่อยากทำ Big Data Project ควรมีที่ปรึกษาเฉพาะทางเพื่อให้ง่ายต่อการวิเคราะห์ข้อมูล และองค์กรต้องเข้าใจเรื่องเทคโนโลยีด้วยมันจะช่วยให้ง่ายขึ้นอีกนิดหน่อย หลักทำงานก็จะเปลี่ยนไปจากเป็นการที่หัวหน้าเป็นคนตัดสินใจการทำงาน พอทำ Big Data Project ขึ้นมาก็จะต้องผ่านการติดสินใจร่วมกัน ระหว่างหัวหน้างาน กับ ข้อมูลที่วิเคราะห์ออกมากได้จะใช้ให้ทำงานได้แม่นยำและรวดไว

ประเภทของ Data

  1. ข้อมูลแบบมีโครงสร้าง คือ ข้อมูลที่เป็นประเภทตัวเลข ตัวอักษร ที่อยู่ในรูปแบบของ Relational Database เป็นตารางที่แบ่งเป็นแถวเป็นคอลมน์ และมีการเชื่อมต่อกันในตารางต่างๆได้โดยใช้ (SQL) ในการจัดการข้อมูลปัจจุบันมีข้อมูลประเภทนี้อยู่ 20% ของข้อมูลทั้งหมด
  2. ข้อมูลแบบไม่มีโครงสร้าง คือ ข้อมูลที่ไม่สามารถระบุบถึงโครงสร้างได้ชัดเจน เช่น ข้อมูลประเภท ข้อความ เสียง รูปภาพ วิดีโอ หรือแบบเข้าใจแบบง่ายๆ คือข้อมูลที่มาจากทาง โซเชียลมีเดีย Facebook Twitter หรือ YouTube ที่ให้เราทำการ Upload ข้อมูลลงไป และข้อมูลประเภทนี้ไม่สามารถใช้การเก็บข้อมูลแบบ (SQL) ได้จึงต้องใช้การจัดเก็บด้วยรูปแบบ Non-relational-database (NoSQL) ปัจจุบันข้อมูลประเภทนี้มีอยู่ 80% ของข้อมูลทั่งหมด

การจัดการ Data

  1. แหล่งที่มาของข้อมูล คือ อะไรก็ที่ให้กำเนิดข้อมูลออกมาไม่ว่าจะอยู่ในรูปแบบใดก็ตาม เช่น ข้อมูลที่ได้มาจากที่โปรแกรมสร้างขึ้น หรือ เซ็นเซอร์ที่เก็บข้อมูล และแสดงผลออกมา ทำให้เกิดที่มาของข้อมูล แต่จะมีความหลากหลายของรูปแบบข้อมูล จึงอาจให้เกิดข้อผิดพลาดขึ้นได้ ทำให้เกิดความลำบากในจัดการข้อมูล ดังนั้นต้องเตรียมความพร้อมให้ดีๆ
  2. ช่องทางการส่งต่อข้อมูล คือ การเชื่อมต่อออกมาจากแหล่งข้อมูล ถือว่าเป็นการไหลของข้อมูล และจำเป็นต้องมีการดึงข้อมูลออกมาใช้งานต่อ เช่น การ Upload/Download หรือ ใช้ (API) มาใช้ในการดึงข้อมูลมาใช้งาน แต่ว่าข้อมูลอาจจะมีปัญหาที่เกิดจากการช้ำซ้อนของข้อมูล หรือ มีปัญหาอื่นๆได้ ดังนั้นในขั้นตอนการส่งต่อข้อมูลจึงได้มีขั้นตอนมาช่วยทำให้ไม่เกิดปัญหาได้ มีชื่อเรียกว่า (ETL) ประกอบไปด้วย
    • Extract : การดึงข้อมูลออกาจากแหล่งข้อมูล
    • Transform : การจัดข้อมูล เช่น การแยกข้อมูล การทำความสะอาดข้อมูล เป็นต้น
    • Load : การนำข้อมูลที่ผ่านจากการ Transform แล้วมาจัดเก็บ หรือ นำมาประมวลผล
  3. แหล่งเก็บข้อมูล คือ การเก็บข้อมูลที่มาจากหลายๆแหล่ง เข้ามาด้วยกัน แบ่งออกได้ 2 ชนิด
    • Data Lake คือ ข้อมูลดิบที่ไม่ได้ผ่านกระขวนการใด ในขั้นตอนของ (ETL) 
    • Data Warehouse คือ Data Lake ที่ผ่านการ (ETL) มาแล้ว
  4. การวิเคราะห์ข้อมูล คือ เป็นหน้าที่ของ Data Scientist จะแบ่งการทำงานได้ 2 ลักษณะ
    • การวิเคราะห์แบบเบี้องต้นโดยการใช้สถิติ เช่น การหาค่าเฉลี่ย การหาค่าแปรปรวน ซึ่งการวิเคราะห์แบบเบื้องต้นนั้นแก้ปัญหาได้ทุกกรณี
    • การวิเคราะห์เชิงลึกโดย Model แบบต่างๆรวมถึงการใช้ Machine Learning เพื่อแก้ปัญหาแต่จะไม่ได้มีไว้ใช้แก้ทุกกรณี แต่จะไว้แก้แบบเฉพาะเจาะจงของปัญหา จะมีวิธีแก้ก็แตกต่างกันออกไปแล้วแต่ปัญหา
  5. การใช้ผลวิเคราะห์ข้อมูล คือ การนำผลลัพธ์ที่ได้จากการวิเคราะห์ข้อมูลไปใช้ได้ 2 รูปแบบ
    • การออกเป็นแบบรายงาน เพื่อที่จะให้ Data Analyst ตรวจสอบแล้วนำไปใช้ด้านธุรกิจ
    • การนำไปใช้แทนการทำงานของ มนุษย์ แต่ต้องมีการเขียนโปรแกรมเพิ่มเติมให้มีการกระทำออกไป คือ การนำมาใช้ให้ได้เรียนรู้ด้วยตัวเองแล้วทำโดย อัตโนมัติ หรือในทีบ้างกรณีเรียกว่า (AI)
  6. หน้าที่ในแต่ละส่วนของการทำ Big Data Project สามารถแบ่งออกได้ 3 ส่วน
    • Data System ทำหน้าที่ในการออกแบบ และ จัดการข้อมูลของระบบ คือ ทำการออกแบบการนำข้อมูลเข้าสู่ระบบ และทำความสะอาดข้อมูล (หน้าที่ของ Data Engineer)
    • Data Modeling การออกแบบ Modeling ที่ทำ (ETL) แล้วนำมาวิเคราะห์ข้อมูล (หน้าที่ของ Data Scientist)
    • Data Communication นำข้อมูลที่วิเคราะห์แล้วมาวิเคราะห์ข้อมูลเพิ่มเติมเพื่อนำมาใช้ในด้านธุรกิจ (หน้าที่ของ Data Analyst)

สามารถชมไลฟ์ย้อนหลังได้ที่นี่