แชร์

เหมืองข้อมูล (Data Mining)

อัพเดทล่าสุด: 27 ก.ย. 2024
50 ผู้เข้าชม

เหมืองข้อมูล (Data Mining) เป็นหนึ่งในความรู้สมัยใหม่ที่ได้รับความนิยมอย่างมากในปัจจุบัน โดยได้ถูกประยุกต์ใช้ในแทบทุกองค์กร ไม่ว่าจะเป็นภาครัฐและเอกชนเพื่อใช้ในการตัดสินใจ การวางแผนกลยุทธ์ การปรับปรุงการให้บริการและการดำเนินงานต่าง ๆ ในองค์กร เหมืองข้อมูล เป็นการทำงานที่เน้นการค้นหาสารสนเทศหรือองค์ความรู้จากข้อมูลขนาดใหญ่ เพื่อนำสิ่งที่ได้มาใช้ให้เป็นประโยชน์ โดยเหมืองข้อมูลเป็นการผสมผสานศาสตร์ทางสถิติ ปัญญาประดิษฐ์ การรู้จำ และฐานข้อมูลเข้าด้วยกัน

Data Mining คือ Data mining is a blend of statistics, artificial intelligence and database research. นับตั้งแต่ปี ค.ศ. 1990 เหมืองข้อมูลได้กำเนิดขึ้นโดยแฝงอยู่ในงานด้านต่าง ๆ เช่น ด้านการศึกษา ด้านธุรกิจ ด้านการแพทย์ เป็นต้น เมื่อเริ่มต้น Daryl Pregibon (Pregibons, 1996)

เมื่อถอดความจะได้ว่า เหมืองข้อมูลเป็นการผสมผสานงานวิจัยทางสถิติ ปัญญาประดิษฐ์ และฐานข้อมูลเข้าไว้ด้วยกัน เหมืองข้อมูลจัดเป็นกระบวนการอัตโนมัติ เพื่อค้นพบข้อสนเทศหรือองค์ความรู้ รูปแบบ หรือแม้แต่ตัวแบบเพื่อการพยากรณ์จากฐานข้อมูลขนาดใหญ่ แต่การค้นหาสารสนเทศบางงานไม่จัดเป็นการทำเหมืองข้อมูล เช่น การหาข้อมูล บางชุดในฐานข้อมูล การค้นหาข้อความหรือความหมายคำทางเว็บไซต์ เป็นต้น รวมไปถึงงานด้านการค้นคืนสารสนเทศ (Information Retrieval) ผ่านเครื่องจักรเพื่อการสืบค้น (Search Engine) ก็จัดเป็นงานที่ไม่ใช่เหมืองข้อมูล แต่เป็นกลไกการจัดเก็บเชิงโครงสร้างและการใช้อัลกอริทึม ที่มีประสิทธิภาพในการค้นคืนข้อมูล อย่างไรก็ตาม เทคนิคเหมืองข้อมูลถูกนำมาใช้เพื่อเพิ่มประสิทธิภาพของระบบการค้นคืนสารสนเทศ (Information Retrieval System)

บทความนี้เน้นการนำเสนอแนวคิดและขั้นตอนวิธีของเทคนิคเหมืองข้อมูลต่าง ๆ เช่น เทคนิคต้นไม้ตัดสินใจ โครงข่ายประสาทเทียม การจัดกลุ่มด้วยเคมีน การวิเคราะห์ความสัมพันธ์ เป็นต้น โดยผู้เขียนได้ยกตัวอย่างงานวิจัยที่เกี่ยวกับการประยุกต์ใช้เหมืองข้อมูลที่ผู้เขียน ผู้ร่วมวิจัย และนักศึกษาได้จัดทำร่วมกันเพื่อเป็นแนวทางการประยุกต์ใช้ให้กับผู้อ่าน นอกจากนี้ผู้เขียนได้ใช้โปรแกรมเหมืองข้อมูล เวกา (Weka) ที่พัฒนาโดย University of Waikato ประเทศนิวซีแลนด์ เพื่อนำเสนอผลลัพธ์การทำงานของแต่ละเทคนิคเหมืองข้อมูล โดยโปรแกรมเวกามีรูปแบบการใช้งานง่าย เหมาะกับการใช้งานเพื่อศึกษาเทคนิคเหมืองข้อมูล

1.แนะนำการทำเหมืองข้อมูล (Introduction to Data Mining)
ในชีวิตประจำวันของเราทุกคนจะต้องข้องเกี่ยวกับข้อมูลต่าง ๆ มากมายที่เราจำเป็นต้องจดจำและจดบันทึกลงบนกระดาษหรือบนอุปกรณ์ช่วยจำ ตั้งแต่อดีตจนถึงปัจจุบันมนุษยชาติ มีการบันทึกข้อมูลเรื่องราวต่าง ๆ อย่างต่อเนื่องเพื่อเก็บไว้เป็นข้อมูลทางสถิติหรือข้อมูลทางประวัติศาสตร์ เพื่อนำข้อมูลเหล่านี้มาใช้ให้เกิดประโยชน์ต่อการวางแผนการทำงาน การกำหนดทิศทางการดำเนินงาน หรือเพื่อสนับสนุนการตัดสินใจในเรื่องต่าง ๆ เช่น การทำนายผลประกอบการของบริษัท การวางแผนงานเชิงรุกของบริษัท เป็นต้น

ถ้าเราลองพิจารณาถึงข้อมูลส่วนบุคคลต่าง ๆ ที่เราต้องจัดเก็บตั้งแต่เกิด จะประกอบด้วยข้อมูลมากมาย เช่น วันเกิด น้ำหนักแรกเกิด ความสูง น้ำหนัก โรคภัย วุฒิการศึกษา ประวัติการทำงาน อายุ เงินเดือน วันแต่งงาน บันทึกค่าใช้จ่าย วันตาย เป็นต้น ข้อมูลเหล่านี้เป็นเพียงตัวอย่าง อันเล็กน้อยของข้อมูลที่มีการจดบันทึกและจัดเก็บจริงของคนคนเดียว แต่ถ้าลองคิดดู คนบนโลกใบนี้ ที่มีจำนวนกว่าหมื่นล้านคนจะมีปริมาณข้อมูลจำนวนมากมายมหาศาลเพียงใด และนอกเหนือ จากข้อมูลส่วนบุคคลแล้ว ยังมีข้อมูลแวดล้อมอื่น ๆ อีกมากมายที่อยู่รอบตัวเรา เช่น ราคาอาหาร ราคาน้ำมัน ราคาทอง ปริมาณน้ำฝนและอุณหภูมิจากสถานีวัด ภาพถ่ายจากดาวเทียม ข่าวสาร ในแต่ละวัน เป็นต้น

2. การเตรียมข้อมูล (Data Preprocessing)
ในแต่ละวันเราจะได้รับข้อมูลและสารสนเทศมากมาย โดยข้อมูลเหล่านี้อาจจะเป็นข้อมูลที่ผ่านมาและผ่านไปโดยที่เราไม่ได้สนใจ หรือบางทีอาจเป็นข้อมูลที่มีความสำคัญที่เราจะต้อง จดจำและรับทราบเอาไว้ หรือเป็นข้อมูลที่เราต้องเก็บมาวิเคราะห์ สังเคราะห์ เพื่อนำไปใช้ให้เกิดประโยชน์ต่อไป
ข้อมูล (Data) คือ ข้อเท็จจริงเกี่ยวกับเรื่องที่เราสนใจ ซึ่งอาจเป็นการจัดเก็บแบบ จดบันทึกรายวัน หรือเป็นการจัดเก็บอย่างมีระบบระเบียบในลักษณะของฐานข้อมูล ซึ่งในที่นี้ จะอธิบายข้อมูลในมุมมองของกลุ่มของค่าของข้อมูลที่อยู่รวมกัน ซึ่งจะเรียกว่า ลักษณะประจำ (Attributes) หรือตัวแปร (Variable)
โดยความหมาย ลักษณะประจำ (Attributes) คือ คุณสมบัติหรือลักษณะประจำของ ข้อมูลหรือวัตถุหรือสิ่งที่เราสนใจ เช่น ลักษณะประจำอายุ ลักษณะประจำเพศ ลักษณะประจำสีตา เป็นต้น ซึ่งจะมีลักษณะและค่าแตกต่างกันไป

3. เทคนิคการจำแนก (Classification)
เทคนิคการจำแนกเป็นเทคนิคหนึ่งในการทำเหมืองข้อมูลที่ใช้เพื่อทำนายคำตอบที่เป็น ค่าเชิงคุณภาพ (Qualitative Value) หรือค่าเต็มหน่วย (Discrete Value) หรือค่าแบบแค็ตตาล็อก (Catalogue Value) เช่น ใช่/ไม่ใช่ ซื้อ/ไม่ซื้อ คำตอบ ก/ข/ค/ง ระดับความพึงพอใจ ดีมาก/ดี/พอใช้ เป็นต้น โดยใช้หลักการการนำชุดข้อมูลที่มีอยู่มาพัฒนาโมเดลเพื่อการจำแนก และประยุกต์ ใช้หาคำตอบหรือทำนายคำตอบของข้อมูลชุดใหม่ (Unseen Objects) ที่เข้ามา
โดยเทคนิคนี้ได้รับความนิยมอย่างมาก และถูกนำมาประยุกต์ใช้เพื่อสนับสนุน การตัดสินใจทางธุรกิจและทางวิทยาศาสตร์ เพราะการพยากรณ์เพื่อจำแนกว่าข้อมูลใหม่ที่เข้ามาควรจะถูกจัดหรือจำแนกให้เป็นหมวดใดเป็นสิ่งที่นำมาใช้เพื่อการวางแผนและการตัดสินใจ ในการดำเนินกิจการต่าง ๆ ได้ ตัวอย่างของการประยุกต์ใช้การจำแนก ดังเช่น

  • การจำแนกลักษณะของเซลล์ว่าเป็นเซลล์ผิดปกติประเภท เนื้องอกหรือมะเร็ง
  • การตรวจสอบรายการธุรกรรมทางบัตรเครดิตว่าเป็น แบบปกติหรือปลอมแปลง
  • การจำแนกเพื่อระบุว่าโครงสร้างโปรตีนเป็นแบบใดใน 3 แบบนี้ alpha-helix beta-sheet
  • การจำแนกข่าวด้วยการพิจารณาเนื้อความภายในเพื่อจำแนกว่าควรจะเป็นข่าวประเภทใดในประเภทต่อไปนี้ ข่าวการเงิน (Finance) ข่าวกีฬา (Sports) ข่าวบันเทิง (Entertainment) หรือข่าวอาชญากรรม (Crime)
โดยการพัฒนาโมเดลเพื่อการจำแนก (Classification Model) หรือตัวจำแนก (Classifier) จะมีหลักในการพัฒนาและอัลกอริทึมที่เกี่ยวข้องหลายตัวที่นิยมใช้ในปัจจุบัน โดยในที่นี้จะกล่าวถึง ขั้นตอนวิธีการค้นหาเพื่อนบ้านใกล้ที่สุด k ตัว (K-nearest Neighbor Algorithm) วิธีต้นไม้ตัดสินใจ (Decision Tree) การสร้างกฎ (Rule-based Classifier) วิธีเบย์อย่างง่าย (Naïve Bayes Classifier) และโครงข่ายประสาทเทียม (Artificial Neural Network)

4. การวิเคราะห์การจัดกลุ่ม (Cluster Analysis)
การวิเคราะห์การจัดกลุ่ม (Cluster Analysis) เป็นอีกหนึ่งเทคนิคของเหมืองข้อมูล ที่ได้รับความนิยมใช้ในงานด้านต่าง ๆ อย่างแพร่หลาย เช่น การจัดกลุ่มลูกค้าของบริษัท การจัดกลุ่มเอกสาร การจัดกลุ่มผู้ป่วย เป็นต้น การจัดกลุ่มข้อมูลเป็นเทคนิคที่อยู่ในกลุ่มของการเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning) ที่เน้นการบรรยายลักษณะข้อมูลมากกว่าการทำนายหรือพยากรณ์ ที่จัดเป็นการเรียนรู้แบบมีผู้สอน (Supervised Learning) ส่วนใหญ่งานด้านนี้มีไว้เพื่อลดขนาดหรือมิติของข้อมูลให้เป็นกลุ่มหรือคลัสเตอร์ โดยมีจุดประสงค์เพื่อรวมกลุ่มของสิ่งที่มีความคล้ายกันให้อยู่กลุ่มเดียวกัน เพื่อจะได้ทำให้ง่ายต่อการดำเนินการทางการทำธุรกิจ หรือการวิเคราะห์ปัจจัยได้เจาะจงยิ่งขึ้น เช่น การสร้างโปรไฟล์การตลาดท่องเที่ยวด้วยการวิเคราะห์การจัดกลุ่ม การวิเคราะห์การจัดกลุ่มของลูกค้าที่มีลักษณะหรือพฤติกรรมการบริโภคที่คล้ายคลึงกัน การจัดกลุ่มเอกสาร ที่มีสาระหลักหรือสาระสำคัญที่คล้ายคลึงกัน เป็นต้น

5. การวิเคราะห์ความสัมพันธ์ (Association Analysis)
กฎความสัมพันธ์ (Association Rules)
การวิเคราะห์กฎความสัมพันธ์เป็นการศึกษาหาลักษณะบางอย่างที่ไปในทิศทางเดียวกันหรือมีความเกี่ยวข้องกัน (Affinity) โดยมีจุดเริ่มต้นจากการวิเคราะห์ข้อมูลการซื้อสินค้า หรือที่รู้จักกันดีในชื่อการวิเคราะห์ตะกร้าซื้อสินค้า (Market basket analysis) ซึ่งคือการวิเคราะห์รายการทั้งหมดที่ลูกค้าซื้อสินค้าต่อครั้ง
การวิเคราะห์กฎความสัมพันธ์เป็นการค้นหาความสัมพันธ์เชิงปริมาณระหว่างลักษณะประจำตั้งแต่ 2 ตัวเป็นต้นไป โดยลักษณะของกฎความสัมพันธ์ที่ได้จะมาในรูปของกฎดังนี้

If antecedent, then consequent
หรือใช้สัญลักษณ์
Antecedent > Consequent

โดย antecedent หมายถึง สิ่งที่มาก่อน และ consequent หมายถึงผลที่จะเกิดตามมา โดยการที่จะได้กฎความสัมพันธ์จากชุดข้อมูล ซึ่งโดยมากจะเป็นข้อมูลรายการเปลี่ยนแปลง (Transaction Data) โดยใช้เครื่องวัดหรือเกณฑ์การวัดที่เรียกว่า ค่าสนับสนุน (Support) และค่าความเชื่อมั่น (Confidence)

6. การพยากรณ์ (Prediction)
การพยากรณ์ (Prediction) เป็นการนำข้อมูลมาทำนายคำตอบเช่นเดียวกับการจำแนกที่อธิบายไว้ในบทที่ 2 เพียงแต่ค่าของการพยากรณ์หรือการทำนายจะเป็นค่าแบบต่อเนื่อง (Continuous Value) ซึ่งแตกต่างจากเทคนิคการจำแนกที่คำตอบของการทำนายจะเป็นค่าเต็มหน่วย (Discrete Value) หรือที่เรียกว่า คลาส (Class) ที่เป็นการสื่อถึงค่าคำตอบแบบเต็มหน่วย ขั้นตอนการพัฒนาตัวพยากรณ์จะมีความคล้ายคลึงกับการพัฒนาตัวจำแนก โดยจะมีการแบ่งข้อมูล เป็นข้อมูลฝึกสอนและข้อมูลทดสอบเหมือนกัน แต่สิ่งที่แตกต่างกันคือการวัดประสิทธิภาพ ของการพยากรณ์หรือความแม่นยำในการพยากรณ์ (Predicted Accuracy) ซึ่งจะใช้เกณฑ์การวัดค่าความแม่นยำอีกลักษณะหนึ่งที่ไม่ใช่การวัดร้อยละการจำแนกที่ถูกต้องและเมทริกซ์สับสนเหมือนเทคนิคการจำแนก โดยเกณฑ์การวัดประสิทธิภาพที่นิยมใช้กัน เช่น รากของค่าคลาดเคลื่อนกําลังสองเฉลี่ย (Root Mean Squared Error: RMSE) ความคลาดเคลื่อนสัมบูรณ์เฉลี่ย (Mean Absolute Error: MAE) เป็นต้น


บทความที่เกี่ยวข้อง
NAS-CRM Platform (Call Center Applications)
NAS-CRM Platform (Call Center Applications) เป็นแอปพลิเคชั่นที่เหมาะกับการใช้งานใน Port Call Center และ Work from Home เพื่อใช้ในการบริหารและจัดการงานด้าน Call Center โดยเฉพาะ และยังเป็นการสนับสนุนงานด้านระบบโทรศัพท์ทั้ง Inbound และ Outbound Call ที่มีการเชื่อมต่อตรงเข้ากับระบบ Order Taking ที่มีประสิทธิภาพ ทั้งด้าน Feature และ Function อย่างครบถ้วน เพื่อให้ได้เลือกและใช้งานได้อย่างหลากหลาย
23 ธ.ค. 2024
อยากมี Call Center ต้องเตรียมตัวอย่างไร
การติดต่อทางโทรศัพท์เป็นช่องทางที่ สะดวก รวดเร็ว และลดค่าใช้จ่ายที่ไม่จำเป็นให้กับลูกค้า และธุรกิจของคุณ หากคุณคิดว่าช่องทางการติดต่อนี้มีประโยชน์กับธุรกิจของคุณแล้ว คุณก็ควรจะจัดตั้ง Call Center ให้ได้มาตรฐาน มีบริการที่สร้างความพึงพอใจ และสามารถเพิ่มรายได้ให้กับบริษัทของคุณ การจัดตั้ง Call Center มี 2 ทางเลือก คือ จัดตั้งหน่วยงาน Call Center เองภายในองค์กร หรือ จ้างบริษัท Call Center Outsource ให้ดูแลลูกค้าของคุณ
27 ก.ย. 2024
5 ขั้นตอนการพัฒนาแอปพลิเคชัน ที่จะทำให้แอปของคุณประสบความสำเร็จในวงการธุรกิจ
5 ขั้นตอนการพัฒนาแอปพลิเคชัน ที่จะทำให้แอปของคุณประสบความสำเร็จในวงการธุรกิจ หลายๆ ท่านคงกำลังสนใจเกี่ยวกับการพัฒนา mobile app เอาไว้ใช้กับธุรกิจของท่าน ไม่ว่าจะเป็นแอป Custom หรือ แอปเช่าใช้ ก่อนที่ทุกท่านจะลงมือจ้าง หรือลงมือทำแอปนั้น วันนี้ผมจะพาทุกท่านมารู้จัก Process การทำงานในการพัฒนา product ว่ามีขั้นตอนอย่างไรบ้าง
27 ก.ย. 2024
เว็บไซต์นี้มีการใช้งานคุกกี้ เพื่อเพิ่มประสิทธิภาพและประสบการณ์ที่ดีในการใช้งานเว็บไซต์ของท่าน ท่านสามารถอ่านรายละเอียดเพิ่มเติมได้ที่ นโยบายความเป็นส่วนตัว และ นโยบายคุกกี้
เปรียบเทียบสินค้า
0/4
ลบทั้งหมด
เปรียบเทียบ
Powered By MakeWebEasy Logo MakeWebEasy