ข้อมูลขนาดใหญ่ ห้องปฏิบัติการขนาดเล็ก

ข้อมูลขนาดใหญ่ ห้องปฏิบัติการขนาดเล็ก

เป็นหนึ่งในเครื่องมือทางวิทยาศาสตร์ที่ใหญ่ที่สุดในโลก เก็บข้อมูลได้ 5 ล้านล้านบิตทุก ๆ วินาที และห้องปฏิบัติการในเจนีวาจ้างกลุ่มผู้เชี่ยวชาญโดยเฉพาะเพื่อจัดการโฟลว์ ในทางตรงกันข้าม เครื่องมือที่แสดงไว้ที่นี่  รู้จักกันในชื่อกล้องจุลทรรศน์สร้างภาพระยะเชิงปริมาณเชิงปริมาณแบบยืดเวลา  วางบนม้านั่งได้พอดีและจัดการโดยทีมงานคนเดียว อย่างไรก็ตาม มันยังสามารถเก็บข้อมูลจำนวนมหาศาลได้: 

0.8 ล้านล้านบิตต่อวินาที

ตัวอย่างทั้งสองนี้แสดงให้เห็นว่า “ข้อมูลขนาดใหญ่” มีอยู่ทั่วไปในฟิสิกส์ได้อย่างไร ความท้าทายที่เคยจำกัดอยู่แต่กับเครื่องจักรขนาดใหญ่ที่จัดการโดยทีมงานระดับนานาชาติ บัดนี้เริ่มก่อตัวขึ้นในอุปกรณ์ขนาดเล็กที่ใช้โดยนักวิจัยคนเดียว ด้วยเหตุนี้ นักฟิสิกส์จำนวนมากขึ้นจำเป็นต้องคุ้นเคย

กับการสวมหมวกของ “นักวิทยาศาสตร์ข้อมูล”การได้รับทักษะที่จำเป็นมักถูกมองว่าเป็นงานที่น่ากลัว ซึ่งเป็นแรงบันดาลใจให้นักฟิสิกส์บางคนสมัครเข้าค่ายฝึกเข้มข้นเป็นเวลาหลายสัปดาห์เพื่อเรียนรู้คำศัพท์ที่ไม่ปะติดปะต่อและไม่คุ้นเคย อย่างไรก็ตาม นักฟิสิกส์มีความเข้าใจเชิงแนวคิดที่จำเป็นในการจัดการ

ข้อมูลขนาดใหญ่อยู่แล้ว สิ่งที่พวกเขาต้องการคือเครื่องมือคำนวณที่พวกเขาใช้อยู่แล้วเพื่อทำงานต่อไปเมื่อปัญหาของพวกเขาเติบโตเกินกว่าจุดที่ถือว่า “ใหญ่” (ค่อนข้างจะตามอำเภอใจ) นักฟิสิกส์ไม่ควรกังวลมากนักเกี่ยวกับโครงสร้างคอมพิวเตอร์ที่ทำให้สิ่งนี้เป็นไปได้ กำลังสร้างข้อมูลหลักการทั้งสองนี้

เป็นแรงจูงใจที่อยู่เบื้องหลังข้อมูลขนาดใหญ่และความสามารถในการเรียนรู้ของเครื่องซึ่งเป็นซอฟต์แวร์ที่บริษัทของฉันที่ชื่อว่า ผลิตขึ้น ในการประชุมของ y ในเดือนมีนาคมปี 2018 ฉันได้เข้าร่วมชุดวิทยากรในหัวข้อ “ใส่ข้อมูลขนาดใหญ่ลงในกล่องเครื่องมือฟิสิกส์ของคุณ” เพื่ออธิบายว่าหลักการเหล่านี้

ทำงานอย่างไรในทางปฏิบัติ โดยใช้การสร้างภาพเชิงปริมาณเชิงปริมาณแบบยืดเวลา กล้องจุลทรรศน์เป็นกรณีศึกษา ผู้เชี่ยวชาญด้านโฟโตนิกส์แห่งมหาวิทยาลัยแคลิฟอร์เนีย ลอสแองเจลิส นักศึกษาระดับปริญญาเอกในขณะนั้น ได้สร้างกล้องจุลทรรศน์ TS-QPI โดยมีจุดประสงค์เพื่อถ่ายภาพทุกเซลล์

ในตัวอย่าง

เลือด 10 มล. และกำหนด ซึ่งเซลล์เหล่านี้เป็นมะเร็ง เซลล์ในตัวอย่างจะถูกส่งผ่านโฟลไซโตมิเตอร์ทีละเซลล์ ในอัตราเกือบ 100,000 เซลล์เม็ดเลือดต่อวินาที หากเซลล์สามารถเรียงซ้อนกันตั้งแต่ต้นจนจบได้ นั่นจะเท่ากับการถ่ายภาพเซลล์ประมาณ 1 เมตรต่อวินาที ในการจับภาพที่ชัดเจนในอัตราที่หนักหน่วง 

ระบบภาพของพวกเขาทำงานที่ 36 ล้านเฟรม – เทียบเท่ากับภาพยนตร์ HD 20 เรื่อง ต่อวินาที ดังนั้น ตัวอย่างเลือดขนาดเล็กเพียงหนึ่งตัวอย่างจะสร้างข้อมูลระหว่าง 10 ถึง 50 เทราไบต์ โครงสร้างพื้นฐานทางกายภาพที่ช่วยให้ระบบ TS-QPI ของพวกเขาทำงานได้อย่างรวดเร็วนั้นมีความน่าสนใจ

ในตัวมันเอง ระบบจะสร้างขบวนพัลส์เลเซอร์ที่มีระยะเวลาวัดเป็นเฟมโตวินาที เลนส์ การเลี้ยวเบนของแสง กระจก และตัวแยกลำแสงจะกระจายพัลส์เลเซอร์เหล่านี้เป็นขบวนแสงวาบ “สีรุ้ง” หลายความถี่ที่ส่องสว่างเซลล์ที่ผ่านไซโตมิเตอร์ ข้อมูลเชิงพื้นที่สำหรับแต่ละเซลล์จะถูกเข้ารหัสในสเปกตรัม

ของพัลส์ จากนั้นสัญญาณแสงจะถูกกระจายโดยเจตนาเมื่อส่งผ่านท่อนำคลื่น ทำให้มีการหน่วงเวลาที่แตกต่างกันไปยังส่วนประกอบสเปกตรัมที่ความยาวคลื่นต่างๆ กัน และขยายสัญญาณให้มากพอที่จะเปิดใช้งานได้ แปลงเป็นดิจิทัลโดยใช้ตัวแปลงอนาล็อกเป็นดิจิตอลแบบอิเล็กทรอนิกส์มาตรฐาน

จัดการและสำรวจข้อมูล จากข้อมูลทั้งหมดพบว่า ได้แยกค่าการวัดที่เป็นตัวเลขมากกว่า 200 รายการจากแต่ละเซลล์ในตัวอย่างของพวกเขา ข้อมูลเหล่านี้ถูกจัดกลุ่มเป็นสามประเภท: ลักษณะทางสัณฐานวิทยาที่แสดงลักษณะขนาดและรูปร่างของเซลล์ คุณสมบัติเฟสแสงที่สัมพันธ์กับความหนาแน่นของเซลล์ 

และคุณสมบัติการสูญเสียการมองเห็นที่สัมพันธ์กับขนาดของออร์แกเนลล์ภายในเซลล์ ผลลัพธ์ที่ได้คือชุดข้อมูลขนาดใหญ่จนน่าตกใจ โชคดีที่ MATLAB แบ่งข้อมูลเหล่านี้ออกเป็นชิ้นเล็ก ๆ อย่างชาญฉลาดและโปร่งใส ทำให้การดำเนินการสามารถรวมชุดข้อมูลทั้งหมดได้ ซึ่งหมายความว่านิพจน์ทั่วไป 

เช่น A+B จะยังคงใช้งานได้แม้กับชุดข้อมูลขนาดใหญ่เคล็ดลับที่เป็นประโยชน์อีกประการหนึ่งคือการกำหนดข้อมูลเช่นอาร์เรย์ “สูง” ของ MATLAB แทนที่จะเป็นอาร์เรย์ในหน่วยความจำ ซึ่งแตกต่างจากอาร์เรย์ในหน่วยความจำ โดยทั่วไปแล้วอาร์เรย์ทรงสูงจะไม่ได้รับการประเมินจนกว่าคุณจะร้องขอ

ให้ดำเนินการคำนวณโดยใช้ฟังก์ชัน “รวบรวม” สิ่งที่เรียกว่าการประเมินแบบเลื่อนเวลานี้ช่วยให้คุณทำงานกับชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว เมื่อคุณร้องขอเอาต์พุตโดยใช้การรวบรวม ในที่สุด MATLAB จะรวมการคำนวณแบบเข้าคิวไว้ถ้าเป็นไปได้ และรับจำนวนการส่งผ่านข้อมูลให้น้อยที่สุด 

ยิ่งไปกว่านั้น 

โค้ดที่ตามมาทั้งหมดที่เขียนขึ้นสำหรับข้อมูลในหน่วยความจำขนาดเล็กจะทำงานโดยอัตโนมัติในเวอร์ชันข้อมูลขนาดใหญ่: ไม่มีการเปลี่ยนแปลงโค้ดและไม่จำเป็นต้องใช้เทคนิคพิเศษนักวิจัย พยายามพัฒนาโมเดลแมชชีนเลิร์นนิงภายใต้การดูแล ซึ่งสามารถจำแนกเซลล์ว่ามีสุขภาพดีหรือเป็นมะเร็ง

เพื่อสร้างอาร์เรย์สูงของการวัดค่าเซลล์  และเพื่อนร่วมงานของเขาใช้ เพื่อรวมแพ็คเกจการวิเคราะห์ภาพเซลล์แบบโอเพ่นซอร์สแบบพิเศษเข้ากับเวิร์กโฟลว์ทั่วไปที่สนับสนุน เนื่องจากภาพทุกภาพได้รับการประมวลผลในลักษณะเดียวกันเพื่อดึงคุณสมบัติต่างๆ ออกมา พวกเขาจึงสามารถใช้ แบบขนาน

เพื่อเรียกใช้การประมวลผลภาพซ้ำพร้อมกันบนโปรเซสเซอร์ 16 คอร์ด้วย ซึ่งช่วยลดเวลาที่ต้องใช้ในการวิเคราะห์จากแปดวันเหลือประมาณครึ่งวัน รวมการเรียนรู้ของเครื่อง การเรียนรู้ของเครื่องมีสองรสชาติ หนึ่งคือการเรียนรู้แบบไม่มีผู้ดูแล ซึ่งอัลกอริทึมจะค้นหารูปแบบที่ซ่อนอยู่หรือโครงสร้างที่แท้จริงในข้อมูลอินพุต อีกวิธีหนึ่งคือการเรียนรู้แบบมีผู้สอน ซึ่งอัลกอริทึมได้รับการ “ฝึกฝน” 

credit: coachwebsitelogin.com assistancedogsamerica.com blogsbymandy.com blogsdeescalada.com montblanc–pens.com getthehellawayfromsalliemae.com phtwitter.com shoporsellgold.com unastanzatuttaperte.com servingversusselling.com