ทำไม AI เจนมือและนิ้วผิด? อย่างในรูปนี้ก็เจน AI นะ

นับตั้งแต่ปี 2022 ที่ Open AI บริษัทเจ้าของ ChatGPT ได้เปิดตัว “DALL-E 2” เครื่องมือสร้างภาพโดย AI รุ่นแรกๆ ที่เปิดให้สาธารณาชนใช้งานได้อย่างแพร่หลาย นับตั้งแต่นั้น “การเจนภาพ” ก็กลายเป็นเรื่องที่ทุกคนเข้าถึงได้ จนในความคิดของหลายคน การเจนภาพแทบจะเป็น “ทักษะติดตัว” ที่ควรมีในทศวรรษนี้แล้ว


แต่อย่างไรก็ตาม ท่ามกลางคนใช้เป็นและใช้เก่งมากขึ้นเรื่อยๆ ตัวแพลตฟอร์มอย่าง DALL-E 2 หรือเจ้าอื่นๆ อย่าง Stable Diffusion, Midjourney หรือแม้กระทั่ง Canva ก็กำลังเจอความท้าทายใหม่เช่นเดียวกัน เพราะความคาดหวังและความต้องการใช้ที่สูงขึ้นนี้ ตามมาซึ่งข้อเรียกร้องในรูปภาพที่ถูกเจนออกมาอย่างละเอียดขึ้น โดยเฉพาะ “นิ้ว” และ “มือ” ของบุคคลในภาพ


ถ้าใครต้องเจนภาพจาก AI เพื่อใช้งานในงานเป็นประจำ (เช่นเราเอง) เชื่อว่าทุกคนน่าจะเจอปัญหาคล้ายๆ กัน นั่นคือภาพที่ออกมานั้นองค์ประกอบทุกอย่างสมบูรณ์แล้ว ขาดแต่ก็เพียงมือของคนในภาพที่ไม่สมจริงเอาเสียเลย บ้างมีนิ้วเกิน บ้างมือหงิกงอ หรือที่ชวนขนลุกมากกว่านั้น บ้างก็มีสามมือ หรือเป็นสองมือที่รวมร่างเป็นมือเดียว


แต่ทำไมถึงเป็นแบบนั้นล่ะ?


ตามความเข้าใจของผู้เชี่ยวชาญ มีหลายสาเหตุที่ทำให้ AI มีปัญหาในการจัดการมือและนิ้วในภาพที่ถูกเจนขึ้นมา หนึ่งคือด้วยโครงสร้างของมือเองที่เป็นอวัยวะที่มีรายละเอียดเยอะมากถ้าเทียบกับสัดส่วนอื่นของร่างกาย และสองคือด้วยความที่ AI ทำงานผ่านการประมวลภาพในคลังข้อมูลของอดีต ภาพถ่ายจริงของบุคคลก่อนหน้านั้นมือก็มักจะไม่ใช่จุดโฟกัส ดังนั้นการประมวลอวัยวะที่ละเอียดขนาดนี้ท่ามกลางข้อมูลที่ดูน้อยกว่าอวัยวะอื่น จึงเป็นสาเหตุที่ทำให้ภาพที่ออกมาดูบิดเบี้ยวจากความเป็นจริง ซึ่งเหตุผลเดียวกันก็อาจเกิดขึ้นได้กับอวัยวะอย่างฟันและหูเช่นกัน


แต่ถ้าอยากลงลึกไปถึงเหตุผลที่มากกว่านั้น ผู้เชี่ยวชาญอธิบายว่าอีกหนึ่งเหตุผลสำคัญ คือต่อให้มีภาพที่โฟกัสมือชัดๆ ให้ AI ได้เรียนรู้ในเวลาก่อนหน้า ด้วยระบบประมวลผลของ AI หลายตัวก็อาจไม่สามารถทำความเข้าใจมิติของมือได้แบบร้อยเปอร์เซนต์อยู่ดี เพราะมือเป็นอวัยวะหนึ่งของร่างกายที่สามารถปรากฏตัวในภาพได้ด้วยหลากหลายท่าทางที่สื่อถึงหลากหลายความหมาย เช่น โบกมือ งอมือ ถือของ ใส่กำไร หรือมือที่อยู่ในกระเป๋ากางเกง เหล่านี้มนุษย์รู้ความหมายของแต่ละท่าเป็นอย่างดี แต่นั่นก็ตรงกันข้ามกับ AI ที่อาจยังไม่เข้าใจความซับซ้อนดังกล่าวได้ ทำให้การสร้างสรรค์ออกมาให้ตรงกับคำสั่งที่เราป้อนเข้าไป ยังคงเป็นเรื่องยากสำหรับ AI อยู่ในตอนนี้


แต่ก็อย่างที่เรารู้กันนั่นแหละ ว่าในยุคสมัยปัจจุบัน การพัฒนา AI กำลังก้าวไปอย่างไม่หยุดยั้ง ดังนั้นปัญหาเรื่องเจนมือก็อาจอยู่กับเราไม่นาน อย่างแพลตฟอร์ม Midjourney เอง เมื่อปี 2023 ก็ได้ออกอัพเดตมาเพื่อทำให้มือจากการเจนภาพสมจริงมากขึ้นโดยเฉพาะ รวมถึงแพลตฟอร์มอื่นๆ เองก็ดูจะเพิ่มความสมจริงให้มือมากขึ้นแล้ว ดังนั้นถึงวันนี้จะยังคงเป็นปัญหา แต่เชื่อว่าในเวลาอีกไม่นาน การเจนภาพมือน่าจะเป็นอีกหนึ่งอย่างที่ AI สามารถแก้ได้แน่นอน


แต่ก่อนจะถึงเวลานั้น เราอาจต้องทนกับมืออย่างในรูปแชร์นี้ไปก่อนนะ