AI สามารถเข้าใจวิดีโอของคุณด้วยการรับชมได้แล้ว

สารบัญ:

AI สามารถเข้าใจวิดีโอของคุณด้วยการรับชมได้แล้ว
AI สามารถเข้าใจวิดีโอของคุณด้วยการรับชมได้แล้ว
Anonim

ซื้อกลับบ้านที่สำคัญ

  • นักวิจัยบอกว่าพวกเขาสามารถสอน AI ให้ติดป้ายกำกับวิดีโอด้วยการดูและฟัง
  • ระบบ AI เรียนรู้ที่จะนำเสนอข้อมูลเพื่อรวบรวมแนวคิดที่แชร์ระหว่างข้อมูลภาพและเสียง
  • มันเป็นส่วนหนึ่งของความพยายามในการสอน AI ให้เข้าใจแนวคิดที่มนุษย์ไม่มีปัญหาในการเรียนรู้ แต่คอมพิวเตอร์กลับเข้าใจยาก

Image
Image

ระบบปัญญาประดิษฐ์ใหม่ (AI) สามารถรับชมและฟังวิดีโอของคุณและติดป้ายกำกับสิ่งที่เกิดขึ้นได้

นักวิจัยของ MIT ได้พัฒนาเทคนิคที่สอน AI ให้จับภาพการกระทำที่แชร์ระหว่างวิดีโอและเสียงตัวอย่างเช่น วิธีการของพวกเขาสามารถเข้าใจได้ว่าการกระทำของทารกร้องไห้ในวิดีโอเกี่ยวข้องกับคำว่า "ร้องไห้" ในคลิปเสียง เป็นส่วนหนึ่งของความพยายามในการสอน AI ให้เข้าใจแนวคิดที่มนุษย์ไม่มีปัญหาในการเรียนรู้ แต่คอมพิวเตอร์นั้นเข้าใจยาก

"กระบวนทัศน์การเรียนรู้ที่แพร่หลาย การเรียนรู้ภายใต้การดูแล ทำงานได้ดีเมื่อคุณมีชุดข้อมูลที่อธิบายอย่างดีและครบถ้วน" ผู้เชี่ยวชาญด้าน AI Phil Winder กล่าวกับ Lifewire ในการสัมภาษณ์ทางอีเมล "น่าเสียดายที่ชุดข้อมูลไม่ค่อยสมบูรณ์เพราะโลกแห่งความเป็นจริงไม่ชอบนำเสนอสถานการณ์ใหม่ๆ"

AI ที่ชาญฉลาด

คอมพิวเตอร์มีปัญหาในการหาสถานการณ์ในชีวิตประจำวันเพราะพวกเขาต้องการบีบอัดข้อมูลมากกว่าเสียงและภาพเหมือนมนุษย์ เมื่อเครื่อง "เห็น" ภาพถ่าย เครื่องจะต้องเข้ารหัสภาพถ่ายนั้นเป็นข้อมูลที่สามารถใช้ทำงานต่างๆ เช่น การจัดประเภทภาพ AI อาจติดขัดเมื่ออินพุตมีหลายรูปแบบ เช่น วิดีโอ คลิปเสียง และรูปภาพ

"ความท้าทายหลักที่นี่คือ เครื่องจักรจะจัดเรียงรูปแบบต่างๆ เหล่านั้นได้อย่างไร ในฐานะมนุษย์ สิ่งนี้เป็นเรื่องง่ายสำหรับเรา" Alexander Liu นักวิจัยของ MIT และผู้เขียนบทความเกี่ยวกับหัวข้อนี้คนแรก กล่าวใน ข่าวประชาสัมพันธ์ "เราเห็นรถแล้วได้ยินเสียงรถวิ่งผ่านไปมา และเรารู้ว่าสิ่งเหล่านี้เป็นสิ่งเดียวกัน แต่สำหรับแมชชีนเลิร์นนิง มันไม่ได้ตรงไปตรงมาขนาดนั้น"

ทีมของหลิวได้พัฒนาเทคนิค AI ที่พวกเขากล่าวว่าเรียนรู้ที่จะนำเสนอข้อมูลเพื่อรวบรวมแนวคิดที่แชร์ระหว่างข้อมูลภาพและเสียง เมื่อใช้ความรู้นี้ โมเดลแมชชีนเลิร์นนิงสามารถระบุตำแหน่งที่มีการดำเนินการเฉพาะในวิดีโอและติดป้ายกำกับ

โมเดลใหม่ใช้ข้อมูลดิบ เช่น วิดีโอและคำอธิบายข้อความที่เกี่ยวข้อง และเข้ารหัสโดยแยกคุณลักษณะหรือการสังเกตเกี่ยวกับวัตถุและการดำเนินการในวิดีโอ จากนั้นจะจับคู่จุดข้อมูลเหล่านั้นในกริด หรือที่เรียกว่าพื้นที่ฝัง โมเดลจะจัดกลุ่มข้อมูลที่คล้ายคลึงกันเป็นจุดเดียวในกริด แต่ละจุดข้อมูลเหล่านี้ หรือเวกเตอร์ จะแสดงด้วยคำแต่ละคำ

เช่น คลิปวิดีโอของคนเล่นปาหี่อาจถูกแมปกับเวกเตอร์ที่ระบุว่า "เล่นกล"

นักวิจัยได้ออกแบบแบบจำลองนี้เพื่อให้สามารถใช้คำได้เพียง 1,000 คำในการติดป้ายกำกับเวกเตอร์ โมเดลสามารถตัดสินใจได้ว่าการกระทำหรือแนวคิดใดที่ต้องการเข้ารหัสเป็นเวกเตอร์เดียว แต่สามารถใช้ได้เพียง 1, 000 เวกเตอร์เท่านั้น โมเดลจะเลือกคำที่คิดว่าเป็นตัวแทนข้อมูลได้ดีที่สุด

"หากมีวิดีโอเกี่ยวกับหมู นางแบบอาจกำหนดคำว่า 'หมู' ให้กับเวกเตอร์ 1, 000 ตัว จากนั้นหากนางแบบได้ยินคนพูดคำว่า 'หมู' ในคลิปเสียง มันยังควรใช้เวกเตอร์เดิมในการเข้ารหัสนั้น " Liu อธิบาย

วิดีโอของคุณถอดรหัส

ระบบการติดฉลากที่ดีขึ้นเช่นเดียวกับที่พัฒนาโดย MIT สามารถช่วยลดอคติใน AI ได้ Marian Beszedes หัวหน้าฝ่ายวิจัยและพัฒนาที่ Innovatrics บริษัทไบโอเมตริกซ์บอกกับ Lifewire ในการสัมภาษณ์ทางอีเมล Beszedes แนะนำว่าอุตสาหกรรมข้อมูลสามารถดูระบบ AI จากมุมมองของกระบวนการผลิตได้

"ระบบยอมรับข้อมูลดิบเป็นอินพุต (วัตถุดิบ) ประมวลผลล่วงหน้า นำเข้า ตัดสินใจหรือคาดการณ์และวิเคราะห์ผลลัพธ์ (สินค้าสำเร็จรูป) " Beszedes กล่าว "เราเรียกกระบวนการนี้ว่า "โรงงานข้อมูล" และเช่นเดียวกับกระบวนการผลิตอื่นๆ ควรมีการควบคุมคุณภาพ อุตสาหกรรมข้อมูลจำเป็นต้องถือว่า AI ลำเอียงเป็นปัญหาด้านคุณภาพ

"จากมุมมองของผู้บริโภค ข้อมูลที่ติดฉลากผิดทำให้การค้นหาออนไลน์สำหรับรูปภาพ/วิดีโอที่เฉพาะเจาะจงยากขึ้น" Beszedes กล่าวเสริม "ด้วย AI ที่พัฒนาอย่างถูกต้อง คุณจะทำการติดฉลากโดยอัตโนมัติได้รวดเร็วและเป็นกลางมากกว่าการติดฉลากด้วยตนเอง"

Image
Image

แต่รุ่น MIT ยังมีข้อจำกัดอยู่บ้าง ประการหนึ่ง การวิจัยของพวกเขามุ่งเน้นไปที่ข้อมูลจากสองแหล่งพร้อมกัน แต่ในโลกแห่งความเป็นจริง มนุษย์พบข้อมูลหลายประเภทพร้อมๆ กัน Liu กล่าว

"และเราทราบดีว่าคำศัพท์ 1, 000 คำทำงานบนชุดข้อมูลประเภทนี้ แต่เราไม่รู้ว่ามันสามารถทำให้เป็นปัญหาในโลกแห่งความเป็นจริงได้หรือไม่" Liu กล่าวเสริม

นักวิจัยของ MIT กล่าวว่าเทคนิคใหม่ของพวกเขามีประสิทธิภาพเหนือกว่าแบบจำลองที่คล้ายคลึงกันหลายตัว หากสามารถฝึก AI ให้เข้าใจวิดีโอได้ ในที่สุดคุณอาจข้ามการดูวิดีโอวันหยุดของเพื่อนและรับรายงานที่สร้างด้วยคอมพิวเตอร์แทนได้ในที่สุด