การสนทนากับคอมพิวเตอร์ของคุณอาจดูสมจริงมากขึ้น

สารบัญ:

การสนทนากับคอมพิวเตอร์ของคุณอาจดูสมจริงมากขึ้น
การสนทนากับคอมพิวเตอร์ของคุณอาจดูสมจริงมากขึ้น
Anonim

ซื้อกลับบ้านที่สำคัญ

  • Meta ใช้ AI สร้างโปรแกรมที่แสดงอารมณ์ทางคำพูด
  • ทีม AI ของบริษัทกล่าวว่ามีความก้าวหน้าในการสร้างแบบจำลองการเปล่งเสียงที่แสดงออก เช่น เสียงหัวเราะ การหาว การร้องไห้ และ "การพูดคุยอย่างเป็นธรรมชาติ" แบบเรียลไทม์
  • AI ยังถูกใช้เพื่อปรับปรุงประสิทธิภาพในการรู้จำคำพูด
Image
Image

อีกไม่นานคุณอาจจะสามารถแชทกับคอมพิวเตอร์ได้อย่างเป็นธรรมชาติมากขึ้น ด้วยพลังของปัญญาประดิษฐ์ (AI)

Meta กล่าวว่ามีความคืบหน้าอย่างมากในความพยายามที่จะสร้างระบบเสียงพูดที่สร้างโดย AI ที่สมจริงยิ่งขึ้น ทีมงาน AI ของบริษัทกล่าวว่ามีความก้าวหน้าในด้านความสามารถในการจำลองเสียงร้องที่แสดงออก เช่น เสียงหัวเราะ การหาว และการร้องไห้ นอกเหนือจาก "การพูดคุยที่เกิดขึ้นเอง" ในแบบเรียลไทม์

"ในการสนทนาใดๆ ก็ตาม ผู้คนแลกเปลี่ยนกันเต็มไปด้วยสัญญาณอวัจนภาษา เช่น น้ำเสียง การแสดงอารมณ์ การหยุดชั่วคราว การเน้นเสียง จังหวะ ซึ่งทั้งหมดนี้มีความสำคัญต่อการปฏิสัมพันธ์ของมนุษย์ " ทีมงานเขียนไว้ในบล็อกโพสต์ล่าสุด. "แต่ระบบ AI ในปัจจุบันล้มเหลวในการจับสัญญาณที่สมบูรณ์และแสดงออกเหล่านี้เพราะพวกเขาเรียนรู้จากข้อความที่เป็นลายลักษณ์อักษรเท่านั้นซึ่งจับสิ่งที่เราพูด แต่ไม่ใช่วิธีที่เราพูด"

คำพูดที่ฉลาดขึ้น

ในบล็อกโพสต์ ทีมของ Meta AI กล่าวว่าพวกเขากำลังพยายามเอาชนะข้อจำกัดของระบบ AI แบบเดิมๆ ที่ไม่สามารถเข้าใจสัญญาณที่ไม่ใช่คำพูดในการพูดได้ เช่น น้ำเสียงสูงต่ำ การแสดงอารมณ์ การหยุดชั่วคราว การเน้นเสียง และจังหวะ.ระบบถูกระงับเพราะพวกเขาสามารถเรียนรู้จากข้อความที่เป็นลายลักษณ์อักษรเท่านั้น

แต่งานของ Meta นั้นแตกต่างจากความพยายามครั้งก่อนๆ เนื่องจากโมเดล AI สามารถใช้โมเดลการประมวลผลภาษาธรรมชาติเพื่อจับภาพธรรมชาติของภาษาพูดทั้งหมดได้ นักวิจัย Meta กล่าวว่าโมเดลใหม่นี้ช่วยให้ระบบ AI สามารถถ่ายทอดความรู้สึกที่ต้องการสื่อได้ เช่น ความเบื่อหน่ายหรือประชดประชัน

"ในอนาคตอันใกล้ เราจะมุ่งเน้นไปที่การใช้เทคนิคไร้ข้อความเพื่อสร้างแอปพลิเคชันดาวน์สตรีมที่มีประโยชน์โดยไม่ต้องใช้ป้ายกำกับข้อความที่ใช้ทรัพยากรมากหรือระบบรู้จำคำพูดอัตโนมัติ (ASR) เช่น การตอบคำถาม (เช่น "เป็นอย่างไรบ้าง สภาพอากาศ?"), " ทีมงานเขียนไว้ในบล็อกโพสต์ "เราเชื่อว่าคำพูดที่คล้ายคลึงกันสามารถช่วยให้แยกวิเคราะห์ประโยคได้ดีขึ้น ซึ่งจะช่วยอำนวยความสะดวกในการทำความเข้าใจเจตนาและปรับปรุงประสิทธิภาพของการตอบคำถาม"

ปัญญาประดิษฐ์เพื่อความเข้าใจ

ไม่เพียงแต่คอมพิวเตอร์จะสื่อสารความหมายได้ดีขึ้นเท่านั้น แต่ยังใช้ AI เพื่อปรับปรุงการรู้จำคำพูดด้วย

นักวิทยาศาสตร์คอมพิวเตอร์ทำงานเกี่ยวกับการรู้จำเสียงของคอมพิวเตอร์มาอย่างน้อยตั้งแต่ปี 1952 เมื่อนักวิจัยของ Bell Labs สามคนสร้างระบบที่สามารถจดจำตัวเลขหลักเดียวได้ Ryan Monsurate หัวหน้าเจ้าหน้าที่เทคโนโลยีของ AI Dynamics กล่าวในอีเมลถึง ไลฟ์ไวร์ ภายในปี 1990 ระบบรู้จำคำพูดมีวางจำหน่ายทั่วไป แต่ยังคงมีอัตราข้อผิดพลาดที่สูงพอที่จะกีดกันการใช้ภายนอกโดเมนแอปพลิเคชันที่เฉพาะเจาะจงมาก เช่น การดูแลสุขภาพ

"ตอนนี้โมเดลการเรียนรู้เชิงลึกได้เปิดใช้งานโมเดลทั้งมวล (เช่นจาก Microsoft) เพื่อให้ได้ประสิทธิภาพเหนือมนุษย์ในการรู้จำคำพูด เรามีเทคโนโลยีที่เปิดใช้งานการสื่อสารด้วยวาจาที่ไม่ขึ้นกับผู้พูดกับคอมพิวเตอร์ในวงกว้าง" Monsurate กล่าว "ขั้นต่อไปจะรวมถึงการลดต้นทุนเพื่อให้ทุกคนที่ใช้ Siri หรือผู้ช่วย AI ของ Google สามารถเข้าถึงการรู้จำคำพูดระดับนี้ได้"

Image
Image

AI มีประโยชน์สำหรับการรู้จำคำพูดเพราะสามารถปรับปรุงได้ตลอดเวลาผ่านการเรียนรู้ Ariel Utnik หัวหน้าเจ้าหน้าที่สรรพากรและผู้จัดการทั่วไปของ บริษัท ด้านเสียง AI Verbit.ai กล่าวกับ Lifewire ในการสัมภาษณ์ทางอีเมล ตัวอย่างเช่น Verbit อ้างว่าเทคโนโลยี AI ในตัวของมันตรวจจับและกรองเสียงพื้นหลังและเสียงสะท้อนและถอดเสียงของลำโพงโดยไม่คำนึงถึงสำเนียงเพื่อสร้างการถอดเสียงและคำบรรยายแบบมืออาชีพอย่างละเอียดจากวิดีโอและเสียงที่บันทึกสดและที่บันทึกไว้

แต่ Utnik กล่าวว่าแพลตฟอร์มการรู้จำเสียงพูดในปัจจุบันส่วนใหญ่มีความแม่นยำเพียง 75-80%

"AI จะไม่มาแทนที่มนุษย์อย่างสมบูรณ์ เนื่องจากการตรวจสอบส่วนตัวโดยผู้ถอดเสียง ผู้ตรวจทาน และบรรณาธิการเป็นสิ่งจำเป็นเพื่อให้แน่ใจว่าการถอดเสียงขั้นสุดท้ายมีคุณภาพสูงและแม่นยำที่สุด" เขากล่าวเสริม

การจดจำเสียงที่ดีขึ้นสามารถใช้เพื่อป้องกันแฮกเกอร์ได้ Sanjay Gupta รองประธานฝ่ายผลิตภัณฑ์ระดับโลกและการพัฒนาองค์กรของบริษัท Mitek Systems กล่าวในอีเมลการวิจัยระบุว่าภายในสองปี 20 เปอร์เซ็นต์ของการโจมตีเพื่อเข้าครอบครองบัญชีที่ประสบความสำเร็จทั้งหมดจะใช้การเสริมเสียงสังเคราะห์ เขากล่าวเสริม

"นี่หมายความว่าเมื่อเทคโนโลยีลวงตากลายเป็นเทคโนโลยีที่ซับซ้อนมากขึ้น เราจำเป็นต้องสร้างการรักษาความปลอดภัยขั้นสูงไปพร้อม ๆ กัน ซึ่งสามารถต่อสู้กับกลวิธีเหล่านี้ควบคู่ไปกับภาพและวิดีโอที่ปลอมแปลงอย่างล้ำลึก" คุปตะกล่าว "การต่อสู้กับการปลอมแปลงเสียงต้องใช้เทคโนโลยีการตรวจจับความมีชีวิตชีวา ซึ่งสามารถแยกความแตกต่างระหว่างเสียงสดกับเสียงที่บันทึกไว้ สังเคราะห์หรือสร้างด้วยคอมพิวเตอร์"

Correction 2022-05-04: แก้ไขการสะกดชื่อ Ryan Monsurate ในวรรค 9