การสนทนากับคอมพิวเตอร์ของคุณอาจดูสมจริงมากขึ้น

👤 ผู้เขียน Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 07:03.
🖍 แก้ไขล่าสุด 2025-01-24 12:26.

ซื้อกลับบ้านที่สำคัญ

Meta ใช้ AI สร้างโปรแกรมที่แสดงอารมณ์ทางคำพูด
ทีม AI ของบริษัทกล่าวว่ามีความก้าวหน้าในการสร้างแบบจำลองการเปล่งเสียงที่แสดงออก เช่น เสียงหัวเราะ การหาว การร้องไห้ และ "การพูดคุยอย่างเป็นธรรมชาติ" แบบเรียลไทม์
AI ยังถูกใช้เพื่อปรับปรุงประสิทธิภาพในการรู้จำคำพูด

อีกไม่นานคุณอาจจะสามารถแชทกับคอมพิวเตอร์ได้อย่างเป็นธรรมชาติมากขึ้น ด้วยพลังของปัญญาประดิษฐ์ (AI)

Meta กล่าวว่ามีความคืบหน้าอย่างมากในความพยายามที่จะสร้างระบบเสียงพูดที่สร้างโดย AI ที่สมจริงยิ่งขึ้น ทีมงาน AI ของบริษัทกล่าวว่ามีความก้าวหน้าในด้านความสามารถในการจำลองเสียงร้องที่แสดงออก เช่น เสียงหัวเราะ การหาว และการร้องไห้ นอกเหนือจาก "การพูดคุยที่เกิดขึ้นเอง" ในแบบเรียลไทม์

"ในการสนทนาใดๆ ก็ตาม ผู้คนแลกเปลี่ยนกันเต็มไปด้วยสัญญาณอวัจนภาษา เช่น น้ำเสียง การแสดงอารมณ์ การหยุดชั่วคราว การเน้นเสียง จังหวะ ซึ่งทั้งหมดนี้มีความสำคัญต่อการปฏิสัมพันธ์ของมนุษย์ " ทีมงานเขียนไว้ในบล็อกโพสต์ล่าสุด. "แต่ระบบ AI ในปัจจุบันล้มเหลวในการจับสัญญาณที่สมบูรณ์และแสดงออกเหล่านี้เพราะพวกเขาเรียนรู้จากข้อความที่เป็นลายลักษณ์อักษรเท่านั้นซึ่งจับสิ่งที่เราพูด แต่ไม่ใช่วิธีที่เราพูด"

คำพูดที่ฉลาดขึ้น

ในบล็อกโพสต์ ทีมของ Meta AI กล่าวว่าพวกเขากำลังพยายามเอาชนะข้อจำกัดของระบบ AI แบบเดิมๆ ที่ไม่สามารถเข้าใจสัญญาณที่ไม่ใช่คำพูดในการพูดได้ เช่น น้ำเสียงสูงต่ำ การแสดงอารมณ์ การหยุดชั่วคราว การเน้นเสียง และจังหวะ.ระบบถูกระงับเพราะพวกเขาสามารถเรียนรู้จากข้อความที่เป็นลายลักษณ์อักษรเท่านั้น

แต่งานของ Meta นั้นแตกต่างจากความพยายามครั้งก่อนๆ เนื่องจากโมเดล AI สามารถใช้โมเดลการประมวลผลภาษาธรรมชาติเพื่อจับภาพธรรมชาติของภาษาพูดทั้งหมดได้ นักวิจัย Meta กล่าวว่าโมเดลใหม่นี้ช่วยให้ระบบ AI สามารถถ่ายทอดความรู้สึกที่ต้องการสื่อได้ เช่น ความเบื่อหน่ายหรือประชดประชัน

"ในอนาคตอันใกล้ เราจะมุ่งเน้นไปที่การใช้เทคนิคไร้ข้อความเพื่อสร้างแอปพลิเคชันดาวน์สตรีมที่มีประโยชน์โดยไม่ต้องใช้ป้ายกำกับข้อความที่ใช้ทรัพยากรมากหรือระบบรู้จำคำพูดอัตโนมัติ (ASR) เช่น การตอบคำถาม (เช่น "เป็นอย่างไรบ้าง สภาพอากาศ?"), " ทีมงานเขียนไว้ในบล็อกโพสต์ "เราเชื่อว่าคำพูดที่คล้ายคลึงกันสามารถช่วยให้แยกวิเคราะห์ประโยคได้ดีขึ้น ซึ่งจะช่วยอำนวยความสะดวกในการทำความเข้าใจเจตนาและปรับปรุงประสิทธิภาพของการตอบคำถาม"

ปัญญาประดิษฐ์เพื่อความเข้าใจ

ไม่เพียงแต่คอมพิวเตอร์จะสื่อสารความหมายได้ดีขึ้นเท่านั้น แต่ยังใช้ AI เพื่อปรับปรุงการรู้จำคำพูดด้วย

นักวิทยาศาสตร์คอมพิวเตอร์ทำงานเกี่ยวกับการรู้จำเสียงของคอมพิวเตอร์มาอย่างน้อยตั้งแต่ปี 1952 เมื่อนักวิจัยของ Bell Labs สามคนสร้างระบบที่สามารถจดจำตัวเลขหลักเดียวได้ Ryan Monsurate หัวหน้าเจ้าหน้าที่เทคโนโลยีของ AI Dynamics กล่าวในอีเมลถึง ไลฟ์ไวร์ ภายในปี 1990 ระบบรู้จำคำพูดมีวางจำหน่ายทั่วไป แต่ยังคงมีอัตราข้อผิดพลาดที่สูงพอที่จะกีดกันการใช้ภายนอกโดเมนแอปพลิเคชันที่เฉพาะเจาะจงมาก เช่น การดูแลสุขภาพ

"ตอนนี้โมเดลการเรียนรู้เชิงลึกได้เปิดใช้งานโมเดลทั้งมวล (เช่นจาก Microsoft) เพื่อให้ได้ประสิทธิภาพเหนือมนุษย์ในการรู้จำคำพูด เรามีเทคโนโลยีที่เปิดใช้งานการสื่อสารด้วยวาจาที่ไม่ขึ้นกับผู้พูดกับคอมพิวเตอร์ในวงกว้าง" Monsurate กล่าว "ขั้นต่อไปจะรวมถึงการลดต้นทุนเพื่อให้ทุกคนที่ใช้ Siri หรือผู้ช่วย AI ของ Google สามารถเข้าถึงการรู้จำคำพูดระดับนี้ได้"

AI มีประโยชน์สำหรับการรู้จำคำพูดเพราะสามารถปรับปรุงได้ตลอดเวลาผ่านการเรียนรู้ Ariel Utnik หัวหน้าเจ้าหน้าที่สรรพากรและผู้จัดการทั่วไปของ บริษัท ด้านเสียง AI Verbit.ai กล่าวกับ Lifewire ในการสัมภาษณ์ทางอีเมล ตัวอย่างเช่น Verbit อ้างว่าเทคโนโลยี AI ในตัวของมันตรวจจับและกรองเสียงพื้นหลังและเสียงสะท้อนและถอดเสียงของลำโพงโดยไม่คำนึงถึงสำเนียงเพื่อสร้างการถอดเสียงและคำบรรยายแบบมืออาชีพอย่างละเอียดจากวิดีโอและเสียงที่บันทึกสดและที่บันทึกไว้

แต่ Utnik กล่าวว่าแพลตฟอร์มการรู้จำเสียงพูดในปัจจุบันส่วนใหญ่มีความแม่นยำเพียง 75-80%

"AI จะไม่มาแทนที่มนุษย์อย่างสมบูรณ์ เนื่องจากการตรวจสอบส่วนตัวโดยผู้ถอดเสียง ผู้ตรวจทาน และบรรณาธิการเป็นสิ่งจำเป็นเพื่อให้แน่ใจว่าการถอดเสียงขั้นสุดท้ายมีคุณภาพสูงและแม่นยำที่สุด" เขากล่าวเสริม

การจดจำเสียงที่ดีขึ้นสามารถใช้เพื่อป้องกันแฮกเกอร์ได้ Sanjay Gupta รองประธานฝ่ายผลิตภัณฑ์ระดับโลกและการพัฒนาองค์กรของบริษัท Mitek Systems กล่าวในอีเมลการวิจัยระบุว่าภายในสองปี 20 เปอร์เซ็นต์ของการโจมตีเพื่อเข้าครอบครองบัญชีที่ประสบความสำเร็จทั้งหมดจะใช้การเสริมเสียงสังเคราะห์ เขากล่าวเสริม

"นี่หมายความว่าเมื่อเทคโนโลยีลวงตากลายเป็นเทคโนโลยีที่ซับซ้อนมากขึ้น เราจำเป็นต้องสร้างการรักษาความปลอดภัยขั้นสูงไปพร้อม ๆ กัน ซึ่งสามารถต่อสู้กับกลวิธีเหล่านี้ควบคู่ไปกับภาพและวิดีโอที่ปลอมแปลงอย่างล้ำลึก" คุปตะกล่าว "การต่อสู้กับการปลอมแปลงเสียงต้องใช้เทคโนโลยีการตรวจจับความมีชีวิตชีวา ซึ่งสามารถแยกความแตกต่างระหว่างเสียงสดกับเสียงที่บันทึกไว้ สังเคราะห์หรือสร้างด้วยคอมพิวเตอร์"

Correction 2022-05-04: แก้ไขการสะกดชื่อ Ryan Monsurate ในวรรค 9

การสนทนากับคอมพิวเตอร์ของคุณอาจดูสมจริงมากขึ้น

สารบัญ:

ซื้อกลับบ้านที่สำคัญ

คำพูดที่ฉลาดขึ้น

ปัญญาประดิษฐ์เพื่อความเข้าใจ

วิธีถ่ายและแชร์ภาพหน้าจอของ Nintendo Switch

วิธีใช้ Google สไลด์แอนิเมชั่นและการเปลี่ยนภาพ

วิธีลบบัญชี Dropbox

7 iPhone ที่ดีที่สุดของปี 2022

วิธีใช้แอพ iPhone TV

รูปแบบไฟล์เสียงแตกต่างกันอย่างไรและสิ่งนี้มีความหมายต่อผู้ฟังอย่างไร

เกมพินบอลออนไลน์ที่ดีที่สุดฟรี

What.COM หมายถึงใน URL

วิธีการส่งออกข้อมูลจากแบบฟอร์ม Word ไปยัง Excel

การตั้งค่าอีเมลของ iPhone ทำอะไรได้บ้าง

6 สุดยอดเกมมิ่งมอนิเตอร์แห่งปี 2022

อธิบายทุกมาตรฐานการชาร์จ EV และประเภทตัวเชื่อมต่อ

วิธีเปิดใช้งานโหมดเต็มหน้าจอใน Firefox

9 หูฟังที่ดีที่สุดสำหรับการวิ่ง ทดสอบโดย Lifewire

วิธีปิดเสียงหรือเปิดเสียงการสนทนาใน Gmail