ซื้อกลับบ้านที่สำคัญ
- วันนี้กำลังใกล้เข้ามาอย่างรวดเร็วเมื่อคุณไม่สามารถบอกคำพูดที่สร้างโดยคอมพิวเตอร์จากของจริงได้
- Google เพิ่งเปิดตัว LaMDA ซึ่งเป็นโมเดลที่ช่วยให้สนทนาได้อย่างเป็นธรรมชาติมากขึ้น
- การผลิตคำพูดที่เหมือนมนุษย์นั้นต้องใช้พลังการประมวลผลจำนวนมหาศาล
ตอนนี้ บอกได้ง่าย ๆ ว่าคุณกำลังคุยกับคอมพิวเตอร์ แต่ในไม่ช้าสิ่งนี้อาจเปลี่ยนแปลงได้ ต้องขอบคุณความก้าวหน้าล่าสุดของ AI
Google เพิ่งเปิดตัว LaMDA ซึ่งเป็นโมเดลทดลองที่บริษัทอ้างว่าสามารถเพิ่มความสามารถของผู้ช่วย AI ด้านการสนทนาและช่วยให้สนทนาได้อย่างเป็นธรรมชาติมากขึ้นLaMDA ตั้งเป้าที่จะสนทนาได้ตามปกติในแทบทุกเรื่องโดยไม่ต้องฝึกอบรมล่วงหน้า
เป็นหนึ่งในโครงการ AI ที่เพิ่มขึ้นเรื่อยๆ ที่อาจทำให้คุณสงสัยว่าคุณกำลังพูดกับมนุษย์อยู่หรือเปล่า
"ประมาณการของฉันคือภายใน 12 เดือนข้างหน้า ผู้ใช้จะเริ่มสัมผัสและคุ้นเคยกับเสียงอารมณ์ใหม่เหล่านี้" James Kaplan ซีอีโอของ MeetKai ผู้ช่วยเสียงเสมือนจริงในการสนทนาและการค้นหา เครื่องยนต์ กล่าวในการสัมภาษณ์ทางอีเมล
"เมื่อสิ่งนี้เกิดขึ้น คำพูดสังเคราะห์ของวันนี้จะฟังผู้ใช้เหมือนคำพูดของต้นยุค 2000 ที่ฟังดูสำหรับเราในวันนี้"
ผู้ช่วยเสียงพร้อมตัวละคร
LaMDA ของ Google สร้างขึ้นจาก Transformer ซึ่งเป็นสถาปัตยกรรมเครือข่ายประสาทที่คิดค้นโดย Google Research LaMDA ของ Google ต่างจากโมเดลภาษาอื่นๆ ที่ใช้บทสนทนาจริง
ส่วนหนึ่งของความท้าทายในการสร้างคำพูด AI ที่เป็นธรรมชาติคือลักษณะการสนทนาแบบปลายเปิด Eli Collins จาก Google เขียนไว้ในบล็อกโพสต์
"การแชทกับเพื่อนเกี่ยวกับรายการทีวีสามารถพัฒนาไปสู่การอภิปรายเกี่ยวกับประเทศที่ถ่ายทำรายการก่อนที่จะลงความเห็นเกี่ยวกับอาหารประจำภูมิภาคที่ดีที่สุดของประเทศนั้น" เขากล่าวเสริม
สิ่งต่าง ๆ ดำเนินไปอย่างรวดเร็วด้วยคำพูดของหุ่นยนต์ Eric Rosenblum หุ้นส่วนผู้จัดการของ Tsingyuan Ventures ซึ่งลงทุนใน AI เชิงสนทนา กล่าวว่าปัญหาพื้นฐานที่สุดบางประการในการพูดโดยใช้คอมพิวเตอร์ช่วยนั้นแก้ไขได้อย่างแท้จริง
ตัวอย่างเช่น อัตราความแม่นยำในการทำความเข้าใจคำพูดนั้นสูงมากในบริการต่างๆ เช่น การถอดเสียงโดยซอฟต์แวร์ Otter.ai หรือบันทึกทางการแพทย์ที่บันทึกโดย DeepScribe
"พรมแดนถัดไปนั้นยากกว่ามาก" เขากล่าวเสริม
"การรักษาความเข้าใจบริบท ซึ่งเป็นปัญหาที่นอกเหนือไปจากการประมวลผลภาษาธรรมชาติ และการเอาใจใส่ เช่น คอมพิวเตอร์ที่มีปฏิสัมพันธ์กับมนุษย์ จำเป็นต้องเข้าใจความหงุดหงิด ความโกรธ ความไม่อดทน เป็นต้นปัญหาทั้งสองนี้กำลังอยู่ในระหว่างดำเนินการ แต่ทั้งสองยังค่อนข้างห่างไกลจากความน่าพอใจ"
โครงข่ายประสาทเทียมคือกุญแจสำคัญ
ในการสร้างเสียงที่เหมือนจริง บริษัทต่างๆ กำลังใช้เทคโนโลยีเช่น Deep Neural Network ซึ่งเป็นรูปแบบของการเรียนรู้ของเครื่องที่จำแนกข้อมูลผ่านเลเยอร์ Matt Muldoon ประธานของอเมริกาเหนือที่ ReadSpeaker บริษัทที่พัฒนาซอฟต์แวร์ข้อความเป็นคำพูด กล่าวในการสัมภาษณ์ทางอีเมล
"เลเยอร์เหล่านี้ปรับแต่งสัญญาณ จัดเรียงเป็นหมวดหมู่ที่ซับซ้อนมากขึ้น" เขากล่าวเสริม "ผลลัพธ์ที่ได้คือคำพูดสังเคราะห์ที่ฟังดูประหลาดเหมือนมนุษย์"
เทคโนโลยีอื่นที่กำลังพัฒนาคือ Prosody Transfer ซึ่งเกี่ยวข้องกับการรวมเสียงของเสียงการแปลงข้อความเป็นคำพูดกับรูปแบบการพูดของอีกรูปแบบหนึ่ง Muldoon กล่าว นอกจากนี้ยังมีการถ่ายโอนการเรียนรู้ ซึ่งช่วยลดปริมาณข้อมูลการฝึกอบรมที่จำเป็นในการสร้างเสียงข้อความเป็นคำพูดของระบบประสาท
Kaplan กล่าวว่าการผลิตคำพูดที่เหมือนมนุษย์นั้นใช้พลังการประมวลผลจำนวนมหาศาลเช่นกัน บริษัทต่างๆ กำลังพัฒนาชิปตัวเร่งประสาท ซึ่งเป็นโมดูลแบบกำหนดเองที่ทำงานร่วมกับโปรเซสเซอร์ทั่วไป
"ขั้นต่อไปคือการนำชิปเหล่านี้ไปใส่ในฮาร์ดแวร์ที่มีขนาดเล็กลง เนื่องจากขณะนี้มันได้ทำไปแล้วสำหรับกล้องเมื่อจำเป็นต้องใช้ AI สำหรับการมองเห็น" เขากล่าวเสริม "อีกไม่นานนักก่อนที่ความสามารถในการคำนวณประเภทนี้จะพร้อมใช้งานในหูฟัง"
ความท้าทายประการหนึ่งในการพัฒนาคำพูดที่ขับเคลื่อนด้วย AI คือทุกคนพูดต่างกัน ดังนั้นคอมพิวเตอร์จึงมักจะเข้าใจเราได้ยาก
"คิดว่าสำเนียงจอร์เจียกับบอสตันกับนอร์ทดาโคตาและภาษาอังกฤษเป็นภาษาหลักของคุณหรือไม่" โมนิกาเดมาซึ่งทำงานเกี่ยวกับการวิเคราะห์การค้นหาด้วยเสียงที่ MDinc กล่าวในอีเมล "หากคิดกันทั่วโลก การทำเช่นนี้ในทุกภูมิภาคของเยอรมนี จีน และอินเดียมีค่าใช้จ่ายสูง แต่นั่นไม่ได้หมายความว่าจะทำไม่ได้หรือไม่สามารถทำได้"