อีกไม่นานคุณอาจไม่รู้ว่ากำลังคุยกับคอมพิวเตอร์อยู่

สารบัญ:

อีกไม่นานคุณอาจไม่รู้ว่ากำลังคุยกับคอมพิวเตอร์อยู่
อีกไม่นานคุณอาจไม่รู้ว่ากำลังคุยกับคอมพิวเตอร์อยู่
Anonim

ซื้อกลับบ้านที่สำคัญ

  • วันนี้กำลังใกล้เข้ามาอย่างรวดเร็วเมื่อคุณไม่สามารถบอกคำพูดที่สร้างโดยคอมพิวเตอร์จากของจริงได้
  • Google เพิ่งเปิดตัว LaMDA ซึ่งเป็นโมเดลที่ช่วยให้สนทนาได้อย่างเป็นธรรมชาติมากขึ้น
  • การผลิตคำพูดที่เหมือนมนุษย์นั้นต้องใช้พลังการประมวลผลจำนวนมหาศาล
Image
Image

ตอนนี้ บอกได้ง่าย ๆ ว่าคุณกำลังคุยกับคอมพิวเตอร์ แต่ในไม่ช้าสิ่งนี้อาจเปลี่ยนแปลงได้ ต้องขอบคุณความก้าวหน้าล่าสุดของ AI

Google เพิ่งเปิดตัว LaMDA ซึ่งเป็นโมเดลทดลองที่บริษัทอ้างว่าสามารถเพิ่มความสามารถของผู้ช่วย AI ด้านการสนทนาและช่วยให้สนทนาได้อย่างเป็นธรรมชาติมากขึ้นLaMDA ตั้งเป้าที่จะสนทนาได้ตามปกติในแทบทุกเรื่องโดยไม่ต้องฝึกอบรมล่วงหน้า

เป็นหนึ่งในโครงการ AI ที่เพิ่มขึ้นเรื่อยๆ ที่อาจทำให้คุณสงสัยว่าคุณกำลังพูดกับมนุษย์อยู่หรือเปล่า

"ประมาณการของฉันคือภายใน 12 เดือนข้างหน้า ผู้ใช้จะเริ่มสัมผัสและคุ้นเคยกับเสียงอารมณ์ใหม่เหล่านี้" James Kaplan ซีอีโอของ MeetKai ผู้ช่วยเสียงเสมือนจริงในการสนทนาและการค้นหา เครื่องยนต์ กล่าวในการสัมภาษณ์ทางอีเมล

"เมื่อสิ่งนี้เกิดขึ้น คำพูดสังเคราะห์ของวันนี้จะฟังผู้ใช้เหมือนคำพูดของต้นยุค 2000 ที่ฟังดูสำหรับเราในวันนี้"

ผู้ช่วยเสียงพร้อมตัวละคร

LaMDA ของ Google สร้างขึ้นจาก Transformer ซึ่งเป็นสถาปัตยกรรมเครือข่ายประสาทที่คิดค้นโดย Google Research LaMDA ของ Google ต่างจากโมเดลภาษาอื่นๆ ที่ใช้บทสนทนาจริง

ส่วนหนึ่งของความท้าทายในการสร้างคำพูด AI ที่เป็นธรรมชาติคือลักษณะการสนทนาแบบปลายเปิด Eli Collins จาก Google เขียนไว้ในบล็อกโพสต์

Image
Image

"การแชทกับเพื่อนเกี่ยวกับรายการทีวีสามารถพัฒนาไปสู่การอภิปรายเกี่ยวกับประเทศที่ถ่ายทำรายการก่อนที่จะลงความเห็นเกี่ยวกับอาหารประจำภูมิภาคที่ดีที่สุดของประเทศนั้น" เขากล่าวเสริม

สิ่งต่าง ๆ ดำเนินไปอย่างรวดเร็วด้วยคำพูดของหุ่นยนต์ Eric Rosenblum หุ้นส่วนผู้จัดการของ Tsingyuan Ventures ซึ่งลงทุนใน AI เชิงสนทนา กล่าวว่าปัญหาพื้นฐานที่สุดบางประการในการพูดโดยใช้คอมพิวเตอร์ช่วยนั้นแก้ไขได้อย่างแท้จริง

ตัวอย่างเช่น อัตราความแม่นยำในการทำความเข้าใจคำพูดนั้นสูงมากในบริการต่างๆ เช่น การถอดเสียงโดยซอฟต์แวร์ Otter.ai หรือบันทึกทางการแพทย์ที่บันทึกโดย DeepScribe

"พรมแดนถัดไปนั้นยากกว่ามาก" เขากล่าวเสริม

"การรักษาความเข้าใจบริบท ซึ่งเป็นปัญหาที่นอกเหนือไปจากการประมวลผลภาษาธรรมชาติ และการเอาใจใส่ เช่น คอมพิวเตอร์ที่มีปฏิสัมพันธ์กับมนุษย์ จำเป็นต้องเข้าใจความหงุดหงิด ความโกรธ ความไม่อดทน เป็นต้นปัญหาทั้งสองนี้กำลังอยู่ในระหว่างดำเนินการ แต่ทั้งสองยังค่อนข้างห่างไกลจากความน่าพอใจ"

โครงข่ายประสาทเทียมคือกุญแจสำคัญ

ในการสร้างเสียงที่เหมือนจริง บริษัทต่างๆ กำลังใช้เทคโนโลยีเช่น Deep Neural Network ซึ่งเป็นรูปแบบของการเรียนรู้ของเครื่องที่จำแนกข้อมูลผ่านเลเยอร์ Matt Muldoon ประธานของอเมริกาเหนือที่ ReadSpeaker บริษัทที่พัฒนาซอฟต์แวร์ข้อความเป็นคำพูด กล่าวในการสัมภาษณ์ทางอีเมล

"เลเยอร์เหล่านี้ปรับแต่งสัญญาณ จัดเรียงเป็นหมวดหมู่ที่ซับซ้อนมากขึ้น" เขากล่าวเสริม "ผลลัพธ์ที่ได้คือคำพูดสังเคราะห์ที่ฟังดูประหลาดเหมือนมนุษย์"

เทคโนโลยีอื่นที่กำลังพัฒนาคือ Prosody Transfer ซึ่งเกี่ยวข้องกับการรวมเสียงของเสียงการแปลงข้อความเป็นคำพูดกับรูปแบบการพูดของอีกรูปแบบหนึ่ง Muldoon กล่าว นอกจากนี้ยังมีการถ่ายโอนการเรียนรู้ ซึ่งช่วยลดปริมาณข้อมูลการฝึกอบรมที่จำเป็นในการสร้างเสียงข้อความเป็นคำพูดของระบบประสาท

Kaplan กล่าวว่าการผลิตคำพูดที่เหมือนมนุษย์นั้นใช้พลังการประมวลผลจำนวนมหาศาลเช่นกัน บริษัทต่างๆ กำลังพัฒนาชิปตัวเร่งประสาท ซึ่งเป็นโมดูลแบบกำหนดเองที่ทำงานร่วมกับโปรเซสเซอร์ทั่วไป

"ขั้นต่อไปคือการนำชิปเหล่านี้ไปใส่ในฮาร์ดแวร์ที่มีขนาดเล็กลง เนื่องจากขณะนี้มันได้ทำไปแล้วสำหรับกล้องเมื่อจำเป็นต้องใช้ AI สำหรับการมองเห็น" เขากล่าวเสริม "อีกไม่นานนักก่อนที่ความสามารถในการคำนวณประเภทนี้จะพร้อมใช้งานในหูฟัง"

ความท้าทายประการหนึ่งในการพัฒนาคำพูดที่ขับเคลื่อนด้วย AI คือทุกคนพูดต่างกัน ดังนั้นคอมพิวเตอร์จึงมักจะเข้าใจเราได้ยาก

"คิดว่าสำเนียงจอร์เจียกับบอสตันกับนอร์ทดาโคตาและภาษาอังกฤษเป็นภาษาหลักของคุณหรือไม่" โมนิกาเดมาซึ่งทำงานเกี่ยวกับการวิเคราะห์การค้นหาด้วยเสียงที่ MDinc กล่าวในอีเมล "หากคิดกันทั่วโลก การทำเช่นนี้ในทุกภูมิภาคของเยอรมนี จีน และอินเดียมีค่าใช้จ่ายสูง แต่นั่นไม่ได้หมายความว่าจะทำไม่ได้หรือไม่สามารถทำได้"