ซื้อกลับบ้านที่สำคัญ
- บริษัทต่าง ๆ ต่างแข่งกันหาวิธีที่จะทำให้เสียงพูดที่สร้างโดยคอมพิวเตอร์ดูสมจริงยิ่งขึ้น
- NVIDIA เพิ่งเปิดตัวเครื่องมือที่สามารถจับเสียงคำพูดที่เป็นธรรมชาติโดยให้คุณฝึก AI ด้วยเสียงของคุณเอง
- น้ำเสียง อารมณ์ และดนตรีเป็นคุณสมบัติที่เสียงคอมพิวเตอร์ยังขาดอยู่ ผู้เชี่ยวชาญคนหนึ่งกล่าว
เสียงพูดที่สร้างโดยคอมพิวเตอร์ในไม่ช้าอาจฟังดูเป็นมนุษย์มากขึ้น
ผู้ผลิตชิ้นส่วนคอมพิวเตอร์ NVIDIA เพิ่งเปิดตัวเครื่องมือที่สามารถจับเสียงพูดที่เป็นธรรมชาติโดยให้คุณฝึก AI ด้วยเสียงของคุณซอฟต์แวร์ยังสามารถส่งคำพูดของผู้พูดโดยใช้เสียงของบุคคลอื่น เป็นส่วนหนึ่งของการผลักดันให้คอมพิวเตอร์พูดได้สมจริงยิ่งขึ้น
"เทคโนโลยี AI เสียงขั้นสูงช่วยให้ผู้ใช้พูดได้อย่างเป็นธรรมชาติ รวมคำถามมากมายไว้ในประโยคเดียว และขจัดความจำเป็นในการทำซ้ำรายละเอียดจากคำถามเดิมอย่างต่อเนื่อง" Michael Zagorsek ประธานเจ้าหน้าที่ฝ่ายปฏิบัติการของบริษัทการรู้จำเสียง SoundHound บอกกับ Lifewire ในการสัมภาษณ์ทางอีเมล
"การเพิ่มหลายภาษา ซึ่งขณะนี้มีให้บริการบนแพลตฟอร์มเสียง AI ส่วนใหญ่แล้ว ทำให้ผู้ช่วยเสียงแบบดิจิทัลสามารถเข้าถึงได้ในพื้นที่ต่างๆ มากขึ้นและสำหรับประชากรที่มากขึ้น" เขากล่าวเสริม
Robospeech Rising
Alexa ของ Amazon และ Siri ของ Apple ให้เสียงที่ดีกว่าเสียงพูดของคอมพิวเตอร์เมื่อหลายสิบปีก่อนมาก แต่จะไม่มีวันเข้าใจผิดว่าเป็นเสียงมนุษย์ที่แท้จริงในเร็วๆ นี้
เพื่อให้เสียงพูดเทียมดูเป็นธรรมชาติยิ่งขึ้น ทีมวิจัยการแปลงข้อความเป็นคำพูดของ NVIDIA ได้พัฒนาโมเดล RAD-TTS ระบบนี้อนุญาตให้บุคคลสอนรูปแบบการแปลงข้อความเป็นคำพูด (TTS) ด้วยเสียง รวมถึงการเว้นจังหวะ โทนเสียง เสียงต่ำ และปัจจัยอื่นๆ
บริษัทใช้รูปแบบใหม่ในการสร้างคำบรรยายเสียงที่สนทนาได้สำหรับซีรีส์วิดีโอ I Am AI
"ด้วยอินเทอร์เฟซนี้ โปรดิวเซอร์วิดีโอของเราสามารถบันทึกตัวเองขณะอ่านสคริปต์วิดีโอแล้วใช้แบบจำลอง AI เพื่อแปลงคำพูดของเขาเป็นเสียงของผู้บรรยายหญิง การใช้คำบรรยายพื้นฐานนี้ โปรดิวเซอร์สามารถกำกับ AI ได้เหมือน นักพากย์ที่ปรับแต่งคำพูดที่สังเคราะห์ขึ้นเพื่อเน้นคำที่เฉพาะเจาะจงและปรับเปลี่ยนจังหวะของการบรรยายเพื่อแสดงน้ำเสียงของวิดีโอได้ดีขึ้น" NVIDIA เขียนบนเว็บไซต์
ยากกว่าที่คิด
การทำให้เสียงพูดที่สร้างโดยคอมพิวเตอร์ดูเป็นธรรมชาตินั้นเป็นปัญหาที่ยุ่งยาก ผู้เชี่ยวชาญกล่าว
"คุณต้องบันทึกเสียงของใครบางคนเป็นเวลาหลายร้อยชั่วโมงเพื่อสร้างเวอร์ชันคอมพิวเตอร์" Nazim Ragimov ซีอีโอของบริษัทซอฟต์แวร์ข้อความเป็นคำพูด Kukarella กล่าวกับ Lifewire ในการสัมภาษณ์ทางอีเมล “และการบันทึกต้องมีคุณภาพสูง บันทึกในสตูดิโอมืออาชีพยิ่งโหลดและประมวลผลคำพูดที่มีคุณภาพหลายชั่วโมง ผลลัพธ์ก็จะยิ่งดีขึ้นเท่านั้น"
การอ่านออกเสียงข้อความสามารถใช้ในการเล่นเกม เพื่อช่วยเหลือผู้พิการทางเสียง หรือเพื่อช่วยให้ผู้ใช้แปลระหว่างภาษาต่างๆ ด้วยเสียงของตนเอง
น้ำเสียง อารมณ์ และดนตรีเป็นคุณสมบัติที่เสียงคอมพิวเตอร์ยังขาดอยู่ Ragimov กล่าว
หาก AI สามารถเพิ่มลิงก์ที่ขาดหายไปเหล่านี้ได้ คำพูดที่สร้างโดยคอมพิวเตอร์จะ "แยกไม่ออกจากเสียงของนักแสดงจริงๆ" เขากล่าวเสริม "กำลังดำเนินการอยู่ เสียงอื่นๆ จะสามารถแข่งขันกับนักจัดรายการวิทยุได้ เร็วๆ นี้ คุณจะเห็นเสียงร้องและอ่านหนังสือเสียงได้"
เทคโนโลยีการพูดกำลังเป็นที่นิยมมากขึ้นในธุรกิจที่หลากหลาย
"อุตสาหกรรมยานยนต์ได้นำ AI แบบเสียงมาใช้เพื่อสร้างประสบการณ์การขับขี่ที่ปลอดภัยและเชื่อมต่อกันมากขึ้น" Zagorsek กล่าว
"ตั้งแต่นั้นมา ระบบสั่งงานด้วยเสียงก็แพร่หลายมากขึ้นเรื่อยๆ เนื่องจากแบรนด์ต่างๆ กำลังมองหาวิธีที่จะปรับปรุงประสบการณ์ของลูกค้าและตอบสนองความต้องการวิธีการโต้ตอบกับผลิตภัณฑ์และบริการที่ง่ายขึ้น ปลอดภัยขึ้น สะดวกยิ่งขึ้น มีประสิทธิภาพ และถูกสุขอนามัย"
โดยปกติ AI เสียงจะแปลงข้อความค้นหาเป็นคำตอบในกระบวนการสองขั้นตอนที่เริ่มต้นด้วยการถอดเสียงคำพูดเป็นข้อความโดยใช้การรู้จำคำพูดอัตโนมัติ (ASR) แล้วป้อนข้อความนั้นเป็นแบบจำลองความเข้าใจภาษาธรรมชาติ (NLU)
วิธีการของ SoundHound รวมสองขั้นตอนเหล่านี้เป็นกระบวนการเดียวเพื่อติดตามคำพูดแบบเรียลไทม์ บริษัทอ้างว่าเทคนิคนี้ช่วยให้ผู้ช่วยเสียงเข้าใจความหมายของข้อความค้นหาของผู้ใช้ แม้กระทั่งก่อนที่บุคคลนั้นจะพูดจบ
ความก้าวหน้าในอนาคตในการพูดของคอมพิวเตอร์ รวมถึงการมีตัวเลือกการเชื่อมต่อที่หลากหลายตั้งแต่ฝังตัวเท่านั้น (ไม่จำเป็นต้องมีการเชื่อมต่อบนคลาวด์) ไปจนถึงไฮบริด (ฝังตัวและคลาวด์) และคลาวด์เท่านั้น "จะช่วยเพิ่มทางเลือกให้กับบริษัทในอุตสาหกรรมต่างๆ ในแง่ของต้นทุน ความเป็นส่วนตัว และความพร้อมใช้งานของพลังการประมวลผล" ซาโกเรสก์กล่าว
NVIDIA กล่าวว่าข่าวของโมเดล AI นั้นทำได้มากกว่าการพากย์เสียง
"การอ่านออกเสียงข้อความสามารถใช้ในการเล่นเกม เพื่อช่วยเหลือผู้พิการทางเสียง หรือเพื่อช่วยให้ผู้ใช้แปลระหว่างภาษาต่างๆ ด้วยเสียงของตนเอง" บริษัทเขียน "มันสามารถสร้างการแสดงของนักร้องระดับไอคอนได้ด้วยซ้ำ ไม่เพียงแต่เข้ากับทำนองเพลงแต่ยังเข้ากับอารมณ์เบื้องหลังเสียงร้องอีกด้วย"