AI จะทำให้คำพูดของคอมพิวเตอร์เป็นธรรมชาติมากขึ้นได้อย่างไร

สารบัญ:

AI จะทำให้คำพูดของคอมพิวเตอร์เป็นธรรมชาติมากขึ้นได้อย่างไร
AI จะทำให้คำพูดของคอมพิวเตอร์เป็นธรรมชาติมากขึ้นได้อย่างไร
Anonim

ซื้อกลับบ้านที่สำคัญ

  • บริษัทต่าง ๆ ต่างแข่งกันหาวิธีที่จะทำให้เสียงพูดที่สร้างโดยคอมพิวเตอร์ดูสมจริงยิ่งขึ้น
  • NVIDIA เพิ่งเปิดตัวเครื่องมือที่สามารถจับเสียงคำพูดที่เป็นธรรมชาติโดยให้คุณฝึก AI ด้วยเสียงของคุณเอง
  • น้ำเสียง อารมณ์ และดนตรีเป็นคุณสมบัติที่เสียงคอมพิวเตอร์ยังขาดอยู่ ผู้เชี่ยวชาญคนหนึ่งกล่าว
Image
Image

เสียงพูดที่สร้างโดยคอมพิวเตอร์ในไม่ช้าอาจฟังดูเป็นมนุษย์มากขึ้น

ผู้ผลิตชิ้นส่วนคอมพิวเตอร์ NVIDIA เพิ่งเปิดตัวเครื่องมือที่สามารถจับเสียงพูดที่เป็นธรรมชาติโดยให้คุณฝึก AI ด้วยเสียงของคุณซอฟต์แวร์ยังสามารถส่งคำพูดของผู้พูดโดยใช้เสียงของบุคคลอื่น เป็นส่วนหนึ่งของการผลักดันให้คอมพิวเตอร์พูดได้สมจริงยิ่งขึ้น

"เทคโนโลยี AI เสียงขั้นสูงช่วยให้ผู้ใช้พูดได้อย่างเป็นธรรมชาติ รวมคำถามมากมายไว้ในประโยคเดียว และขจัดความจำเป็นในการทำซ้ำรายละเอียดจากคำถามเดิมอย่างต่อเนื่อง" Michael Zagorsek ประธานเจ้าหน้าที่ฝ่ายปฏิบัติการของบริษัทการรู้จำเสียง SoundHound บอกกับ Lifewire ในการสัมภาษณ์ทางอีเมล

"การเพิ่มหลายภาษา ซึ่งขณะนี้มีให้บริการบนแพลตฟอร์มเสียง AI ส่วนใหญ่แล้ว ทำให้ผู้ช่วยเสียงแบบดิจิทัลสามารถเข้าถึงได้ในพื้นที่ต่างๆ มากขึ้นและสำหรับประชากรที่มากขึ้น" เขากล่าวเสริม

Robospeech Rising

Alexa ของ Amazon และ Siri ของ Apple ให้เสียงที่ดีกว่าเสียงพูดของคอมพิวเตอร์เมื่อหลายสิบปีก่อนมาก แต่จะไม่มีวันเข้าใจผิดว่าเป็นเสียงมนุษย์ที่แท้จริงในเร็วๆ นี้

เพื่อให้เสียงพูดเทียมดูเป็นธรรมชาติยิ่งขึ้น ทีมวิจัยการแปลงข้อความเป็นคำพูดของ NVIDIA ได้พัฒนาโมเดล RAD-TTS ระบบนี้อนุญาตให้บุคคลสอนรูปแบบการแปลงข้อความเป็นคำพูด (TTS) ด้วยเสียง รวมถึงการเว้นจังหวะ โทนเสียง เสียงต่ำ และปัจจัยอื่นๆ

บริษัทใช้รูปแบบใหม่ในการสร้างคำบรรยายเสียงที่สนทนาได้สำหรับซีรีส์วิดีโอ I Am AI

"ด้วยอินเทอร์เฟซนี้ โปรดิวเซอร์วิดีโอของเราสามารถบันทึกตัวเองขณะอ่านสคริปต์วิดีโอแล้วใช้แบบจำลอง AI เพื่อแปลงคำพูดของเขาเป็นเสียงของผู้บรรยายหญิง การใช้คำบรรยายพื้นฐานนี้ โปรดิวเซอร์สามารถกำกับ AI ได้เหมือน นักพากย์ที่ปรับแต่งคำพูดที่สังเคราะห์ขึ้นเพื่อเน้นคำที่เฉพาะเจาะจงและปรับเปลี่ยนจังหวะของการบรรยายเพื่อแสดงน้ำเสียงของวิดีโอได้ดีขึ้น" NVIDIA เขียนบนเว็บไซต์

ยากกว่าที่คิด

การทำให้เสียงพูดที่สร้างโดยคอมพิวเตอร์ดูเป็นธรรมชาตินั้นเป็นปัญหาที่ยุ่งยาก ผู้เชี่ยวชาญกล่าว

"คุณต้องบันทึกเสียงของใครบางคนเป็นเวลาหลายร้อยชั่วโมงเพื่อสร้างเวอร์ชันคอมพิวเตอร์" Nazim Ragimov ซีอีโอของบริษัทซอฟต์แวร์ข้อความเป็นคำพูด Kukarella กล่าวกับ Lifewire ในการสัมภาษณ์ทางอีเมล “และการบันทึกต้องมีคุณภาพสูง บันทึกในสตูดิโอมืออาชีพยิ่งโหลดและประมวลผลคำพูดที่มีคุณภาพหลายชั่วโมง ผลลัพธ์ก็จะยิ่งดีขึ้นเท่านั้น"

การอ่านออกเสียงข้อความสามารถใช้ในการเล่นเกม เพื่อช่วยเหลือผู้พิการทางเสียง หรือเพื่อช่วยให้ผู้ใช้แปลระหว่างภาษาต่างๆ ด้วยเสียงของตนเอง

น้ำเสียง อารมณ์ และดนตรีเป็นคุณสมบัติที่เสียงคอมพิวเตอร์ยังขาดอยู่ Ragimov กล่าว

หาก AI สามารถเพิ่มลิงก์ที่ขาดหายไปเหล่านี้ได้ คำพูดที่สร้างโดยคอมพิวเตอร์จะ "แยกไม่ออกจากเสียงของนักแสดงจริงๆ" เขากล่าวเสริม "กำลังดำเนินการอยู่ เสียงอื่นๆ จะสามารถแข่งขันกับนักจัดรายการวิทยุได้ เร็วๆ นี้ คุณจะเห็นเสียงร้องและอ่านหนังสือเสียงได้"

เทคโนโลยีการพูดกำลังเป็นที่นิยมมากขึ้นในธุรกิจที่หลากหลาย

"อุตสาหกรรมยานยนต์ได้นำ AI แบบเสียงมาใช้เพื่อสร้างประสบการณ์การขับขี่ที่ปลอดภัยและเชื่อมต่อกันมากขึ้น" Zagorsek กล่าว

"ตั้งแต่นั้นมา ระบบสั่งงานด้วยเสียงก็แพร่หลายมากขึ้นเรื่อยๆ เนื่องจากแบรนด์ต่างๆ กำลังมองหาวิธีที่จะปรับปรุงประสบการณ์ของลูกค้าและตอบสนองความต้องการวิธีการโต้ตอบกับผลิตภัณฑ์และบริการที่ง่ายขึ้น ปลอดภัยขึ้น สะดวกยิ่งขึ้น มีประสิทธิภาพ และถูกสุขอนามัย"

โดยปกติ AI เสียงจะแปลงข้อความค้นหาเป็นคำตอบในกระบวนการสองขั้นตอนที่เริ่มต้นด้วยการถอดเสียงคำพูดเป็นข้อความโดยใช้การรู้จำคำพูดอัตโนมัติ (ASR) แล้วป้อนข้อความนั้นเป็นแบบจำลองความเข้าใจภาษาธรรมชาติ (NLU)

Image
Image

วิธีการของ SoundHound รวมสองขั้นตอนเหล่านี้เป็นกระบวนการเดียวเพื่อติดตามคำพูดแบบเรียลไทม์ บริษัทอ้างว่าเทคนิคนี้ช่วยให้ผู้ช่วยเสียงเข้าใจความหมายของข้อความค้นหาของผู้ใช้ แม้กระทั่งก่อนที่บุคคลนั้นจะพูดจบ

ความก้าวหน้าในอนาคตในการพูดของคอมพิวเตอร์ รวมถึงการมีตัวเลือกการเชื่อมต่อที่หลากหลายตั้งแต่ฝังตัวเท่านั้น (ไม่จำเป็นต้องมีการเชื่อมต่อบนคลาวด์) ไปจนถึงไฮบริด (ฝังตัวและคลาวด์) และคลาวด์เท่านั้น "จะช่วยเพิ่มทางเลือกให้กับบริษัทในอุตสาหกรรมต่างๆ ในแง่ของต้นทุน ความเป็นส่วนตัว และความพร้อมใช้งานของพลังการประมวลผล" ซาโกเรสก์กล่าว

NVIDIA กล่าวว่าข่าวของโมเดล AI นั้นทำได้มากกว่าการพากย์เสียง

"การอ่านออกเสียงข้อความสามารถใช้ในการเล่นเกม เพื่อช่วยเหลือผู้พิการทางเสียง หรือเพื่อช่วยให้ผู้ใช้แปลระหว่างภาษาต่างๆ ด้วยเสียงของตนเอง" บริษัทเขียน "มันสามารถสร้างการแสดงของนักร้องระดับไอคอนได้ด้วยซ้ำ ไม่เพียงแต่เข้ากับทำนองเพลงแต่ยังเข้ากับอารมณ์เบื้องหลังเสียงร้องอีกด้วย"