VALL-E को 60,000 घंटे के इंग्लिश स्पीच के साथ ट्रेनिंग दी गई है. ये जीरो शॉट सिनारियो में किसी की आवाज को मिमिक कर सकता है. यानी ये AI टूल वॉयस से ऐसे शब्दों को बुलवा सकता है, जिसे वॉयस ने कभी नहीं बोला हो. ये जानकारी उस पेपर में दी गई है, जिसमें डेवलपर्स ने इस टूल को पेश किया है.
VALL-E लिखे गए शब्दों को स्पोकन वर्ड्स में कन्वर्ट करने के लिए टेक्स्ट-टू-स्पीच टेक्नोलॉजी का इस्तेमाल करता है. ये स्पोकन वर्ड्स हाई-क्वालिटी पर्सनलाइज्ड स्पीच होते हैं.
ये LibriLight के 7,000 से ज्यादा रियल स्पीकर्स की रिकॉर्डिंग का इस्तेमाल करता है. टेक दिग्गज कंपनी ने VALL-E कैसे काम कर सकता है, इसे दिखाने के लिए एक सैंपल भी रिलीज किया है. इसमें दिखाया गया है कि कैसे किसी स्पीकर की आवाज को क्लोन किया जा सकता है.
ये AI टूल वर्तमान में सार्वजनिक उपयोग के लिए उपलब्ध नहीं है और माइक्रोसॉफ्ट ने ये भी साफ नहीं किया है कि इसका उद्देश्य क्या है. रिसर्चर्स ने फिलहाल ये बताया है कि ये टूल काफी अच्छे से काम करता है. केवल कुछ छोटी-मोटी कमियां एक्सेंट और स्पीच को लेकर हैं.
हालांकि, रिसर्चर्स ने इसके संभावित खतरे की ओर भी ध्यान आकर्षित करते हुए कहा है कि इस टूल का मिसयूज भी किया जा सकता है. उदाहरण के तौर पर बात करें तो इससे किसी और के जैसी आवाज निकालकर किसी को धोखा भी दिया जा सकता है.