Google ने Google I/O 2025 वर मिथुन 2.5 मॉडेल्ससह नवीन ऑडिओ निर्मिती क्षमता सादर केली. माउंटन व्ह्यू-आधारित टेक जायंट आता विकसक आणि व्यक्तींना या वैशिष्ट्यांची चाचणी घेऊ देत आहे. दोन नवीन क्षमतांमध्ये मूळ ऑडिओ डायलॉग आणि मिथुन 2.5 फ्लॅश पूर्वावलोकनासह कंट्रोल करण्यायोग्य मजकूर-टू-स्पीच (टीटीएस) समाविष्ट आहे. वापरकर्ता प्रॉम्प्ट्सना प्रतिसाद देताना पूर्वीचे लोक मूळतः मानवी सारखे ऑडिओ व्युत्पन्न करू शकतात, परंतु नंतरचे कोणतेही स्क्रिप्ट संभाषणात्मक भाषणात रूपांतरित करू शकतात. ही वैशिष्ट्ये सध्या अॅप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआय) द्वारे विकसकांना उपलब्ध नाहीत.
Google मिथुन 2.5 फ्लॅशची ऑडिओ आउटपुट क्षमता शोकेस करते
मध्ये मध्ये ब्लॉग पोस्टटेक राक्षसांनी या दोन ऑडिओ निर्मिती मोडची वैशिष्ट्ये तपशीलवार केली, जे लोकांसाठी नवीन अनुभव तयार करण्यासाठी विकसक त्यांचा वापर कसे करू शकतात हे हायलाइट करतात. सध्या, मूळ ऑडिओ संवाद Google एआय स्टुडिओमध्ये वापरला जाऊ शकतो प्रवाह टॅब, तर टीटीएस वैशिष्ट्याची चाचणी केली जाऊ शकते मीडिया व्युत्पन्न करा एआय स्टुडिओमध्ये टॅब.
मिथुन 2.5 फ्लॅश पूर्वावलोकन सह नेटिव्ह ऑडिओ संवाद मानवी वापरकर्ता आणि एआय दरम्यान रिअल-टाइम संभाषणांसाठी डिझाइन केलेले आहे. वापरकर्ता एकतर प्रॉमप्ट टाइप करू शकतो किंवा तो बोलू शकतो आणि एआय तोंडी प्रतिसाद देतो. प्रथम मजकूर व्युत्पन्न करण्याऐवजी आणि नंतर ते भाषणात रूपांतरित करण्याऐवजी ही प्रक्रिया थेट ऑडिओ व्युत्पन्न करते.
त्यासाठीही बरेच फायदे आहेत. हे सकारात्मक संवादाचे समर्थन करते, याचा अर्थ असा होतो की जेव्हा मिथुन 2.5 फ्लॅश वापरकर्त्याच्या आवाजाच्या आवाजाला प्रतिसाद देते तेव्हा ते त्या शब्दांमागील भावना ओळखू शकते. जेव्हा वापरकर्ता घाबरलेला, रागावलेला किंवा आश्चर्यचकित होतो आणि त्यानुसार प्रतिसाद देतो तेव्हा हे समजू शकते.
या व्यतिरिक्त, ऑडिओ जनरेशन वैशिष्ट्य बोलताना भावना व्यक्त करू शकते, भिन्न अॅक्सेंट आणि भाषिक शैली स्वीकारू शकते, Google शोध सारख्या साधनांमध्ये प्रवेश करू शकते आणि 24 पेक्षा जास्त भाषांना समर्थन देते.
कंट्रोल करण्यायोग्य टीटीएस वैशिष्ट्याकडे येत आहे, हे मल्टी-स्पीकर संवाद निर्मिती देते, स्क्रिप्टचे वर्णन करताना भावना आणि अॅक्सेंट तयार करू शकते, वितरण गती नियंत्रित करते आणि उच्चारणांवर जोर देते आणि समान 24 भाषा आणि भाषा मिश्रणास समर्थन देते.
Google म्हणतात की विकास प्रक्रियेच्या संभाव्य जोखमींसाठी या क्षमतांचे मूल्यांकन केले गेले. कंपनीने कोणतीही असुरक्षा शोधण्यासाठी आणि निराकरण करण्यासाठी अंतर्गत दोन्ही यंत्रणा तसेच रेड टीमिंगचा वापर केला. या मॉडेल्समधील सर्व ऑडिओ आउटपुट सिंथिड, वॉटरमार्किंग तंत्रज्ञानाने एम्बेड केलेले आहेत हे देखील कंपनीने हायलाइट केले.























