مرورگر های صوتی
یک مرورگر صوتی یک نرم افزارکاربردی است که بوسیله تعدادی زبان نشانه گذاری ورودی صدا را تفسیر کرده و تولید خروجی میکند. به عبارت دیگر مرورگر صوتی یک ابزار است که بوسیله آن زبان نشانه گذاری صوتی تفسیر می شود. مرورگر صوتی می تواند نرم افزاری یا سخت افزاری باشد. کار مرورگرهای صوتی تفسیر صدای ورودی و ایجاد خروجی مناسب و در صورت امکان خروجی به صورت های دیگر می باشد.
دلایل زیادی برای بوجود آمدن مرورگرهای صوتی وجود دارد :
اولا تعداد زیادی از مردم جهان به تلفن های معمولی و بی سیم دسترسی دارند و این تعداد از تعداد کسانی که از کامپیوترهای رومیزی استفاده می کنند ، خیلی بیشتر است . بنابراین مرورگرهای صوتی امکان دسترسی این دسته از مردم را به اطلاعات وب را فراهم می آورند.
دوما پیش بینی می شود که در آینده تعداد وسایل زیادی به شبکه ها متصل شوند که امکان قرار گرفتن آنها روی میز ، وجود نداشته باشد.
در حال حاضر هدف اصلی مرورگرهای صوتی این است که کاربران بتوانند از طریق تلفنهای معمولی یا تلفنهای موبایل به وب دسترسی داشته باشند. این مرورگرهای صوتی کلیدهای DTMF را به عنوان ورودی پشتیبانی می کنند و خروجی های گفتار مصنوعی یا پاسخ های از پیش ضبط شده را تولید می کنند. زبان نشانه گذاری صوتی که بوسیله مرورگرهای صوتی تفسیر می شوند اغلب در وب موجود می باشند.
علاوه بر دستگاههای تلفن ، این موضوع دستگاههای کوچک و وسایل کنترل کننده از راه دور ، دستگهای خبردار کننده (پیجرها) و سیستمهای توکار (embedded) که در درون لوازم خانگی می باشند، را در بر می گیرد. به عبارت دیگر کلیه دستگاههایی که ورودی آنها چیزی غیر از صفحه کلید می باشند در این مجموعه قرار می گیرند.هدف از تلاشهایی که در زمینه مرورگرهای صوتی صورت می گیرد فراهم کردن راهی برای دسترسی به محتویات وب ( بصورت یک زبان نشانه گذاری مثل xml) با دستورات صوتی می باشد و در مکانهایی که دسترسی وب با صفحه کلید میسر نیست ( مثل تلفنهای موبایل و اتومبیلها ) این کار انجام گردد.
امروزه برای اکثر مردم دسترسی به تلفن بسیار آسانتر از دسترسی به یک کامپیوتر متصل به اینترنت می باشد. به علاوه ، فروش تلفنهای سلولی بسیار عظیم بوده است. به همین علت اکثر افراد دارای تلفنهای همراه شده اند.مرورگرهای صوتی اجازه می دهند تا هر کس بتواند به داده های وب وسرویسهای آن ازطریق دستگاههای تلفن در هر جا و هر مکان مثل خانه، محل کار یا در حال حرکت دسترسی پیدا کنند. استفاده از تکمه های تلفن برای سرویس دادن به مشتری ها برای شرکتها ، یک کار معمولی قلمداد می شود. مرورگرهای صوتی وسیله مناسبی را برای نسل بعدی مراکز پاسخگویی تلفن فراهم کرده اند که می تواند ارتباط شرکتهای سرویس دهنده و سایتهای اینترنتی را از طریق پورتالهای صوتی وب و تلفن با مشتریان برقرار کند. کاربران توانایی ارسال دستورات را از طریق گفتار یا از طریق تکمه های تلفن ، دارا می باشند. از سرویس دهنده های صوتی در وب انتظار محاوره ای طبیعی با کاربر می رود.
مرورگرهای صوتی به کاربران اجازه می دهند با استفاده از سنتز گفتار و صداهای از پیش ضبط شده و تشخیص گفتار به وب دسترسی داشته باشند. این کار بوسیله تکمه های تلفن و صفحه های نمایش دهنده کوچک برروی تلفنهای موبایل قابل انجام است . فعالیتهای صوتی برای مرورگرهای گرافیکی نیز پیشنهاد می شود و به این وسیله می تواند جایگزینی برای صفحه کلید و صفحه نمایش باشد. به عنوان مثال اگر یک راننده خودرو بخواهد به اطلاعات دسترسی داشته باشد. در اینصورت با وجود صفحه نمایش گرافیکی و صفحه کلید نمی تواند از دست و چشم خود استفاده کند و استفاده از مرورگرهای صوتی برای او بسیار مناسب است. دستگاههایی که بصورت موبایل برای دسترسی به اطلاعات ساخته می شود با استفاده از مرورگرهای صوتی می توانند از حجم کمتری استفاده کنند.
تا اینجا به نکته پی بردیم که تشخیص گفتار و فناوری زبان گفتاری تا حد نسبتاً زیادی به هنر نرم افزار نویسی بستگی دارد. وب، پتانسیل زیادی برای توسعه نرم افزارهای صوتی دارد. صفحات وب میتوانند وسیله ای برای نشان دادن مزیت محاوره های صوتی با کاربران باشند و محدودیتهای استفاده از صفحات وب را با استفاده از لینک های صوتی برطرف کنند. در بعضی مواقع برای استفاده کردن مرورگرهای صوتی از صفحات لازم است که محتویات صفحات به صورت قالبهای بهتری در آیند. در مواقع دیگر ممکن است به طور اختصاصی محتویات صفحه برای مرورگرهای صوتی نوشته شوند.
اطلاعات مفیدی که بوسیله شرکتها با فناوری مرورگرهای صوتی ارائه می شوند، باعث با اهمیت تر شدن تشخیص صدا و کیفیت سنتز گفتار می شود. نرم افزار های تبدیل متن به صدا می توانند به همراه صداهای از پیش ضبط شده برای توضیح شکلها و تصاویر براساس تجربیاتی که در کانال های رادیویی وجود دارند بکار گرفته شوند. برای وسعت بخشیدن به بازار مرورگرهای صوتی و سرویس های عملی در مقیاس های بزرگ پیاده سازی ایده های مختلف کارساز خواهد شد.
برخی از نرافزارهای کاربردی که می توانند با کمک مرورگرهای صوتی ایجاد شوند عبارتند از :
دسترسی به اطلاعات عمومی یا تجاری از طریق تلفنهای همگانی.
کنترل دستگاههای هوشمند و سیستمهای امنیتی در محیطهای مسکونی و اداری از راه دور بوسیله میکروفون و اسپیکر
کنترل و هدایت سیستمهای شخصی دیجیتال (PDA)
ارسال و دریافت نامه های الکترونیکی از طریق تلفن
تعریف ما از مرورگرهای صوتی شامل پشتیبانی از رابطهای صفحات HTML نمی شود. یک مرورگرصوتی برروی یک زبان نشانه گذاری فرایند های مختلف را انجام می دهد. زبان HTML شامل زبانهایی که مرورگرهای صوتی آن را تفسیر می کنند نمی شود.بعضی از فروشندگان اقدام به تولید مرورگرهای HTML که بجای نمایش متن ، تولید صدا می کنند، نموده اند. یک مرورگر HTML که دارای قابلیتهای صوتی می باشدباید تعیین کننده ترتیب متونی باشند که باید به صورت گفتار به گوش کاربر برسند. همچنین باید از لحاظ لغوی توانایی بیان داده های غیر از متن مثل جدولها و نمودارها را داشته باشند. به عبارت دیگر مرورگرهای صوتی باید توانایی تفسیر آنچه را که کاربر می خواهد درباره آن اطلاعات کسب کند ، را داشته باشند.در شکل زیر ارتباط با مرورگرهای صوتی نشان داده شده است.
شکل 1 : ارتباط دستگاه های مختلف با مرورگرهای صوتی
مزایای مرورگرهای صوتی
صوت یکی از طبیعی ترین ارتباط برقرارکننده با انسان می باشد زیرا کاربران می توانند به وسیله گوش دادن و صحبت کردن از تمام مهارتهایی که در دوران کودکی تا کنون دست یافته اند استفاده کنند. در حال حاضر مردم از تلفن های معمولی و تلفنهای همراه استفاده می کنند که آنها امکانی برای دسترسی به مرورگرهای صوتی را ندارند. بعضی از مرورگرهای صوتی از صفحه های نمایش کوچکی استفاده می کنند که شبیه به آنها در صفحه نمایش تلفنهای همراه یافت می شود.در آینده مرورگرهای صوتی می توانند با ابزارهای دیگری مثل قلم نوری ، ورودی های تصویری ارتباط برقرار کنند و تصاویر متحرک و خروجی های کنترل کننده را تولید کنند. برای مثال صوت و ورودی قلم نوری می تواند برای کاربران کشورهای آسیایی که زبان گفتاری آنها با صفحه کلید های معمولی تطابق ندارد مناسب باشد.
بعضی از مرورگرهای صوتی قابل حمل ونقل می باشند. یعنی آنها می توانند در هر جا و مکانی مثل خانه یا درون اتومبیل مورد استفاده قرار بگیرند. در این صورت حجم اطلاعات زیادی می تواند قابل دسترس برای کسانی که با تلفن های همراه یا معمولی سرو کار دارند ، ولی نمی توانند از شبکه های کامپیوتری استفاده کنند، باشد.
مرورگرهای صوتی یک رابط فعال با نگرش واقع گرایانه و عملی برای همه کاربران از جمله کاربرانی که نابینا هستند یا احتیاج به دسترسی به وب بدون استفاده از دست و چشم دارند ، می باشد. به عبارت دیگر مرورگرهای صوتی رابطی غیر بصری برای کاربران می باشد.
مرورگرهای صوتی درون عملیاتی (voice browser interoperation)
روشهایی را برای رساندن مفهوم هنگام انتقال کاربر از یک مرورگر صوتی به مرورگر صوتی دیگر توصیف می کنند. در این طرح ، کاربر می تواند کار خود را با یک رابط تصویری بر روی تلفن سلولی خود آغاز کند و از طریق یک سوییچ به یک نرم افزار سرویس دهنده Voice xml متصل شود.توانایی انتقال یک شناسه جلسه (session identifier) ، مرورگرهای صوتی را قادر می سازد تا کاربران پر اولویت و داده های وارد شده در رابط تصویری را جدا کنند. در پایان اینکه، کاربران می توانند از یک نرم افزار کاربردی Voice Xml به یک عامل سرویس دهنده خصوصی واگذار شوند. عامل سرویس دهنده احتیاج به استفاده از یک رابط ویژه خودشان برای بازبینی اطلاعات درباره مشتری ، هنگام کار نرم افزار کاربری Voice Xml ، می باشد. توانایی انتقال یک شناسه جلسه می تواند برای بازیابی این اطلاعات از بانک اطلاعات مشتریان استفاده شود. نیازمندیهای این بحث در 8 آگوست 2002 موجود است.
زبان نشانه گذاری گرامر (Grammer Markup Language)
این زبان(GML) با ورودی سیستم کار می کند. هدف این زبان فهم گفتار کاربر می باشد. به این زبان ، سیستم تشخیص گفتار هم می گویند . یعنی کلمات گفتار را تشخیص می دهد و صداهای بی معنی را حذف می کند.
زبان نشانه گذاری معنی شناس زبان طبیعی (The Natural Language Semantics Markup Language)
زبان NLSML بر اساس تکنیکهای پردازش زبان طبیعی و استخراج اطلاعات با استفاده از تکه تکه کردن جملات گفتاری ، استوار است . از این زبان برای نشان دادن معانی جملات گفتاری استفاده می شود (برای مثال مفعول ها و ضمایر اشاره گر به آنها را مشخص می کند) . اجزای سیستمهای خبره تشخیص زبانهای طبیعی دارای یک قابلیت قوی می باشند که هر گاه نتوانستند معنی تمام جمله گفته شده را تشخیص دهند ، آنگاه معنی قطعات قابل تشخیص جمله را بیان می کنند.
شکل 1 : ورودی صدا در مرورگرهای صوتی ابتدا تبدیل به متن می شود و سپس برای تشخیص معانی تجزیه می شود. سپس زبان GML به تشخیص مفهوم بیان کمک می کند . زبان نشانه گذاری محاوره و مدیر محاوره کاربر را ازطریق متن ها ی انتخاب شده به هدفش می رسانند.
زبان نشانه گذاری محاوره (Dialog Markup Language)
این زبان در ابتدا و انتهای سیستم انجام وظیفه می کند. این زبان نشانه گذاری در ورودی به کاربر پیغام می دهد و جملات ورودی را تا حد قابل قبولی متوجه می شود و کار را به مرحله بعدی واگذار می کند. زبان DML با مدیر محاوره همکاری می کند و ایندو مکالمه با کاربر را تولید میکنند.زبان DML و Dialog Manager کار خود را در دو حالت انجام می دهند :
1 – جهت دار(directed) : در این حالت سیستم سوالاتی را مطرح می کند و کاربر به آن پاسخ می دهد.
2 – آغازگر ترکیبی(mixed initiative): در این حالت سیستم و کاربر از همدیگر می توانند سوال کنند.
سیستمهای هوشمند دارای توانایی قطع کلام (Barge in) می باشند ، یعنی کاربر می تواند هنگامیکه سیستم مشغول صحبت کردن است به آن وقفه وارد کند.
شکل 2 : مدیر محاوره مکالمات به متن تبدیل می کند و زبان نشانه گذاری متن به کلام ،برچسب های نشانه (tags) رابرای تولید آوای کلام به متن اضافه می کند و سپس پیغام تولید شده از طریق اسپیکر پخش می شود.
زبان نشانه گذاری متن به کلام (Text-to-Speech Markup Language)
زبان نشانه گذاری متن به کلام (TTSML) در قسمت پایانی این زنجیره قرار می گیرد و متون xml را به کمک سنتز کننده کلام به صدا تبدیل می کند.
کارکرد اصلی زبان TTSML کنترل نظم کلام (prosodic control) می باشد . این عمل چیزی شبیه به زمانبندی کلام می باشد. بوسیله این زبان زیر و بمی صدا ، سکوتها ، سرعت کلام و تکیه کلام ها کنترل می شوند. بعضی از برچسب های نشانه برای تولید آواهای صوتی به متن اضافه می شود. به عنوان مثال برچسب <question> باعث می شود که سنتز کننده کلام جمله را به صورت سوالی بیان کند یا برچسب <exclaim> متن را با آوای تند و بلند بیان می کند.
زبان نشانه گذاری مولتی مودال(Multi-Modal Markup Language)
زبان نشانه گذاری مولتی مودال (MMML) با مدیر محاوره همکاری می کند. کار این زبان شبیه یک مامور عبور و مرور می باشد که کنترل ورودی هایی را که با فرمهای مختلف و از دستگاههای مختلف می آیند را انجام می دهد. درحالت تئوری ، یک مدیر محاوره باید توانایی کنترل و همراهی با (برای مثال) یک کاربر در یک برنامه سفارش بلیطهای خطوط هوایی در دریافت اطلاعات از طریق صدا ، صفحه کلید ، دکمه های روی تلفن یا دستگاههای نمایش قابل لمس (touch-screen display) را داشته باشد.
زبان کنترل کننده مکالمات صوتی(Call Control XML)
زبان ccxml برای تکمیل و اضافه شدن به سیستمهای voice xml بوجود آمده است. این زبان قابلیت ترکیب با زبان voicexml را دارد.اما به هر حال این دو زبان کاملآ ازهم مستقل بوده و نیازی به یکدیگر ندارند. برای مثال زبان ccxml امکان اضافه شدن به سیستمهای سنتی IVR را دارد و voicexml نیز توانایی اضافه شدن به بعضی سیستمهای کنترل صوتی را دارد. همچنین ccxml توانایی اضافه کردن توانایی های زیادی به voice xml می باشد که نیاز به عوض کردن مدل تلفنی نمی باشد و تنها احتیاج به مدیریت مجدد صدا و پردازش رخدادهای شبکه می باشد که آنها بطور طبیعی غیر تراکنشی هستند. این رخدادها می توانند توسط شبکه های تلفنی یا اجزای دیگری در شبکه های دیگر ایجاد شوند. این رخدادها می توانند در هر زمان و بدون در نظر گرفتن حالت فعلی مفسر voice xml رخ دهند و درخواست دستورات فوری کنند. ما می توانیم زبان voice xml را تا زمان بوجود آمدن این رخدادها و تقاضای سیستم برای پردازش آنها رها کنیم. یا اینکه تمام توابع کنترل صدا را از زبان جدا کرده و آنها را به عنوان یک برنامه ccxml همراه با برنامه اصلی ارائه دهیم. بنابراین زبان voice xml می تواند روی صدای گفتگوها متمرکز شود و بقیه مشکلات به عهده ccxml می باشد.
تمامى اصطلاحات ریز و درشت تلفن همراه
بخش اول
:G3
مخفف عبارت۳rd-generaion (نسل سوم) مى باشد. نسل اول گوشى هاى تلفن همراه به صورت آنالوگ در اواخر دهه ۸۰ و اوائل دهه ۹۰ به بازار عرضه شدند. نسل دوم تلفن هاى همراه، با تکنولوژى دیجیتال از اواخر دهه ۹۰ وارد میدان شدند. و اما نسل سوم که از سال ۲۰۰۳ میلادى مطرح شد، گوشى هاى تلفن همراه با قابلیت انتقال اطلاعات با سرعت هاى بسیار بالا، اتصال دائم به پایگاه هاى اطلاعاتى و کیفیت صداى بالاتر را به ارمغان آورد. علاوه بر این ها در گوشى هاى نسل سوم، امکانات پیچیده اى چون ارتباط تصویرى زنده با طرف مقابل گنجانده شده است. استانداردهاى مختلفى براى تکنولوژى۳ G وجود دارد. معروفترین آنها استاندارد UMTS است که بر پایه ساختار مخابراتى WCDMA بنا نهاده شده است.
:Alphanumeric Display
نوعى از صفحه نمایش در گوشى هاى تلفن همراه، که قابلیت نمایش حروف و اعداد را دارند ولى نمى توانند تصاویر گرافیکى را نمایش دهند.
:Bluetooth
نوعى شبکه بى سیم در محدوده شخصى (Wireless Personal Area Network) که امکان اتصال تلفنهاى همراه، کامپیوترها و سایر وسایل الکترونیکى را در فواصل نسبتا کوتاه بدون استفاده از سیم و از طریق فرکانس هاى رادیویى (با توان پایین) میسر مى سازد. بلوتوث این امکان را به شما مى دهد که گوشى خود را در جیبتان قرار دهید و به راحتى از طریق هدست بى سیم، به مکالمه بپردازید. همچنین از طریق بلوتوث مى توانید به تبادل اطلاعات و فایلهاى موجود در گوشى تان با
گوشى هاى نزدیک آن بپردازید.همچنین با توجه به مجهز شدن پرینترهاى جدید به این تکنولوژى، مى توانید عکس هایى که با گوشى تان گرفته اید، بدون نیاز به کامپیوتر و در زمان بسیار کوتاهى به پرینتر منتقل کرده و آنها را چاپ کنید.
:CDMA
مخفف عبارت Code Division Multiple Access مى باشد. نوعى از تکنولوژى دیجیتال بى سیم که انتقال صوت و دیتا را به طور همزمان بر روى یک فرکانس مهیا مى سازد. CDMA در واقع نسل دوم (۲ G) تلفن هاى همراه است که در کشورهاى کانادا، آمریکا، آسیاى شرقى و آمریکاى لاتین مورد استفاده قرار مى گیرد. امروزه اکثر شرکت هاى مخابراتى که از تکنولوژى CDMA استفاده مى کردند در حال مهاجرت به سمت تکنولوژى جدید انتقال پرسرعت اطلاعات با نام ۱xRTT هستند.
:Dual-Band
گوشى هایى که امکان استفاده از دو باند فرکانسى مختلف را مهیا مى سازند. در اروپا و خاورمیانه Dual-Band به معناى گوشى هایى است که از فرکانس هاى GSM900/GSM1800 پشتیبانى مى کنند و در ایالات متحده به معناى گوشى هایى است که از فرکانس هاى GSM850/GSM1800 و یا ترکیب دو باند فرکانسى دیگر پیشتیبانى مى کنند.
:EDGE
مخفف کلمه Enhanced Data rates for Global Evolution مى باشد. این تکنولوژى به طور مشترک توسط مجامع جهانى GSM و TDMA معرفى شده است و امکان انتقال صوت، دیتا و تصویر با سرعت ۳۸۴ کیلوبیت در ثانیه را در تلفن هاى همراه مهیا مى سازد (عملا سریعترین سیستم انتقال داده در سرویس هاى مخابراتى). EDGE بر پایه استاندارد هاى GSM بنا نهاده شده و از شیوه هاى تقسیم بندى پهناى باند در TDMA بهره مى گیرد.
:EMS
مخفف عبارت Enhanced Messaging Service است. ساختارى براى توسعه SMS مى باشد که ارسال ترکیبى از ملودى هاى ساده (مونوفونیک)، تصاویر (به صورت پیکسلى یا همان Picture Message)، اصوات، تصاویر متحرک و متن قالب بندى شده (تغییر سایز حروف، یا ایتالیک و بولد کردن آنها) به گوشى هاى دیگرى که داراى قابلیت EMS هستند را ممکن مى سازد.
1