یادگیری عمیق و کاربردهایش در پایش ماشینی سلامت

یادگیری عمیق و کاربردهایش در پایش ماشینی سلامت
چکیده
یادگیری عمیق (DL)، با سرعت، از سال 2006 به یک مسیر تحقیقاتی در حال رشد تبدیل شده و پیشرفتهترین کاراییها را در طیف وسیعی از زمینه ها از جمله تشخیص اشیا، بخشبندی تصویر، تشخیص گفتار و ترجمه ماشینی، بازتعریف می کند. در سیستم های تولیدی مدرن، پایش ماشینی سلامت های مبتنی بر داده به دلیل استقرار گسترده حسگرهای ارزان قیمت و اتصال آنها به اینترنت، محبوبیت زیادی دارد. در همین حال، یادگیری عمیق، ابزارهای مفیدی را برای پردازش و تحلیل این کلان دادههای ماشینی، فراهم میکند. هدف اصلی این مقاله، بررسی و خلاصه کردن کار تحقیقاتی نوظهور یادگیری عمیق در پایش ماشینی سلامت است. پس از معرفی کوتاه تکنیک های یادگیری عمیق، استفاده از یادگیری عمیق در سیستم های پایش ماشینی سلامت، عمدتا از جنبه های زیر بررسی می شوند: خود رمزگذار (AE) و انواع آن، ماشین های بولتزمن محدود شده و انواع آن از جمله شبکه باور عمیق (DBN) و ماشین های بولتزمن عمیق (DBM)، شبکه های عصبی کانولوشن (CNN) و شبکه های عصبی بازگشتی (RNN). علاوه بر این، یک مطالعه تجربی بر روی کارایی این رویکردها انجام شده که در آن داده ها و کد، به صورت آنلاین بوده است. در نهایت، برخی از روندهای جدید روشهای پایش ماشینی سلامت مبتنی بر DL مورد بحث قرار می گیرند.
کلمات کلیدی: یادگیری عمیق، پایش ماشینی سلامت، دادههای بزرگ

فهرست مطالب
1. مقدمه
2. یادگیری عمیق
2.1. خود رمزگذارها (AE) و انواع آن
2.1.1. اضافه شدن پراکندگی
2.1.2. افزدن نویز زدایی
2.1.3. ساختار استکینگ
2.2. RBM و انواع آن
2.2.1. شبکه باور عمیق
2.2.2. ماشین بولتزمن عمیق
2.3. شبکه عصبی کانولوشن
2.3.1.کانولوشن
2.3.2. تجمیع (پولینگ)
2.4. شبکه عصبی بازگشتی
2.5. روشهای بهینهسازی شبکههای عصبی
3. کاربردهای یادگیری عمیق در پایش ماشینی سلامت
3.1. AE و انواع آن برای پایش ماشینی سلامت
3.2. RBM و انواع آن برای پایش ماشینی سلامت
3.3. CNN برای پایش ماشینی سلامت
3.4. RNN برای پایش ماشینی سلامت
3.5. استخراج مشخصه خطا برای MHMS مبتنی بر DL
3.5.1. حوزه زمانی
3.5.2. حوزه فرکانس
3.5.3. حوزه زمانی-فرکانس
4. ارزیابی های تجربی از تکنیک های مختلف DL
4.1. جزئیات پیادهسازی
4.2. نتایج تجربی
5. خلاصه و مسیرهای آینده
تصدیق
منابع

مقدمه
اینترنت اشیا صنعتی (IoT) و تکنیک های مبتنی بر داده ها با قادر ساختن شبکه های رایانه ای برای جمع آوری حجم عظیمی از داده ها از ماشین هایی که به آنها متصل هست و تبدیل داده های ماشینی بزرگ به اطلاعات عملی، انقلابی در تولید ایجاد کرده اند [1-3]. به عنوان یک مولفه کلیدی در سیستم تولید مدرن، پایش ماشینی سلامت به طور کامل، انقلاب کلان داده را پذیرفته است. در مقایسه با مدل سازی از بالا به پایین ارائه شده توسط مدل های مبتنی بر فیزیک سنتی [4-6]، سیستم های پایش ماشینی سلامت داده محور، الگوی جدیدی از راه حل از پایین به بالا را برای تشخیص عیوب پس از وقوع خرابی های خاص (تشخیص) و پیش بینی شرایط کاری آینده و عمر مفید باقیمانده (پیش بینی)، پیشنهاد داده است [1،7]. همانطور که همه میدانیم، شرایط کاری پیچیده و پر سر و صدا، مانعی برای ساخت مدلهای فیزیکی میشود که مدل سازی سیستمهای پیچیده دینامیکی را بسیار دشوار میسازد [8،9]. اکثر این مدل های مبتنی بر فیزیک، نمی توانند با داده های اندازه گیری شده آنلاین به روزرسانی شوند، که در نتیجه اثربخشی و انعطاف پذیری آنها را محدود می کند. از سویی، با توسعه چشمگیر حسگرها، شبکه های حسگر و سیستم های محاسباتی، مدل های پایش ماشینی سلامت مبتنی بر داده، بسیار جذاب شده اند. برای استخراج دانش مفید و تصمیمگیری مناسب از کلان داده ها، تکنیک های یادگیری ماشینی به عنوان یک راه حل قدرتمند در نظر گرفته شده است. به عنوان داغ ترین شاخه فرعی یادگیری ماشینی، یادگیری عمیق می تواند به عنوان پلی برای اتصال کلان داده های ماشینی و پایش هوشمند ماشینی سلامت، عمل کند.
به عنوان شاخهای از یادگیری ماشین، یادگیری عمیق، سعی میکند تا یک ارائه سلسله مراتبی را در پشت دادهها مدلسازی کند و الگوها را از طریق چندین لایه استکینگ از ماژولهای پردازش اطلاعات در معماریهای سلسله مراتبی طبقه بندی کند (پیش بینی). اخیرا، یادگیری عمیق، به طور موفقیتآمیزی در زمینه های مختلفی مانند بصری رایانه، تشخیص خودکار گفتار، پردازش زبان طبیعی، تشخیص صدا و بیوانفورماتیک، مورد استفاده قرار گرفته است [10-13]. در واقع، یادگیری عمیق، ایده جدیدی نیست و آن حتی به دهه 1940 بر میگردد [14،15]. محبوبیت امروزه یادگیری عمیق میتواند به جنبههای زیر کمک کند:
* افزایش قدرت محاسباتی: ظهور واحد پردازشگر گرافیکی (GPU)، کاهش هزینه سخت افزار، زیرساخت نرم افزاری بهتر و اتصال سریعتر به شبکه، همه این موارد، زمان اجرای مورد نیاز الگوریتمهای یادگیری عمیق را به میزان قابل توجهی کاهش میدهند. به عنوان مثال، همانطور که در [16] گزارش شده، زمان مورد نیاز برای یادگیری یک شبکه باور عمیق چهار لایه با 100 میلیون پارامتر آزاد میتواند از چند هفته به حدود یک روز کاهش یابد.
* افزایش حجم دادهها: شکی نیست که عصر کلان داده، در راه است. تقریبا همه فعالیت های ما دیجیتالی شده، توسط رایانه ها و حسگرها ضبط شده، به اینترنت متصل شده و در فضای ابری ذخیره می شوند. همانطور که در [1] اشاره شد که در کاربردهای مرتبط با صنعت مانند انفورماتیک صنعتی و الکترونیک، تقریباً 1000 اگزابایت در سال تولید می شود و در ده سال آینده می توان یک افزایش 20 برابری را متصور بود. مطالعه در [3] پیش بینی می کند که 30 میلیارد ماشین تا سال 2020 به هم متصل خواهند شد. بنابراین، حجم عظیمی از داده ها قادر به جبران افزایش پیچیدگی پشت یادگیری عمیق و بهبودی قابلیت تعمیم آن هستند.
* تحقیقات یادگیری عمیق پیشرفته: اولین نقطه عطف در یادگیری عمیق، روش پیش آموزشی به روشی بدون نظارت است [17]، جایی که هینتون پیشنهاد داد که یک لایه در یک زمان از طریق ماشین بولتزمن محدود شده (RBM)، از قبل آموزش داده شود و سپس با استفاده از پس انتشار در سال 2007، تنظیم دقیق شود. آن ثابت شده که این برای آموزش شبکههای عصبی چند لایه، موثر است.
با توجه به قابلیت یادگیری عمیق برای پرداختن به داده ها در مقیاس بزرگ و یادگیری نمایش چندمقیاسی/چند سطحی/سلسله مراتبی، یادگیری عمیق میتواند راه حلی قدرتمند و موثر برای سیستمهای پایش ماشینی سلامت (MHMS) باشد. MHMS مبتنی بر داده رایج، به طور معمول شامل بخش های کلیدی زیر است: طراحی ویژگی دست ساز، استخراج/انتخاب ویژگی و آموزش مدل. مجموعه مناسبی از ویژگی ها طراحی شده و سپس برای برخی از الگوریتم های یادگیری ماشین کم عمق شامل ماشین های بردار پشتیبان (SVM)، بیز ساده (NB)، رگرسیون لجستیک [18-20] ارائه می شود. همچنین مشخص شده که نمایش داده ها، که برای الگوریتمهای یادگیری ماشینی، ارائه میشود، کارایی را محدود میکند [21]. با این حال، طراحی ویژگیهای مناسب و انجام انتخاب ویژگی، دشوار است. برای کم کردن این مشکل، روش های استخراج/انتخاب ویژگی، که می تواند به عنوان نوعی آمیختگی اطلاعاتی در نظر گرفته شود، بین طراحی ویژگی دست ساز و مدل های طبقه بندی/رگرسیون، انجام بگیرد [22-24]. با این حال، طراحی دستی ویژگی ها برای یک دامنه پیچیده به نیروی انسانی زیادی نیاز دارد و نمی توان آن را به صورت آنلاین به روزرسانی کرد. علاوه بر این، به تخصص قابل توجهی از کارورز نیز نیاز دارد که همیشه در دسترس نیست. در نهایت، سه ماژول فوق شامل طراحی ویژگی، استخراج/انتخاب ویژگی و آموزش مدل، نمیتوانند به طور مشترک بهینه شوند که در نتیجه ممکن است مانع از کارایی نهایی کل سیستم شود. هدف MHMS مبتنی بر یادگیری عمیق (MHMS مبتنی بر DL)، استخراج تمثالهای سلسله مراتبی از دادههای ورودی با ساخت شبکههای عصبی عمیق با چند لایه تغییرشکلهای غیر خطی است. به طور شهودی، عملیات یک لایه را میتوان به عنوان تبدیل از مقادیر ورودی به مقادیر خروجی در نظر گرفت. بنابراین، استفاده از یک لایه می تواند نمایش جدیدی از داده های ورودی را بیاموزد و سپس، ساختار استکینگ چندین لایه می تواند MHMS را قادر سازد تا مفاهیم پیچیده را از مفاهیم ساده ای که می توان از ورودی خام ساخت، استنتاج کند. علاوه بر این، MHMS مبتنی بر DL به یک سیستم سرتاسری دست پیدا می کند که می تواند به طور خودکار بازنمایی های داخلی را از ورودی خام بیاموزد و اهداف را پیش بینی کند. در مقایسه با MHMS مبتنی بر دادههای مرسوم، MHMS مبتنی بر DL برای طراحی ویژگیهای دست ساز به نیروی انسانی و دانش گسترده نیاز ندارد. همه پارامترهای مدل از جمله ماژول ویژگی و ماژول طبقه بندی/رگرسیون الگو را می توان به طور مشترک، آموزش داد. بنابراین، مدل های مبتنی بر DL را می توان برای رسیدگی به پایش ماشینی سلامت با روشی بسیار کلی به کار برد. به عنوان مثال، این امکان وجود دارد که مدل آموزش دیده برای مشکل تشخیص عیب را بتوان، تنها با جایگزینی لایه بیشینه هموار همراه بالایی با یک لایه رگرسیون خطی که نیاز به آموزش مجدد دارد، برای پیشآگهی، استفاده کرد [25]. مقایسه بین MHMS مبتنی بر داده های رایج و MHMS مبتنی بر DL در جدول 1 ارائه شده است. یک تصویر سطح بالا از اصول ورای این سه نوع MHMS که در بالا مورد بحث قرار گرفت در شکل 1 نشان داده شده است.

مدلهای یادگیری عمیق دارای چندین نوع مختلف مانند خود رمزگذارها [26]، شبکه باور عمیق [27]، ماشین های بولتزمن عمیق [28]، شبکه های عصبی کانولوشن [29] و شبکه های عصبی بازگشتی [30] میباشند. در طول سال های اخیر، محققان مختلف، موفقیت این مدل های یادگیری عمیق را در کاربرد پایش ماشینی سلامت نشان داده اند. این مقاله تلاش می کند یک نمای کلی از آخرین کارهای MHMS مبتنی بر DL ارائه دهد که بر فناوری های پیشرفته تاثیر می گذارد. در مقایسه با این مرزهای یادگیری عمیق از جمله بصری کامپیوتری و پردازش زبان طبیعی، جامعه پایش ماشینی سلامت در حال پیشرفت است و شاهد یک تحقیق در حال ظهور میباشد. بنابراین، هدف از این مطالعه، ارائه محققان و مهندسین در زمینه سیستم پایش ماشینی سلامت، دیدگاهی جهانی از این موضوع داغ و فعال و کمک به آنها در کسب دانش اولیه، به کارگیری سریع مدل های یادگیری عمیق و توسعه MHMS مبتنی بر DL جدید میباشد. ادامه این مقاله به شرح زیر تنظیم شده است. اطلاعات اولیه در مورد این مدل یادگیری عمیق که در بالا ذکر شد در بخش 2 آورده شده است. سپس، بخش 3 به بررسی کاربرد مدل های یادگیری عمیق در پایش ماشینی سلامت، میپردازد. در بخش 4، یک مطالعه تجربی در یک کار پیش بینی خوردگی ابزار انجام شده است. در نهایت، بخش 5، خلاصه ای از دستاوردهای اخیر MHMS مبتنی بر DL ارائه می کند و برخی از روندهای بالقوه یادگیری عمیق در پایش ماشینی سلامت را مورد بحث قرار می دهد.
به عنوان یک مقاله مروری، یک بررسی جامع از تلاش های تحقیقاتی اخیر بر روی سیستم پایش ماشینی سلامت مبتنی بر یادگیری عمیق ارائه می شود تا تصویر کاملی از تحقیقات مرتبط با بهترین فناوریهای روز را برای خوانندگان ارائه کند و نوآوری بالقوه در این زمینه را تقویت کند. علاوه بر این، پیاده سازی چندین MHMS مبتنی بر DL، که عمومی میباشد و محققان/مهندسان می توانند به سرعت این موضوع را درک کنند و به حوزه تحقیقات MHMS مبتنی بر DL کمک کند.
2. یادگیری عمیق
یادگیری عمیق که از شبکه عصبی مصنوعی نشات گرفته است، شاخهای از یادگیری ماشینی است که توسط پردازش غیرخطی چندلایه، مشخص میشود و سعی میکند نمایش سلسله مراتبی داده ها را آموزش دهد. تا به امروز، معماری های مختلف از یادگیری عمیق وجود دارد و این موضوع تحقیقاتی به سرعت در حال رشد است، و در آن مدل های جدید حتی هر هفته توسعه می یابند. جامعه، کاملا باز است و تعدادی آموزش یادگیری عمیق و کتاب با کیفیت خوب وجود دارد [31،32]. بنابراین، تنها یک مقدمه کوتاه برای برخی تکنیکهای اصلی یادگیری عمیق که در پایش ماشینی سلامت به کار گرفته شده، ارائه میشود. در ادامه، چهار سبک عمیق شامل خودرمزنگار ، RBM، CNN، RNN و انواع مربوط به آنها بررسی می شود.
2.1. خودرمزنگار ها (AE) و انواع آن
به عنوان یک شبکه عصبی پیشخور، خودرمزنگار ، از دو فاز شامل رمزگذار و رمزگشا تشکیل شده که برای یادگیری نمایش جدیدی از دادهها با تلاش برای بازسازی دادههای ورودی طراحی شده است. رمزگذار، یک ورودی x را میگیرد و آن را از طریق نگاشت غیرخطی به صورت شکل زیر به یک ارائه پنهان h تبدیل میکند:

در اینجا، یک تابع فعال سازی غیرخطی است. توابع فعالسازی رایج شامل بیشینه هموار (softmax)، relu، tanh، حلقوی (sigmoid) و غیره هستند. سپس، رمزگشا ارائه پنهان را به شکلی مشابه شکل زیر برای نمایش اصلی نگاشت (نقشه برداری) میکند:

پارامترهای مدل شامل برای به حداقل رساندن خطای بازسازی بین و x بهینه شدهاند. یکی از معیارهای رایج برای میانگین خطای بازسازی در مجموعه ای از نمونه داده N، خطای مربع است و مسئله بهینهسازی مربوطه را میتوان به صورت زیر نوشت:

که در اینجا xi نمونه iام است. آن به وضوح نشان داده که AE را میتوان به روشی بدون نظارت آموزش داد. ارائه پنهان h را می توان به عنوان نمایشی انتزاعی و معنادار برای نمونه داده x در نظر گرفت.
2.1.1. اضافه شدن پراکندگی
برای جلوگیری از تبدیل آموخته شده به هویت و منظم کردن خودرمزنگار ها، محدودیت پراکندگی بر واحدهای پنهان اعمال می شود [33]. تابع بهینه سازی مربوطه به صورت زیر به روز می شود:

در اینجا، m اندازه لایه پنهان است، جمله دوم مجموع واگرایی KL بر روی واحدهای پنهان و وزن کنترل کننده برای اصطلاح جریمه پراکندگی است. واگرایی KL در نورون پنهان jام، به صورت زیر مشخص میشود:

که در اینجا، p میانگین هدف فعال سازی از پیش تعریف شده و pj میانگین فعال سازی نورون پنهان jام در کل مجموعه داده است. با توجه به کوچک بودن p، اضافه کردن محدودیت پراکندگی میتواند ارائه پنهان آموخته شده را به یک ارائه پراکنده، تبدیل کند. بنابراین، نوع AE به عنوان خودرمزنگار پراکنده، نامگذاری شده است.
2.1.2. اضافه شدن نویز زدایی
جدا از AE رایج، حذف نویز AE، یک نسخه خراب از دادهها را به عنوان ورودی در نظر میگیرد و آموزش میبیند که ورودی x تمیز را از نمونه خراب x~ خود، بازسازی یا نویززدایی کند. متداولترین نویز پذیرفته شده نویز حذفی یا نویز با پوشش باینری است که به طور تصادفی، کسری از ویژگیهای ورودی را صفر میکند [26]. نوع AE، خودرمزنگار حذف نویز (DA) است که می تواند ارائه قوی تری را بیاموزد و از یادگیری تبدیل هویت، جلوگیری کند.
2.1.3. ساختار استکینگ
چندین DA را میتوان در کنار هم قرار داد تا یک شبکه عمیق را شکل دهند و با تغذیه خروجیهای لایه lام به عنوان ورودی برای لایه (1+l)ام، ارائههایی را بیاموزند [26]. و بالطبع، آموزش، بصورت یک لایه حریصانه در طی زمان انجام میگیرد.
از آنجایی که خودرمزنگار را میتوان به روشی بدون نظارت آموزش داد، خودرمزنگار، به ویژه خودرمزنگار حذف نویز استکینگ (SDA)، میتواند یک راه حل موثر پیش آموزش را از طریق مقداردهی اولیه وزن شبکه عصبی عمیق (DNN) برای آموزش مدل ارائه دهد. پس از آموزش لایه ای SDA، پارامترهای خودرمزنگار را می توان روی مقدار اولیه برای تمام لایه های پنهان DNN تنظیم کرد. سپس، تنظیم دقیق پایش شده برای به حداقل رساندن خطای پیش بینی بر روی داده های آموزشی برچسب گذاری شده، انجام می شود. معمولاً یک لایه رگرسیون/بیشینه هموار در بالای شبکه اضافه می شود تا خروجی آخرین لایه در AE را برای اهداف نشان دهد. کل فرآیند در شکل 2 نشان داده شده است. پروتکل پیشآموزشی مبتنی بر SDA میتواند سبب این مساله شود که مدلهای DNN در مقایسه با مقداردهی اولیه تصادفی دلخواه، قابلیت همگرایی بهتری داشته باشند. لازم به ذکر است، آموزش شبکههای عصبی عمیق به دلیل توابع فعالسازی غیرخطی tanh یا سیگموئید معمولا از مشکلات غیب شدن/انفجار، رنج میبرد. بنابراین، آموزش بدون نظارت فعال شده توسط AE، معنادار و قدرتمند است. با اینحال، فعال سازی relu که در سال 2012 پیشنهاد شد، ، این مشکل را برطرف کرد. آموزش نظارتی بر شبکههای عصبی عمیق مانند شبکه عصبی کانولوشن عمیق و شبکه عصبی بازگشتی، امکان پذیر شد (شکل 3 را ببینید).

2.2. RBM و انواع آن
به عنوان یک شکل خاص از میدان تصادفی مارکوف، ماشین بولتزمن محدود شده(RBM)، یک شبکه عصبی دولایه است که یک نمودار دو بخشی را شکل میدهد که از دو گروه واحد شامل واحدهای مرئی v و واحدهای پنهان h، تحت محدودیت وجود یک اتصال متقارن، تشکیل شده است. در بین واحدهای مرئی و واحدهای پنهان، ارتباطی بین گرهها با یک گروه، وجود ندارد. با توجه به پارامترهای مدل ، تابع انرژی را میتوان به صورت زیر مشخص نمود:

که در اینجا، wij وزن متصل بین واحد مرئی vi است که عدد کل آن I است و واحد پنهان hj که عدد کل آن به ترتیب J، bi و aj است و آنها بیانگر اصطلاحات بایاس برای واحدهای مرئی و واحدهای پنهان هستند. توزیع مشترک بر روی تمام واحدها، بر اساس تابع انرژی به صورت زیر محاسبه می شود:

در اینجا تابع تقسیم یا ضریب نرمالیدن است. سپس، احتمالات شرطی واحدهای پنهان و مرئی h و v را میتوان به صورت زیر محاسبه کرد:

که در اینجا، به عنوان یک تابع لجستیک تعریف میشود، یعنی . RBM، برای به حداکثر رساندن احتمال مشترک آموزش داده شده است. یادگیری W از طریق روشی به نام واگرایی متضاد (CD) انجام میگیرد [34].
2.2.1. شبکه باور عمیق
شبکه باور عمیق (DBN) را میتوان با روی هم انباشتن چندین RBM ساخت، که در آن خروجی لایه lام (واحدهای پنهان) به عنوان ورودی لایه (1+l)ام (واحدهای مرئی) استفاده میشود [35]. مشابه SDA، DBN را میتوان به روشی حریصانه و بدون نظارت لایهای، آموزش داد. پس از پیش آموزش، پارامترهای این سبک عمیق را می توان با توجه به یک پروکسی برای احتمال ورود به سیستم DBN و یا با توجه به برچسب های داده های آموزشی با افزودن یک لایه بیشینه هموار به عنوان لایه بالایی تنظیم کرد که در شکل 2(b)، نشان داده شده است.
2.2.2. ماشین بولتزمن عمیق
شبکه بولتزمن عمیق (DBM) را میتوان به عنوان یک RMB با ساختار عمیق در نظر گرفت که در آن واحدهای پنهان به جای یک لایه واحد در سلسله مراتبی از لایهها گروهبندی میشوند [28]. به دنبال محدودیت اتصال RMBها، تنها، اتصال کامل بین لایه های بعدی وجود دارد و هیچ اتصالی درون لایه ها یا بین لایه های غیرمجاور، مجاز نیست. تفاوت اصلی بین DBN و DBM در این است که DBM یک مدل گرافیکی کاملا بدون جهت است، در حالی که DBN، یک مدل ترکیبی جهت دار/غیر جهتدار است. جدا از DBN که میتواند به صورت لایهای آموزش داده شود، DBM به عنوان یک مدل مشترک، آموزش داده میشود. بنابراین، آموزش DBM از نظر محاسباتی گرانتر از DBN است.
2.3. شبکه عصبی کانولوشن
شبکه های عصبی کانولوشن (CNN) در ابتدا توسط LeCun [36] برای تصویر پردازی پیشنهاد شد که توسط دو ویژگی کلیدی یعنی وزن های مشترک فضایی و تجمیع (پولینگ) فضایی، مشخص می شود. مدل های CNN موفقیت خود را در برنامه های مختلف بصری کامپیوتری، نشان داده اند [36-38] که به طور معمول در آن داده های ورودی، دوبعدی هستند. همچنین CNN برای رسیدگی به دادههای متوالی از جمله پردازش زبان طبیعی و تشخیص گفتار، معرفی شده است [39،40].
هدف CNN یادگیری ویژگیهای انتزاعی با لایههای کانولوشن متناوب و استکینگ و لایههای تجمیع شده است. در CNN، لایه های کانولوشن (هسته های کانولوشن)، چندین فیلتر موضعی را با داده های ورودی خام ترکیب و ویژگی های موضعی غیرمتغیر ترجمه را ایجاد می کنند و لایه های ادغامی بعدی، ویژگی هایی با طول ثابت بر روی پنجره های کشویی داده های ورودی خام همراه با رعایت چندین قانون مانند میانگین، ماکزیمم و غیره، استخراج می کنند. با توجه به اینکه 2D-CNN در تحقیقات قبلی و در مقایسه با 1D-CNN، به طور گسترده نشان داده شد، در اینجا، فقط جزئیات ریاضی مربوط به 1D-CNN، به شرح زیر ارائه میشود:
اولا، فرض کنید که دادههای ترتیبی ورودی است که T طول دنباله و در هر مرحله زمانی، قرار دارد.
2.3.1. کانولوشن
حاصل ضرب نقطهای بین بردار فیلتر و ارائه بردار الحاقی ، عملیات کانولوشن را به صورت زیر تعریف میکند:

که در اینجا نشان دهنده حاصلضرب نقطه ای b و u است که آنها به ترتیب عبارت بایاس و تابع فعال سازی غیرخطی را نشان می دهند. یک پنجره طولی است که از مرحله زمانی iام شروع میشود و به شرح زیر است:

در اینجا، ، عملیات الحاقی دو بردار است. همانطور که در معادله (10) تعریف شد، مقیاس خروجی ci را میتوان به عنوان فعال شدن فیلتر u بر روی توالی مربوطه در نظر گرفت. با کشیدن پنجره فیلترینگ از مرحله زمانی شروع تا مرحله زمانی پایانی، میتوان یک نگاشت ویژگی را به صورت برداری ارائه داد:

در اینجا، شاخص j نمایانگر فیلتر jام است. آن مربوط به چند پنجره به صورت است.
2.3.2. تجمیع (pooling)
لایه تجمیع میتواند طول نگاشت ویژگی را کاهش دهد، که می تواند تعداد پارامترهای مدل را بیشتر، به حداقل برساند. این عملیات تجمیع رایج شامل تجمیع ماکزیمم و میانگین است. در ادامه، تجمیع ماکزیمم به تفصیل توضیح داده شده است. ابرپارامتر لایه تجمیعی، طول تجمیع است که با s نشان داده میشود. عملیات ماکزیمم به این صورت است که یک مقدار بیش از مقادیر متوالی s در نگاشت ویژگی cj، گرفته میشود.
سپس، بردار ویژگی فشرده را میتوان به صورت زیر بدست آورد:

در اینجا، است. سپس از طریق تناوب دو لایه بالا: لایههای کانولوشن و تجمیعی حداکثر، لایههای کاملا متصل و یک لایه بیشنیه هموار، به طور معمول به عنوان لایههای بالایی برای پیش بینی، اضافه می شوند. برای ارائه یک تصویر واضح، چارچوبی برای یک CNN یک لایه در شکل 4، نمایش داده شده است.

2.4. شبکه عصبی بازگشتی
همانطور که در فرمول [14] بیان شد، شبکه های عصبی بازگشتی (RNNها)، عمیق ترین شبکه های عصبی هستند که می توانند حافظه های دنباله ای با طول دلخواه را از الگوهای ورودی، تولید و آدرس دهی کنند. RNN، قادر به ایجاد ارتباط بین واحدهای ناشی از چرخه مستقیم هست. جدا از شبکه عصبی پایه، پرسپترون چندلایه که فقط میتواند از دادههای ورودی برای بردارهای هدف، نقشهبرداری انجام دهد، RNN قادر است از کل تاریخچه ورودیهای قبلی به بردارهای هدف، نقشه برداری انجام دهد و اجازه میدهد تا حافظه ورودیهای قبلی در وضعیت داخلی شبکهها، نگهداری شود. RNNها را میتوان از طریق پس انتشار در طول زمان برای وظایف پایش شده همراه با داده های ورودی متوالی و خروجی های هدف، آموزش داد [41،30،42].

همانطور که در شکل 5 (a) نشان داده شده، RNN میتواند دادههای متوالی را با استفاده از حافظه داخلی خود آدرسدهی کند. تابع گذار تعریف شده در هر مرحله زمانی t، اطلاعات زمان جاری xt و خروجی پنهان قبلی ht-1 را میگیرد و خروجی پنهان فعلی را به صورت زیر به روز میکند:

در اینجا، H به عنوان تابع تبدیل غیرخطی و قابل تمایز، تعریف میشود. پس از پردازش کل توالی، خروجی پنهان در آخرین مرحله زمانی، یعنی hT، ارائه آموخته شده دادههای ترتیبی ورودی است که طول آن T است. یک پرسپترون چندلایه معمولی (MLP) در بالا اضافه میشود تا ارائه به دست آمده hT برای هدف را ترسیم کند.
توابع مختلف گذار میتوانند، به مدلهای مختلف RNN منجر شوند. سادهترین آنها RNN وانیلی است که به شرح زیر ارائه میشود:

که در اینجا، W و H نشان دهنده ماتریسهای تبدیل و b بردار بایاس است. و نشان دهنده تابع فعال سازی غیرخطی مانند توابع سیگموئید و tanh است. با توجه به مساله گرادیان ناپدید شده در طول پس انتشار برای آموزش مدل، RNN وانیلی ممکن است وابستگی های طولانی مدت را ضبط نکند. بنابراین، حافظه بلندمدت (LSTM) و واحدهای بازگشتی گیتی (GRU) برای جلوگیری از ناپدید شدن یا انفجار خطاهای منتشر شده، ارائه شدند [43-47]. ایده اصلی پشت این گونه های پیشرفته RNN این است که گیت ها برای جلوگیری از مشکل وابستگی طولانی مدت معرفی شده و هر واحد تکراری را قادر می سازد تا وابستگی ها در مقیاس های زمانی مختلف را به طور سازگارانه، ضبط کند.
علاوه بر این توابع انتقال پیشنهادی پیشرفته، مانند LSTM و GRU، ساختار چندلایه و دو جهته بازگشتی، می تواند ظرفیت و انعطاف پذیری مدل را افزایش دهد. همانطور که در شکل 5(b) نشان داده شده، ساختار چند لایه میتواند خروجی پنهان یک لایه بازگشتی را قادر بسازد در طول زمان، منتشر شود و به عنوان داده ورودی برای لایه بازگشتی بعدی استفاده شود. همانطور که در شکل 5(c) نشان داده شده، ساختار برگشتی دو طرفه قادر است دادههای دنباله را در دو جهت شامل مسیرهای جلو و عقب با دو لایه مخفی مجزا، پردازش کند. معادلات زیر تابع لایه پنهان مربوطه و به همین ترتیب فرآیندهای جلو و عقب را نشان میدهند.

سپس، بردار نهایی hT، بردار الحاقی خروجیهای فرآیندهای جلو و عقب است که به شرح زیر است:

2.5. روشهای بهینه سازی شبکه های عصبی
برای یادگیری پارامترهای بهینه برای مدلهای شبکه عصبی، کاهش گرادیانی پرکاربردترین روش است. کاهش گرادیانی برای به حداقل رساندن یک تابع هدف با به روز رسانی پارامترهای در جهت مخالف گرادیان تابع هدف به پارامترها انجام میشود، که در آن از نرخ یادگیری برای کنترل اندازه مراحل تا حصول یک حداقل، استفاده میشود. مروری بر روش های مختلف بهینه سازی کاهش گرادیانی برای مدل های یادگیری عمیق، در اینجا ارائه شده است [48]. با این حال، یک نکته مشکلساز این است که مقدار اولیه وزن بر همگرایی تاثیر میگذارد به طوری که لازم است طرح اولیه سازی پارامترهای مناسب برای مدل، انتخاب شود [49].
3. کاربردهای یادگیری عمیق در پایش ماشینی سلامت
سال های متوالی، MLP رایج، در زمینه پایش ماشینی سلامت استفاده می شود [50-53]. به تازگی، تکنیکهای یادگیری عمیق در تعداد زیادی از سیستمهای پایش ماشینی سلامت، بکار گرفته شده است. پیش آموزش لایه به لایه DNN بر اساس AE یا RBM می تواند آموزش DNN را تسهیل ببخشد و قدرت تمایز آن را برای توصیف داده های ماشینی بهبود بخشد. CNN و RNN، مکانیزم ترکیبی پیشرفته تر و پیچیده تری را برای یادگیری بازنمایی از داده های ماشینی، ارائه می کنند. در این سیستمهای MHMS مبتنی بر DL، لایه بالایی معمولا اهداف را نشان میدهند. برای تشخیص جایی که در آن اهداف مقادیر گسسته هستند، لایه بیشنیه هموار، اعمال میشود. برای پیش آگهی همراه با اهداف پیوسته، لایه رگرسیون خطی اضافه میشود. علاوه بر این، ساختار سرتاسری، MHMS مبتنی بر DL را قادر می سازد با نیروی انسانی کمتر و دانش متخصص ساخته شود، بنابراین این مدل ها به تجهیزات یا حوزه خاصی، محدود نمی شوند. در ادامه، بررسی مختصری در مورد MHMS مبتنی بر DL در این چهار سبک DL یعنی AE، RBM، CNN و RNN، صورت میگیرد.
3.1. AE و انواع آن برای پایش ماشینی سلامت
مدل های AE، به ویژه DA انباشته، می توانند نمایش هایی را از داده های ماشین به صورت خودکار یاد بدهند. سان و همکاران یک شبکه عصبی مبتنی بر AE یک لایه را برای طبقهبندی خطاهای موتور القایی، پیشنهاد کرد [54]. با توجه به اندازه محدود دادههای آموزشی، آنها برای جلوگیری از بیشبرازش، متمرکز شدند. نه تنها تعداد لایه های پنهان بر روی 1 تنظیم شد، بلکه تکنیک حذف که بخش هایی از نورون های خروجی را به طور تصادفی پنهان می کند، بر روی لایه پنهان اعمال شد. کل مدل در شکل 6 نشان داده شده است. اکثر مدلهای پیشنهادی بر اساس سبکهای عمیق با انباشتن چند خودرمزنگار هستند. به عنوان مثال، لو و همکاران، یک مطالعه تجربی دقیق از خودرمزنگارهای حذف نویز انباشته با سه لایه پنهان برای تشخیص عیب اجزای ماشین های دوار، پیشنهاد نمودند[55]. به طور خاص، در آزمایش های آنها که شامل شرایط کاری واحد که داده های آموزش و آزمایش در یک شرایط عملیاتی مشترک هستند و داده های آزمایشی و آموزشی از دو شرایط عملیاتی متفاوت، نمونه برداری شدند، اثربخشی معماری عمیق، محدودیت پراکندگی و عملیات حذف نویز در مدل SDA ارزیابی شدند. آنها پیشنهاد کردند که سه لایه پنهان با معیار پراکندگی 0.15 و سطح تخریب 0.25، بهینه باشد. در [56]، ساختارهای مختلف یک DNN مبتنی بر SAE دو لایه با تغییر اندازه لایه پنهان و احتمال پوشاندن آن طراحی شد و برای کارایی آنها در تشخیص عیب، ارزیابی شد.

در آثار فوق، ویژگیهای ورودی برای مدلهای AE، سریهای زمانی حسی خام هستند. بنابراین، ابعاد ورودی همیشه بیش از صد، حتی هزار است. ابعاد احتمالی بالا ممکن است به برخی نگرانی های بالقوه مانند هزینه محاسبات سنگین و بیشبرازش ناشی از پارامترهای ابر مدل، منجر شود. بنابراین، برخی از محققان بر روی مدل های AE مبتنی بر ویژگی های استخراج شده از ورودی خام، تمرکز کردند. جیا و همکاران دامنه فرکانس داده های سری زمانی را به SAE، برای تشخیص ماشین های دوار، تغذیه نمودند [57]، با در نظر گرفتن این مساله که دامنه فرکانس، می تواند نشان دهد که چگونه اجزای سازنده آن ها با فرکانس های گسسته توزیع می شوند و ممکن است نسبت به شرایط سلامت ماشین های دوار، متمایزتر باشند. در [58]، سان و همکاران، از تکنیکهای سنجش فشرده برای استخراج ویژگیهای کم بعدی ناشی از سیگنال سری زمانی خام به عنوان ویژگیهای ورودی در مدلهای SAE-DNN، استفاده کردند. در [59]، ژو و همکاران. سه SAE-DNN آبشاری پیشنهاد کردند که هر ماژول به ترتیب برای طبقه بندی پارتیشن حالت، طبقه بندی مکان منبع خطا و تشخیص شدت خطا، استفاده شدند. ویژگیهای ورودی، ضرایب فرکانس بر اساس تبدیل فوریه سریع هستند. تان و همکاران از قاب موجک دیجیتال و روش آستانه نرم غیرخطی، برای پردازش سیگنال ارتعاشی استفاده کرد و یک SAE را بر روی سیگنال از پیش پردازش شده برای تشخیص عیب یاتاقان غلتکی ساختند [60].
زو و همکاران یک DNN مبتنی بر SAE را برای تشخیص عیب پمپ هیدرولیک همراه با ورودی به عنوان ویژگیهای حوزه فرکانس پس از تبدیل فوریه، [61] پیشنهاد کردند. در آزمایش ها، تکنیک فعال سازی relu و حذف تصادفی، مورد تجزیه و تحلیل قرار گرفت و نتایج تجربی نشان داده اند که در جلوگیری از ناپدید شدن گرادیان و بیشبرازش، موثر است. در کار ارائه شده در [62]، طیف نگار نرمال شده تولید شده توسط STFT سیگنال صوتی، DNN دو لایه مبتنی بر SAE را برای تشخیص عیب یاتاقان های دوار، تغذیه کردند. گالووی و همکاران یک DNN مبتنی بر SAE دو لایه را بر روی طیف نگارهای تولید شده از داده های ارتعاشی خام برای تشخیص خطای ارتعاش توربین کشندی (جزر و مدی) ساختند [63]. یک DNN مبتنی بر SAE با ورودی به عنوان مولفه های اصلی داده های استخراج شده توسط تجزیه و تحلیل مولفه اصلی برای تشخیص خطای فضاپیما در [64]، پیشنهاد شد. ویژگی های آماری چند دامنه ای از جمله ویژگی های حوزه زمان، ویژگی های حوزه فرکانس و ویژگی های حوزه زمان-فرکانس، به درون چارچوب SAE وارد شده اند که می تواند به عنوان یک نوع ترکیب ویژگی در نظر گرفته شود [65]. به طور مشابه، ورما و همکاران هم از این سه ویژگی برای تغذیه DNN مبتنی بر SAE برای تشخیص عیب کمپرسورهای هوا استفاده کرد [66] و صهیب و همکاران، مدل SAE-DNN پیشنهادی بر اساس این سه ویژگی حوزه برای تشخیص خطای یاتاقان [67] استفاده کردند. در [68]، چن و همکاران، ویژگیهای سه دامنهای را وارد SAE کردند و ماشین بردار پشتیبان را به عنوان طبقه بندی کننده نهایی، پذیرفتند. برای غلبه بر مشکل بیشبرازش، چن و همکاران، روش افزایش دادهها را با اضافه کردن نویز گاوسی به درون دادههای آموزشی، اتخاذ کردند [69].
به جز برای این ویژگی چند دامنه ای کاربردی، داده های چندحسی نیز توسط مدل های SAE، بررسی می شوند. ردی و همکاران از SAE برای یادگیری ارائه داده های سری زمانی خام برگرفته از چندین حسگر، برای تشخیص ناهنجاری و ابهام زدایی خطا در داده های پرواز استفاده کردند. برای پرداختن به داده های چندحسی، پنجره های همگام سازی شده، در ابتدا از طریق سری های زمانی چندوجهی همراه با همپوشانی، عبور داده شدند، و سپس پنجره های هر حسگر به عنوان ورودی برای SAE دنبالهرو، به آن متصل شدند [70]. در [71]، SAE برای تجمیع دادههای چند حسی به کار گرفته شد و DBN دنبالهرو، برای تشخیص خطای یاتاقان به کار گرفته شد که نتایج امیدوارکننده ای به دست آمد. ویژگی های آماری در حوزه زمان و حوزه فرکانس استخراج شده از سیگنال های ارتعاشی حسگرهای مختلف به عنوان ورودی برای یک SAE دو لایه با شبکه های عصبی محدود شده، به کار گرفته شد. بازنمایی های آموخته شده برای طبقهبندی الگو به درون یک شبکه باور عمیق، وارد شدند.
علاوه بر این، برخی از انواع SAE رایج برای پایش ماشینی سلامت پیشنهاد شده یا معرفی شدند. در [72]، تیروکووالورو و همکاران، یک چارچوب دو فازی پیشنهاد کرد که SAE فقط ارائه را یاد می گیرد و دیگر طبقه بندی کننده های استاندارد مانند SVM و الگوریتم جنگل تصادفی، طبقه بندی را انجام می دهند. به طور خاص، در ماژول SAE، ویژگی های دست ساز مبتنی بر FFT و تبدیل بسته موجک (WPT) به DNN مبتنی بر SAE، تغذیه شدند. پس از پیش آموزش و تنظیم دقیق پایش شده که شامل دو روش مجزا روش های تنظیم دقیق مبتنی بر بیشنیه هموار و میانه، میباشد، آزمایش های گسترده بر روی پنج مجموعه داده شامل نظارت بر کمپرسور هوا، پایش مته ها، نظارت بر خطای یاتاقان و پایش صفحه فولادی، قابلیت تعمیم سیستمهای پایش ماشینی سلامت مبتنی بر DL را نشان داده است. وانگ و همکاران یک خودرمزنگار پراکنده پیوسته جدید (CSAE) را به عنوان یادگیری ویژگی بدون نظارت، برای تشخیص خطای ترانسفورماتور پیشنهاد کردند [73]. جدا از AE پراکنده رایج، CSAE پیشنهادی آنها، واحد تصادفی را به تابع فعال سازی هر واحد مرئی اضافه کرد:

که در اینجا، sj خروجی مربوط به ورودی xi wij و ai است. که پارامترهای مدل را نشان می دهند، تابع فعال سازی را نشان می دهد و آخرین عبارت ، واحد تصادفی اضافه شده است که یک گاوس با میانگین صفر با واریانس است. یکپارچگی واحد تصادفی، قادر به تغییر جهت گرادیان و جلوگیری از بیشبرازش، است. مائو و همکاران یک نوع AE به نام خودرمزنگار مبتنی بر ماشین یادگیری غایی را برای تشخیص خطا استفاده کردند که بدون کاهش دقت در تشخیص خطا، کارآمدتر از مدل های رایج SAE، است [74]. جدا از AE که از طریق پس انتشار، آموزش داده شد، تبدیل در فاز رمزگذار، به طور تصادفی ایجاد شد و تبدیل در فاز رمزگشا در یک مرحله از طریق برازش حداقل مربعات، آموخته شد [75]. در [76]، جیا و همکاران، به دو کاستی بالقوه پشت خودرمزنگارهای سنتی مانند یادگیری ویژگی های مشابه و ویژگی های متغیر تغییر اشاره کردند که کارایی در استخراج ویژگی خودکار سیگنال های مکانیکی را مختل می کند. بنابراین، آنها خودرمزنگار پراکنده نرمال شده (NSAE) را با افزودن واحدهای خطی اصلاح شده به عنوان تابع فعال سازی، کنار گذاشتن سوگیری و اتخاذ هنجار L2 به جای تابع واگرایی KL در فرمول بندی خودرمزنگار، پیشنهاد کردند. سپس، یک شبکه اتصال محلی (LCN) که مقدار متوسط خروجی های NSAE را در بر میگیرد برای استخراج ویژگیهای تغییر ناپذیر، استفاده شد. برای تطبیق ویژگی های سیگنال پیچیده، شائو و همکاران، تابع از دست دادن MSE اصلی را با حداکثر آنتروپی همبسته در خودرمزنگاری که خود طراحی کردند، جایگزین کرده و الگوریتم دسته ماهیهای مصنوعی را برای انتخاب پارامترهای کلیدی آن اتخاذ کردند [77]. در کار دیگر آنها، یک مدل گروهی از خودرمزنگارها با 15 تابع فعال سازی مختلف در [78] پیشنهاد دادند، که در آن الگوی گروهی بر اساس رای اکثریت با وزنهای مختلف است. آنها همچنین یک طرح ترکیبی از دو خودرمزنگار از جمله خودرمزنگار حذف نویز (DAE) و خودرمزنگار انقباضی (CAE) بر اساس طرح حفظ موقعیت (LPP) در [79]، پیشنهاد کردند. لی و همکاران یک خودرمزنگار همه مال برنده کاملا متصل [80] (FCWTA) را برای تشخیص خطای یاتاقان، پیشنهاد کردند. تازگی مدل آنها در دو جنبه نهفته است: یکی در مورد مجازی سازی طول عمر و تشخیص عمیق برای پراکندگی طبقه بندی خطای سیستم است که تنها k بزرگترین فعالساز برای هر گره پنهان در بین تمام نمونهها در یک دسته کوچک نگه داشته میشود و مورد دیگر، چارچوب گروهی است که سیگنال ورودی است و به چندین پنجره تقسیم میشود و هر پنجره برای به دست آوردن نتایج پیش بینی برای FCWTA، تغذیه میشود. در نهایت، یک روش رایگیری سبک برای ترکیب همه نتایج پیش بینی، اجرا شد.
علاوه بر این، لو و همکاران، بر تجسم ارائه آموخته شده توسط یک DNN مبتنی بر SAE دو لایه، که نمای جدیدی برای ارزیابی MHMS مبتنی بر DL ارائه می کند، تمرکز داشتند [81]. در مقاله آنها، قدرت تمایز بازنمایی آموخته شده را میتوان با افزایش لایه ها بهبود بخشید.
3.2. RBM و انواع آن برای پایش ماشینی سلامت
در این بخش، برخی از کارهای انجام شده در باب توسعه RBM برای یادگیری ارائه برگرفته از داده های ماشینی، بیان شده است. بیشتر کارهایی که در اینجا معرفی میشوند بر اساس شبکه های باور عمیق (DBN) هستند که می توانند یک شبکه عصبی عمیق (DNN) را از قبل آموزش دهند.
در [82]، یک روش مبتنی بر RBM برای پیش بینی عمر مفید باقیمانده (RUL) پیشنهاد شد. لایه رگرسیون خطی در بالای RBM پس از پیش آموزش، برای پیش بینی ریشه میانگین مربعات آتی (RMS) و بر اساس یک سری زمانی تاخیری برگرفته از مقادیر RMS، اضافه شد. سپس RUL با استفاده از RMS پیش بینی شده و زمان کلی عمر یاتاقان، محاسبه شد. در کار دیگر خود [83]، آنها از ساختار مشابهی استفاده کردند: DBN-FNN برای پیش بینی مستقیم مقدار RUL. لیائو و همکاران یک RBM جدید را برای یادگیری بازنمایی برای پیش بینی RUL ماشین ها، پیشنهاد کردند [84]. در کار آنها، یک اصطلاح تنظیمی جدید برای مدل سازی روندپذیری گرههای پنهان، به تابع هدف آموزشی RBM اضافه شد. سپس، الگوریتم نقشه خودسازماندهی بدون نظارت (SOM)، برای تبدیل ارائه آموخته شده توسط RBM تقویت شده برای یک مقیاس به نام ارزش سلامت، اعمال شد. در نهایت، ارزش سلامت برای پیش بینی RUL از طریق یک الگوریتم پیش بینی زندگی مبتنی بر شباهت استفاده شد. در [85]، یک رویکرد طبقه بندی بردار پشتیبان چندوجهی عمیق، برای تشخیص عیب گیربکس ها، پیشنهاد شد. در ابتدا، سه ویژگی بُعدی، شامل زمان، فرکانس و زمان-فرکانس برگرفته از سیگنال های ارتعاشی، استخراج شد. سپس، سه ماشین بولتزمن عمیق گاوسی-برنولی (GDBMS) به ترتیب برای پرداختن به سه روش فوق استفاده شد. در هر GDBMS، از لایه بیشنیه هموار در بالا استفاده شده است. پس از پیش آموزش و فرآیندهای تنظیماتی دقیق، خروجی های احتمالی لایه های بیشنیه هموار از این سه GDBMS توسط یک چارچوب طبقه بندی بردار پشتیبان (SVC)، برای پیش بینی نهایی ترکیب شدند. لی و همکاران یک GDBMS را به طور مستقیم بر روی ویژگی الحاقی شامل سه ویژگی بُعدی شامل زمان، فرکانس و زمان – فرکانس اعمال کرد و یک لایه بیشنیه هموار را در بالای GDBMS برای تشخیص دسته های خطا قرار دادند [86]. لی و همکاران یک DBM دو لایه را برای یادگیری بازنمایی عمیق پارامترهای آماری WPT سیگنال حسی خام برای تشخیص عیب گیربکس، اتخاذ کردند [87]. در این کار با تمرکز بر همجوشی دادهها، دو DBM بر روی سیگنال های صوتی و ارتعاشی و الگوریتم جنگل تصادفی برای ترکیب ارائههای آموخته شده توسط این دو DBM، اعمال شد. شائو و همکاران، چندین RBM را برای تشخیص خطا در مدل DBM انباشته کردند، که ورودی آن، دادههای حوزه فرکانس مبتنی بر تبدیل فوریه سریع (FFT) است [88]. در [89]، ژانگ و همکاران، از شبکه باور عمیق برای تشخیص تخریب پیچ ساچمه ای، استفاده کردند. ویژگیهای ورودی به درون مدل DBN، طیف فرکانس ذوب شده سیگنالهای حوزه زمانی مختلف در حسگرهای مختلف، میباشد. در [90]، وانگ و همکاران، استفاده از ویژگی طیف پنجره کشویی (SWSF)، به عنوان ویژگی ورودی در مدل DBN برای تشخیص خطای هیدرولیک، پیشنهاد نمودند. در [91]، ویژگیهای آماری حوزه زمان و حوزه فرکانس، استخراج شده و به DBN وارد شدند. سپس، PSO-SVM بر روی خروجیهای DBN برای تشخیص خطا اعمال شد. در [92]، وانگ و همکاران. از دو RBM برای تشکیل یک مدل DBM برای پیش بینی نرخ حذف مواد در صیقل دادن، استفاده کردند. الگوریتم های بهینه سازی دستهای ذرات (PSO) برای انتخاب ابر پارامترهایی مانند ساختار DBN و نرخ یادگیری، معرفی شدند. در [93]، چن و همکاران، کارایی چندین مدل مبتنی بر DNN از جمله DBM، DBN و SAE را در چهار روش پیش پردازش مختلف مانند سیگنال حوزه زمانی خام، ویژگی حوزه زمان، ویژگی حوزه فرکانس و ویژگی حوزه زمان-فرکانس، بررسی کردند. آن، نشان داده شد که این سه مدل DNN در تشخیص خطا، قابل اعتماد و موثر هستند و مدل های DNN مبتنی بر داده های خام در مقایسه با سه روش پیش پردازش دیگر، بدتر عمل می کند. در [94]، گائو و همکاران، ترکیبی از شبکه باور عمیق و شبکه عصبی الهام گرفته از کوانتوم (QINN) را برای تشخیص خطای سیستم سوخت هواپیما، استفاده کردند. ویژگیهای ورودی به درون DBN شامل ویژگی حوزه زمانی و ویژگی حوزه فرکانس است. خروجیهای DBN به درون شبکه عصبی الهام گرفته از کوانتوم (QINN)، که برهم نهی خطی چندین DBN را با فواصل کوانتومی بکار میگیرد، وارد شد. در [95]، اوه و همکاران، DBN را بر روی تصاویر ارتعاشی برای استخراج ویژگیها، اعمال کرد و طبقهبندی نهایی را انجام داد. تصویر ارتعاش از سیگنال سنسور ارتعاشی تولید شد و هیستوگرام گرادیانهای جهت دار (HOG) بر روی تصویر ارتعاش به عنوان ویژگیهای ورودی در DBN دنبالهرو، اعمال شد.
ما و همکاران، با استفاده از DNN مبتنی بر DBN، این چارچوب را برای ارزیابی تخریب تحت یک آزمایش عمر شتابدهنده یاتاقان [96] ارائه کردند. ویژگی آماری، ریشه میانگین مربع (RMS) با توزیع ویبول، می تواند از نوسانات پارامتر آماری جلوگیری کند و ویژگی های حوزه فرکانس به عنوان ورودی خام استخراج شد. علاوه بر ارزیابی دقت طبقه بندی نهایی، الگوریتم t-SNE برای تجسم ارائه آموخته شده DBN و خروجی های هر لایه در DBN اتخاذ شد. آنها دریافتند افزودن لایه پنهان میتواند قدرت تمایز را در ارائه آموخته شده، افزایش دهد. شائو و همکاران، برای تشخیص عیب موتور القایی DBN را در [97] پیشنهاد نمودند. همانطور که در شکل 7 نشان داده شد، تبدیل فوریه سریع بر روی دادههای سری زمانی خام اعمال شد و ویژگی حوزه فرکانس به مدلهای DBN وارد شد. فو و همکاران از شبکههای باور عمیق برای نظارت بر وضعیتها استفاده کرد [98]. در کار ارائه شده، سه مجموعه ویژگی مختلف از جمله سیگنال ارتعاش خام، ضریب سپستروم فرکانس مل (MFCC) و ویژگیهای موجک، به عنوان سه ورودی مختلف متناظر به DBN، وارد شدند که قادر به دستیابی به کارایی مقایسهای قوی بر روی سیگنال ارتعاشی خام بدون استفاده از بسیاری از ویژگیهای مهندسی آن بودند. تامیلسلوان و همکاران یک مدل طبقه بندی وضعیت سلامت مبتنی بر DBN چند حسی را پیشنهاد کردند. این مدل در مسائل ردهبندی معیار و دو کاربرد تشخیص سلامت شامل تشخیص سلامت موتور هواپیما و تشخیص سلامت ترانسفورماتور توان الکتریکی تایید شد [99,100]. تائو و همکاران یک طرح ترکیبی اطلاعات چندحسگر مبتنی بر DBN را برای تشخیص عیب یاتاقان [101] پیشنهاد کردند. در مرحله اول، 14 ویژگی آماری حوزه زمان استخراج شده از سه سیگنال ارتعاشی که توسط سه حسگر به عنوان یک بردار ورودی برای مدل DBM به دست آمده، به هم متصل شدند. در طول پیش آموزش، یک مقدار آستانه از پیش تعریف شده برای تعیین تعداد تکرار آن معرفی شد. در [102]، یک بردار ویژگی متشکل از اندازه گیری بار و سرعت، ویژگی های حوزه زمان و ویژگی های حوزه فرکانس، به درون DNN مبتنی بر DBN برای تشخیص خطای گیربکس، وارد شد. در کار [103]، گان و همکاران، یک شبکه تشخیص سلسله مراتبی برای تشخیص الگوی خطا یاتاقان های المان غلتان متشکل از دو فاز متوالی را ساخته که در آن ابتدا چهار مکان خطای مختلف (از جمله یک وضعیت سلامتی) شناسایی شدند و سپس شدت های گسسته خطا در هر شرایط خطا طبقه بندی شدند. در هر فاز، ویژگی های انرژی باند فرکانسی تولید شده توسط WPT برای طبقه بندی الگو به DNN مبتنی بر DBN، وارد شد. در [104]، از قبل، سیگنال های ارتعاش خام برای تولید تصویر دو بعدی و بر اساس تکنیک های بازسازی همه جهته (ODR)، پردازش شدند و سپس، توصیفگر هیستوگرامی گرادیان اصلی (HOG) روی تصویر تولید شده اعمال شد و بردار آموخته شده به DBN، برای تشخیص خودکار سیستم های روتور یاتاقان گرد، داده شد. ژانگ و همکاران، مجموعهای از DBNها با بهینه سازی تکاملی چند هدفه را بر روی الگوریتم تجزیه (MOEA/D)، برای تشخیص خطا با دادههای حسی چند متغیره، پیشنهاد دادند[105]. DBNها با معماریهای مختلف را میتوان به صورت دسته کننده پایه در نظر گرفت و MOEA/D برای تنظیم وزنهای گروهی برای دستیابی به یک رابطه جایگزین بین دقت و تنوع، معرفی شد. سپس ژانگ و همکاران، این چارچوب ذکر شده را برای یک کار پیشآگهی خاص، یعنی تخمین RUL سیستم مکانیکی، گسترش دادند[106].

3.3. CNN برای پایش ماشینی سلامت
در برخی سناریوها، داده های ماشینی را می توان در قالب دو بعدی مانند طیف زمان-فرکانس ارائه کرد، در حالی که در برخی سناریوها، آنها در قالب یک بعدی، یعنی سری های زمانی هستند. بنابراین، مدل های CNN می توانند یک ارائه پیچیده و قوی را از طریق لایه کانولوشنی خود بیاموزند. به طور شهودی، فیلترها در لایه های کانولوشن می توانند الگوهای موضعی را در داده های خام استخراج کنند و با روی هم قرار دادن این لایه های کانولوشن می توان، الگوهای پیچیده تری ساخت. لیو و همکاران، یک شبکه عصبی کانولوشن سری زمانی جابجا شده (DTS-CNN) را برای تشخیص عیب ماشین الکتریکی پیشنهاد کردند [107]. در کار آنها، یک لایه سری زمانی به هم خورده برای جابجایی سیگنال مکانیکی ورودی یک بُعدی به یک ماتریس خروجی، معرفی شد. عملیات DTS، شهودی است و چندین سیگنال رهگیری شده از سیگنال اصلی برای تشکیل یک ماتریس مرتب شدهاند. سپس، یک مدل CNN عمیق رایج، استفاده شد. در [108]، CNN دوبُعدی برای تشخیص عیب گیربکس معرفی شد. همانطور که در شکل 8 نشان داده شده، تجزیه و تحلیل موجک برای انتقال ورودی حسی خام به درون تصاویر دوبُعدی زمان-فرکانس انجام شد و یک شبکه عصبی کانولوشن عمیق برای تشخیص عیب گیربکس، به کار گرفته شد. یانسنس و همکاران از یک مدل دوبُعدی CNN برای شناسایی شرایط ماشین های دوار چهار دسته استفاده کردند که ورودی، نتایج DFT دو سیگنال شتاب سنج برگفته از دو حسگر بود که عمود بر یکدیگر قرار گرفتند. بنابراین ارتفاع ورودی، تعداد سنسورهاست. مدل اتخاذ شده CNN شامل یک لایه کانولوشن و یک لایه کاملا متصل تشکیل شده است. سپس، لایه بیشنیه هموار بالایی برای طبقهبندی استفاده شد [109].

لو و همکاران داده های سری زمانی خام را به درون یک نقشه دوبُعدی بر اساس درج لغزشی که اندازه آن 20 در 20 است، بازآرایی کرد [110]. در [111]، بابو و همکاران، یک شبکه عصبی کانولوشن عمیق دوبعدی را برای پیش بینی RUL سیستم بر اساس سری های زمانی متغیر نرمال شده بر گرفته از سیگنال های حسگر ساختند، که در آن یک بُعد ورودی دوبُعدی، همانطور که در در [109]، گزارش شده، تعداد حسگرها است. در این مدل، میانگین تجمیع به جای تجمیع حداکثر، اتخاذ شد. از آنجایی که RUL یک مقدار پیوسته است، از رگرسیون خطی در لایه بالایی استفاده شد. دینگ و همکاران یک شبکه کانولوشن عمیق (ConvNet) را پیشنهاد کردند که در آن تصویر انرژی بسته موجک (WPE)، برای تشخیص عیب یاتاقان اسپیندل، به عنوان ورودی استفاده شد [112]. برای کشف کامل ارائه سلسله مراتبی، یک لایه چندمقیاسی بعد از آخرین لایه کانولوشن اضافه شد که خروجیهای آخرین لایه کانولوشنی و خروجیهای لایه تجمیع قبلی را به هم متصل می کند. گوو و همکاران یک شبکه عصبی کانولوشن عمیق تطبیقی سلسله مراتبی (ADCNN) [113] را پیشنهاد کردند. ابتدا، دادههای سری زمانی ورودی به عنوان یک بردار سیگنال به یک ماتریس 32*32 تبدیل شد که از قالب ورودی رایج که توسط LeNet [114] اتخاذ شده، پیروی می کند. علاوه بر این، آنها یک چارچوب سلسله مراتبی برای تشخیص الگوهای خطا و اندازه خطا، طراحی کردند. در ماژول تصمیمگیری الگوی خطا، اولین ADCNN برای تشخیص نوع عیب، به کار گرفته شد. در لایه ارزیابی اندازه خطا، بر اساس هر نوع خطا، از ADCNN با ساختار مشابه برای پیش بینی اندازه عیب استفاده شد. در اینجا، مکانیسم طبقهبندی هنوز استفاده می شود. مقدار پیش بینی شده f به عنوان مجموع احتمال اندازه های خطای معمولی به صورت زیر تعریف می شود:

در اینجا، ، توسط لایه بیشنیه هموار بالایی تولید می شود، که نشان دهنده امتیاز احتمالی است که هر نمونه به اندازه هر کلاس تعلق دارد و aj اندازه خطا مربوط به اندازه خطای jام است. سان و همکاران، تبدیل موجک پیچیده درختی دوگانه (DTCWT) را برای تبدیل سیگنال سری زمانی خام به یک نقشه دوبُعدی، اتخاذ کردند، که می تواند تغییرناپذیری شیفت و فرکانس را مهار و نقشه دوبُعدی را به مدل های CNN وارد کند [115]. در [116]، یک CNN پیشرفته برای تشخیص عیب ماشین آلات پیشنهاد شد. برای پیش پردازش دادههای ارتعاش، از موجک مورلت برای تجزیه سیگنال ارتعاشی و به دست آوردن مقیاس موجک، استفاده شد. سپس، درون یابی دو خطی برای ترسیم مقیاس تراکمی به یک تصویر در مقیاس خاکستری با اندازه 32*32 استفاده شد. علاوه بر این، انطباق واحد خطی اصلاح شده و حذف، کارایی تشخیص مدل را افزایش داد. چن و همکاران یک CCN دو بُعدی را برای تشخیص عیب گیربکس اتخاذ کرد که در آن ماتریس ورودی با اندازه 16*16 برای CNN، توسط بردار حاوی 256 ویژگی آماری از جمله مقادیر RMS، انحراف استاندارد، چولگی، کشیدگی، فرکانس چرخش و بار اعمال شده، تغییر شکل داده شد [117]. علاوه بر این، 11 ساختار مختلف CNN به صورت تجربی در آزمایش هایشان، مورد ارزیابی قرار گرفتند. وایمر و همکاران، یک مطالعه جامع از پیکربندیهای مختلف طراحی CNN عمیق را برای تشخیص عیب بصری انجام داد [118]. در یک استفاده ویژه: بازرسی نوری صنعتی، دو جهت پیکربندی مدل، شامل عمق (افزودن لایه کانولوشن) و عرض (افزایش تعداد فیلترها)، مورد بررسی قرار گرفت. پیکربندی بهینه که به صورت تجربی تایید شده در جدول 2 ارائه شده است. در [119]، CNN در زمینه تشخیص خطاهای کوچک اولیه ژنراتور بادی با پیشانه کنترل شده (FSCWG)، استفاده شد که در آن ماتریس ورودی 784*784، شامل داده های ارتعاش شفت ورودی ژنراتور (افقی) و دادههای ارتعاش شفت خروجی ژنراتور (عمودی) در مقیاس زمانی، بود. در [120]، یو و همکاران، از ماشین بردار پشتیبانی به عنوان دسته کننده ویژگی های استخراج شده توسط CNN برای تشخیص عیب ماشین های دوار استفاده کردند. در کار لی، آنها CNN را برای طبقهبندی و تشخیص عیب در فرآیندهای تولید نیمه هادی، اتخاذ کردند [121]. ماتریس ورودی دوبُعدی در مدل CNN با محور زمان پردازش و محور متغیر حسگر همراه بود و فیلتر فقط در امتداد محور زمان پردازش، لغزش داشت. عملیات تجمیع بعدی بر روی محور زمان برای هر نگاشت ویژگی، انجام شد. در [122]، ون و همکاران، ابتدا سیگنال سری زمانی خام ورودی را با نمونه برداری تصادفی بخش هایی از سیگنال خام، به تصویر دوبُعدی تبدیل کرد. آنها تصویر دوبُعدی را به درون ساختار دوبُعدی CNN که بسیار کلاسیک است، یعنی Lenet-5 CNN، وارد کردند. مدل آنها در سه کار تشخیص ماشینی مختلف از جمله تشخیص عیب یاتاقان موتور، تشخیص عیب پمپ گریز از مرکز خودپرایمینگ و تشخیص عیب پمپ هیدرولیک پیستون محوری، به نتایج بسیار امیدوارکنندهای دست یافت.

در [123]، CNNهای مختلف آموزش دیده بر روی حسگرهای مختلف بر اساس تئوری Dempster-Shafer ارتقا یافته برای بدست آوردن پیش بینی نهایی، ترکیب شدند. نقشههای ریشه میانگین مربع از تبدیل فوریه سریع برگرفته از دادههای حسی، به عنوان ویژگیهای ورودی برای مدلهای CNN استخراج شد. در [124]، سینگ و همکاران، از تجزیه مدل تجربی مجموعه (EEMD) برای تجزیه ورودی حسی خام به توابع حالت ذاتی (IMF) با معیارهای انتخاب بر اساس الگوریتم های توابع مدل ترکیبی (CMF)، که به عنوان ویژگی های ورودی برای مدل های CNN بکار گرفته شد، استفاده کردند. در [125]، تبدیل فوریه کوتاه مدت، تبدیل موجک و تبدیل هیلبرت-هوانگ برای تولید ورودی های تصویر در مدل CNN خود، اتخاذ شد.
همانطور که در بخش 2.3 بررسی شد، CNN همچنین میتواند برای سیگنال سری زمانی یک بُعدی اعمال شود و عملیات مربوطه به تفصیل شرح داده شده است. در [126]، CNN یک بُعدی با موفقیت بر روی دادههای سری زمانی خام برای تشخیص خطای موتور توسعه یافت، که در آن استخراج ویژگی و طبقه بندی با هم تجمیع شدند. عبدالجابر و همکاران CNN یک بُعدی پیشنهادی بر روی سیگنال ارتعاشی نرمال شده، پیشنهاد دادند که میتواند تشخیص آسیب مبتنی بر ارتعاش و محلی سازی آسیب ساختاری را در زمان واقعی، انجام دهد. مزیت این رویکرد توانایی آن در استخراج ویژگیهای حساس به آسیب بهینه و به طور خودکار از سیگنالهای شتاب خام است که نیازی به پیش پردازش اضافی یا رویکردهای پردازش سیگنال، ندارد [127]. جینگ و همکاران، کارایی CNN یکبُعدی در انواع داده های مختلف از جمله داده های زمان خام، داده های طیف فرکانس، داده های زمان-فرکانس و چندین ویژگی دست ساز برای تشخیص عیب گیربکس و CNN، را بررسی کردند و بهترین کارایی را با طیف ویژگی به دست آورد [128]. در [129]، ژانگ و همکاران، CNN پیشنهادی همراه با تداخل آموزشی (TICNN) را برای تشخیص خطای یاتاقان که ورودی آن سیگنال سری زمانی خام است، بکار بردند. برای تقویت داده ها، هسته با تغییر نرخ خروج به سیگنال ورودی اعمال شد و اندازه دسته به اندازه تعداد انواع خطا، تعیین شد که می تواند توانایی تعمیم مدل آموزش دیده را بهبود بخشد. با توجه به این دو اصلاح، مدل پیشنهادی آنها توانست در محیط های نویز دار و محیط متغیر، دقت بالا و کارایی پایدار، داشته باشد. در [130]، شبکه های عصبی کانولوشن عمیق همراه با هسته های لایه اول گسترده (WDCNN) توسط ژانگ و همکاران پیشنهاد شدند. روش پیشنهادی از سیگنال های ارتعاشی خام به عنوان ورودی استفاده کرد (افزایش داده ها برای تولید ورودی های بیشتر استفاده شد) و هسته های گسترده را در اولین لایه کانولوشن برای استخراج ویژگی ها و سرکوب نویز با فرکانس بالا، اعمال کرد. هسته های کانولوشن کوچک در لایه های قبلی برای نگاشت غیرخطی چند لایه استفاده شدند. تکنیکی به نام عادی سازی دستهای تطبیقی [131] که پارامترها در نرمال سازی دسته ای بر اساس نمونه های آزمایشی تنظیم می شدند، برای بهبود توانایی تطبیق دامنه مدل اجرا شد.
جدا از کارهای قبلی که در آن CNNهای پایش شده، پذیرفته شدند، سان و همکاران، یک مدل یادگیری با ویژگی متمایز کانولوشن را برای تشخیص عیب موتور القایی [132] پیشنهاد کردند. همانطور که در شکل 9 نشان داده شده، یک سبک تجمیع کانولوشن پیشخور، پیشنهاد شده که در آن فیلترهای موضعی توسط شبکه عصبی پسرو (BPNN) از قبل یاد میگیرند. سپس، ارائه آموخته شده برای طبقهبندی شرایط خطا به SVM، وارد شدند. از آنجایی که فیلترهای موضعی توسط BPNN، آموخته میشوند، معماری تجمیع کانولوشن زیر میتواند ویژگیهای متمایز و ثابت را از داده های ارتعاشی خام، به سرعت استخراج کند. دادههای ورودی سیگنال ارتعاشی یکبُعدی است به طوری که کار آنها نیز متعلق به CNN یک بُعدی است. در [133]، کابررا و همکاران، خودرمزنگار کانولوشن (CAE) را برای مقداردهی اولیه پارامترهای مدل CNN، تحت نظارت خود، اتخاذ کردند. در CAE، رمزگذار شامل کانولوشن و تجمیع حداکثر است در حالیکه رمزگشا شامل غیرتجمیع به عنوان تکرار افقی و عمودی مقدار فعال سازی و کانولوشن است. هدف آموزشی CAE، به عنوان فاصله اقلیدسی، تعریف شد.

در [134]، شائو و همکاران، CNN را با استفاده از اتصالات کانولوشن در ساختار فایل تصادفی مولد مارکوف به درون DBN، تجمیع کردند. علاوه بر این، واحدهای مرئی گاوسی برای ساخت این مدل، معرفی شدند. ورودی مدل، داده های فشرده شده ای بود که توسط خودرمزنگار به عنوان ارائههای پنهان آموخته شد. دسته کننده بیشینه هموار، برای تشخیص خطای یاتاقان استفاده شد.
در [135]، ژائو و همکاران. گونه ای از شبکه های باقیمانده عمیق به نام شبکه های باقیمانده عمیق با ضرایب موجک وزن دار پویا (DRN + DWWC) را توسعه دادند. ورودی های مدل، یک سری ضرایب بسته موجک در باندهای فرکانسی مختلف است. DRN، شامل چندین بلوک ساختمانی باقیمانده به عنوان پشتهای از چندین لایه کانولوشن، نرمالسازیهای دسته ای (BNs)، تابع فعال سازی relu و یک میانبر هویتی، بود. در DRN سنتی، لایه های وزن دهی پویا برای اعمال وزن های پویا برای نگاشت ویژگی ورودی طراحی شده و عناصر در هر ردیف در نگاشت ویژگی دارای وزن مشابهی هستند. استفاده از لایه های وزن دهی پویا با تاکید بر مشارکت های مختلف ضرایب بسته موجک در باندهای فرکانسی مختلف، متمرکز بود. در [136]، پان و همکاران. یک مدل جدید CNN به نام LiftingNet را برای طبقه بندی خطا، پیشنهاد کردند که بر اساس CNN و تبدیل موجک نسل دوم (SGWT) بود. ماژول اصلی در LiftingNet، شامل لایه تقسیم، لایه پیش بینی و لایه به روز رسانی، بود. لایه تقسیم، توالی ورودی را به یک سری زوج و یک سری فرد تقسیم کرد. سپس، لایه ها را پیش بینی و به روزرسانی می کند تا با استفاده از اندازه های مختلف هسته ، ارائههای ورودی را در مقیاس های مختلف، یاد بگیرند. پس از استکینگ ماژولهای فوق، لایه تجمیع حداکثر و لایه کاملا متصل برای یادگیری ارائه نهایی، بکار گرفته شد. تایید شده که LiftingNet میتواند عنصر گذرا و با فرکانس بالا را از طریق لایه پیشبینی یاد بگیرد و عنصر تدریجی و با فرکانس کم را از طریق لایه به روز رسانی، رمزگذاری کند. علاوه بر این، هسته های بزرگ و توابع غیرخطی، قادر به فیلتر کردن نویز بودند.
برای ارائه یک نمای کلی در مورد همه این مدلهای CNN فوق که با موفقیت در حوزه MHMS به کار گرفته شدند، سبک آنها در جدول 2 خلاصه شده است. برای توضیح، از اختصارات استفاده شده، ساختار CNN اعمال شده در کار ویمر [118] به صورت ورودی ، نشان داده شده است. آن، بدین معنی است که دادههای دوبُعدی ورودی 32*32 است و CNN در ابتدا 2 لایه کانولوشن را همراه با طراحی مشابه که تعدا فیلتر آن 64 و اندازه فیلتر، 3*3، است بکار میگیرد ، سپس، یک لایه تجمیع حداکثر که اندازه تجمیع آن 2*2 است را روی هم قرار میدهد، سپس 3 لایه کانولوشن با همان طرح که تعداد فیلترها 128 و اندازه فایل 3*3 است اعمال میکند، سپس یک لایه تلفیقی که اندازه تجمیع آن 2*2 است را اعمال میکند. در نهایت از دو لایه کاملاً متصل استفاده می کند که تعداد نورون های پنهان هر دو، 1024 است. لازم به ذکر است که اندازه لایه خروجی، با توجه به اینکه برای کار خاص میباشد و معمولاً به تعداد دسته ها تنظیم می شود، در اینجا، مشخص نشده است.
3.4. RNN برای پایش ماشینی سلامت
اکثر داده های ماشینی به داده های حسگر، متعلق هستند که در سری های زمانی طبیعی، هستند. مدل های RNN از جمله LSTM و GRU به عنوان یک نوع سبک محبوب برای مدیریت داده های متوالی با تواناییش در رمزگذاری اطلاعات زمانی، پدیدار شده اند. به تازگی، این مدل های پیشرفته RNN، برای کاهش مشکل آموزش ورای RNN وانیلی برای نظارت ماشینی بر سلامت، پیشنهاد شده اند. در [137]، یوان و همکاران، سه مدل RNN شامل مدل های وانیلی RNN، LSTM و GRU را برای تشخیص عیب و پیش آگهی موتور هواپیما، بررسی کردند. آنها دریافتند که این مدلهای پیشرفته RNN و LSTM و GRU از RNN وانیلی بهتر، کار میکنند. مشاهدات جالب دیگر این بود که مدل گروهی سه نوع RNN فوق، کارایی LSTM را افزایش نداد. ژائو و همکاران یک ارزیابی تجربی از سیستم پایش ماشینی سلامت مبتنی بر LSTMs را در آزمون خوردگی ابزار ارائه کردند [138]. مدل LSTM اعمال شده، دادههای حسی خام را در بردارها رمزگذاری کرد و خوردگی ابزار مربوطه را پیش بینی کرد. ژائو و همکاران سپس یک مدل یادگیری عمیق پیچیده تر را با ترکیب CNN و LSTM به نام شبکه های حافظه کوتاه مدت دو جهته کانولوشن (CBLSTM) طراحی کردند [139]. همانطور که در شکل 10 نشان داده شده، CNN برای استخراج ویژگیهای موضعی قوی برگرفته از ورودی متوالی استفاده شد و سپس LSTM دو جهته برای رمزگذاری اطلاعات زمانی در این خروجی متوالی CNN، استفاده شد. در نهایت، لایه های استکینگ کاملاً متصل و لایه رگرسیون خطی برای پیش بینی مقدار هدف اضافه شدند. در آزمایش خوردگی ابزار، مدل پیشنهادی توانست از چندین روش پایه پیشرفته از جمله مدل های رایج LSTM، بهتر عمل کند. جدا از مدل های یادگیری ویژگی خودکار قبلی، ژائو و همکاران، یک رویکرد ترکیبی، پیشنهاد کردند که طراحی ویژگیهای دست ساز را با یادگیری ویژگیهای خودکار برای پایش ماشینی سلامت، ترکیب میکند [140]. همانطور که در شکل 11 نشان داده شده، ویژگیهای پنجره های سریهای زمانی ورودی، استخراج شده و به یک شبکه GRU دو جهته تقویت شده، وارد شد. شبکه دوجهته پیشرفته GRU، شامل دو ماژول از جمله GRU دو جهته و میانگین وزنی ویژگی، است. مدل پیشنهادی آنها در سه کار پایش ماشینی سلامت، پیش بینی خوردگی ابزار، تشخیص عیب گیربکس و تشخیص اولیه عیب یاتاقان، اثربخشی و تعمیم رویکرد ترکیبی پیشنهادی در طراحی ویژگی های دست ساز و یادگیری ویژگی های خودکار را نشان داده است. در [141]، مالهوترا، ساختار بسیار جالبی را برای پیش بینی RUL، پیشنهاد کرد. آنها، یک ساختار رمزگذار-رمزگشا مبتنی بر LSTM، طراحی کردند، که رمزگذار مبتنی بر LSTM، در ابتدا یک توالی ورودی چند متغیره را به یک بردار با طول ثابت تبدیل میکند و سپس، رمزگشای LSTM از بردارها برای تولید توالی هدف، استفاده میکند. وقتی صحبت از پیش بینی RUL می شود، مفروضات آن ها این است که مدل را می توان در ابتدا در سیگنال خام مربوط به رفتار عادی در یک روش بدون نظارت، آموزش داد. سپس، خطای بازسازی را میتوان برای محاسبه شاخص سلامت (HI) استفاده کرد، که آن، سپس برای تخمین RUL استفاده میشود. آن، ذاتی است که خطای بزرگ بازسازی مربوط به یک وضعیت ناسالم ماشین باشد.

3.5. استخراج مشخصه (ویژگی) خطا برای MHMS مبتنی بر DL
در جلسات فوق، کاربردهای مختلف روشهای یادگیری عمیق در سیستمهای پایش ماشینی سلامت، بررسی شده است. میتوان دریافت که استخراج ویژگی یا پیش پردازش ویژگی در کارهای خاصی مورد نیاز است. اگرچه یادگیری عمیق می تواند بازنمایی ها را از ابتدا بیاموزد، داده های حسی نویز دار بدست آمده از ماشین ها، کانولوشن در سیستم های عامل ماشین و نمونه های داده ناکافی، همگی باعث می شوند قبل از تغذیه داده های خام برای مدل های DL، استخراج مشخصه خطا اعمال شود. علاوه بر این، سیگنال حسی نادر و ناسازگار، به عنوان مثال، برون هشته، ممکن است تاثیر غیرقابل پیش بینی بر سیستم مکانیکی غیرخطی و واقعی داشته باشد [142-144]. استخراج مناسب مشخصه خطا میتواند این اثر منفی برون هشته را کاهش دهد. بنابراین، خلاصه ای از این تکنیک های استخراج ویژگی که در آثار فوق اتخاذ شده اند، به شرح زیر ارائه می شوند:

3.5.1. حوزه زمان
دادههای حسی خام در ماهیت سیگنال سری زمانی هستند. بنابراین، برخی از ویژگی های حوزه زمانی آماری را می توان به عنوان ویژگی های متمایز وارد شده به سیستم های DL، استخراج کرد. میانگین، ریشه میانگین مربع (RMS)، انحراف معیار و واریانس، به دفعات استفاده شد. با توجه به سیگنال ثابت، چولگی و کشیدگی نیز به عنوان ویژگیهای ورودی استخراج شد.
3.5.2. حوزه فرکانس
به دلیل وجود تکانههای دورهای در چندین خطای ماشینی، مولفههای فرکانس غالب، ویژگی های اطلاعاتی و متمایز هستند. FFT (تبدیل فوریه سریع) میتواند برای تبدیل سیگنالهای ارتعاشی حوزه زمانی به سیگنالهای حوزه فرکانس، اعمال شود. فرکانس میانگین، فرکانس واریانس ریشه، چولگی طیفی و کشیدگی طیفی به عنوان مومنتهای مرتبه اول، مرتبه دوم، مرتبه سوم و مرتبه چهارم طیف فوریه، میتواند به عنوان ویژگی محاسبه کرد. لازم به ذکر است که ارائه حوزه فرکانس معمولا برای سیگنال ثابت استفاده می شود.
3.5.3. حوزه زمان-فرکانس
ویژگیهای حوزه فرکانس-زمان برای سیگنالهای غیرثابت، مفید هستند. تبدیل فوریه کوتاه مدت، تبدیل/تجزیه موجک و تجزیه مدل تجربی (EMD)، به طور گسترده برای تبدیل سیگنال یک بُعدی به سیگنال دوبُعدی زمان و فرکانس، استفاده میشود.
علاوه بر این، چندین روش استخراج ویژگی را در این سه حوزه بالا ارائه کردیم که در بخش بعدی با جزئیات بیشتر، توضیح داده خواهد شد.
4. ارزیابی های تجربی تکنیک های مختلف DL
در این بخش، یک ارزیابی سیستماتیک از این مدل های یادگیری عمیق که در بالا و در مورد وظایف پایش ماشینی سلامت ارائه شده، خواهیم داشت. به طور خاص، وظیفه سنجش خوردگی ابزار، معرفی شده است.
4.1. جزئیات پیادهسازی
توصیف مجموعه داده: مجموعه دادهها از یک ماشین CNC با سرعت بالا و در طول عملیات آسیاب خشک، نمونه برداری شد و نمودار شماتیک پلت فرم آزمایشی آن در 12 نشان داده شده است. تنظیمات آزمایشی دقیق را میتوان در [145] یافت، که در آن هفت حسگر شامل نیرو و ارتعاش، هر کدام در سه جهت و AE-RMS قرار داده شده است. مقدار حقیقت مبنا با استفاده از میکروسکوپ LEICA MZ12 برای اندازهگیری هر فلوت جداگانه پس از اتمام هر سطح، یعنی هر تعداد برش، به دست آمد. مدل های یادگیری ماشینی برای پیش بینی ساییدگی واقعی پهلو از روی داده های حسی، اتخاذ می شوند. سه رکورد کاتر جداگانه با نام های c1، c4 و c6 موجود است و هر رکورد شامل 315 نمونه داده است.
در آزمایش های ما، c4 به عنوان داده های آزمایشی استفاده می شود در حالی که سایر رکوردهای c1 و c6 به عنوان داده های آموزشی استفاده می شوند. با توجه به ابعاد بالای سیگنال سری زمانی خام، ابتدا استخراج ویژگی اعمال میشود. هفت نوع ویژگی شامل حوزه زمان، حوزه فرکانس و حوزه زمان-فرکانس طراحی شده که در جدول 3 آمده است.

در اینجا، ویژگی انرژی موجک، انرژی تجزیه بسته موجک 8 سطحی با استفاده از db1 است که مربوط به ضریب موجک با انرژی بالاتر میباشد و آن مربوط به فرکانس مشخصه ماشین است. با در نظر گرفتن هفت حسگر استفاده شده، ابعاد بردار ویژگی دست ساز، 70 است. برای LSTM و CNN، دادههای ورودی تانسور هستند به طوری که دادهها به ترتیب به 20 پنجره تقسیم میشوند و سپس برای استخراج ویژگی میروند. برای مدلهای دیگر مانند SVM، دادههای ورودی، بُردار است به طوری که کل سری زمانی به درون استخراج ویژگیها، وارد میشود. بنابراین، ما دو نوع ویژگی استخراج شده داریم، یکی به شکل 70*20 و دیگری به شکل 70.
رویکردهای مقایسهای: این روشهای زیر با هم مقایسه می شوند:
* SVR خطی: رگرسیون بردار با پشتیبانی خطی، که ویژگیهای ورودی آن، ویژگیهای استخراج شده کل سریهای زمانی است. مدت تنظیم بر روی 1 تنظیم شده است.
* RBF SVR: پشتیبانی از رگرسیون برداری با هسته RBF، که ویژگیهای ورودی آن ویژگیهای استخراج شده از کل سری زمانی است. مدت تنظیم به 1 تنظیم شده است.
* الگوریتم جنگل تصادفی: رگرسور جنگل تصادفی که ویژگیهای ورودی آن ویژگیهای استخراج شده از کل سریهای زمانی است. تعداد برآوردگر 50 و حداکثر عمق درخت تصمیم، 2 تنظیم شده است.
* شبکه عصبی: شبکه عصبی که ویژگیهای ورودی آن ویژگیهای کل سری زمانی استخراج شده است. شبکه عصبی شامل دو لایه پنهان است که اندازه آنها به ترتیب 70 و 140 است. برای جلوگیری از بیشبرازش، لایه از قلم افتاده با احتمال پوشاندن 0.2 بر روی آخرین لایه اعمال میشود.
* خودرمزنگار: خودرمزنگار که ویژگیهای ورودی آن ویژگیهای استخراج شده از کل سریهای زمانی است. تابع زیان پیش آموزش، خطای میانگین مربع است. اندازه لایههای مخفی در پیش آموزش، به ترتیب 100 و 140 میباشد. در آموزش نظارت شده یک لایه با سایز 900 به دنبال این دو لایه مخفی اضافه میشود.
* نویز زدایی خودرمزنگار: نویززدایی خودرمزنگار که ویژگیهای ورودی آن، ویژگیهای استخراج شده از کل سری زمانی است. در مقایسه با خودرمزنگار رایج، یک نویز خروجی روی ویژگیهای ورودی با احتمال پوشاندن 0.01 اضافه میشود.
* DBN: شبکه باور عمیق که ویژگیهای ورودی آن ویژگیهای استخراج شده از کل سریهای زمانی است. اندازه لایههای مخفی به ترتیب 100 و 140 است.
* CNN: شبکه عصبی کانولوشن که ویژگیهای ورودی آن ویژگیهای ترتیبی هستند. دو لایه کانولوشن یکبُعدی با اندازه پنجره 3 اتخاذ شده است. و اندازه لایههای مخفی آنها 100 و 140 تنظیم میشود. سپس یک لایه تجمیع حداکثر، اضافه میشود که بعد از آن یک لایه کاملا متصل با اندازه 900 و یک لایه از قلم افتاده که احتمال پوشاندن آن 0.2 است، اضافه میشود.
* LSTM: شبکه حافظه بلند مدت که ویژگیهای ورودی آن ویژگیهای ترتیبی هستند. ما دو لایه تکراری را روی هم انباشته کردیم که اندازه لایه های مخفی آنها روی 100 و 140 تنظیم شده است. یک لایه کاملاً متصل با اندازه 900 و یک لایه حذفی با احتمال پوشاندن 0.2، اضافه می شود.
* LSTM دو جهته: شبکه حافظه کوتاه مدت دو جهته که ویژگیهای ورودی آن ویژگیهای ترتیبی هستند. در مقایسه با LSTM، دادهها در دو جهت به LSTM دو طرفه وارد میشوند: از ابتدا تا انتها و از انتها به ابتدا.
علاوه بر این، مجموعه داده و کد، منتشر شده است. به دلیل مشکل حفظ حریم خصوصی و نگرانی احتمالی حق نسخه برداری، ما فقط ویژگیهای استخراج شده را برای این دادهها به جای سریهای زمانی خام، ارائه میکنیم. از آنجایی که تقریباً تمام مدل های یادگیری عمیق نیاز به مقداردهی اولیه پارامتر تصادفی دارند، همه مدل های مقایسه ای، پنج بار اجرا شدند. در اینجا، ما دو معیار، شامل میانگین خطای مطلق (MAE) و میانگین مربعات خطا (MSE) را اتخاذ می کنیم.

در اینجا، yi و y~i، درست هستند و عمق خوردگی، بیش از حد پیشبینی می شود.
4.2. نتایج تجربی
کارایی همه روشهای مقایسه شده، در جدول 4 نشان داده شده است. علاوه بر این، نتایج رگرسیون همگی در شکل 13 نشان داده شده است. در این بخش، ما سعی می کنیم به کاربرد مدل های یادگیری عمیق در وظایف پایش ماشینی سلامت اشاره کنیم. لازم به ذکر است که به دلیل تنظیمات پیش فرض انتخاب ابرپارامتر و حجم کم داده ها، ارتقا مدلهای یادگیری عمیق در مقایسه با روشهای سنتی چندان زیاد نیست. با این حال، همانطور که در جدول 4 نشان داده شده، هنوز هم میتوان دریافت که مدلهای یادگیری عمیق بهتر از این مدلهای یادگیری ماشینی رایج، عمل میکنند. علاوه بر این، به دلیل پیش آموزش، خودرمزنگار، قادر به دستیابی کارایی بهتری نسبت به شبکه عصبی است. با این حال، DBN کمی بدتر از شبکه عصبی عمل کرد، که ممکن است اینطور توضیح داده شود که آموزش DBN به دلیل نمونه برداری مورد نیاز در هر لایه، سخت است. ورود نویز از قلم افتاده، کارایی خودرمزنگارهای نویززدا را بیشتر بهبود میبخشد. اگرچه CNN، LSTM و Bi-LSTM، کمی بدتر از خودرمزنگار نویززدا، عمل میکنند، انتخاب ابَرپارامتر، با توجه به کانولوشن این مدلها، ممکن است کارایی آنها را افزایش دهد. در مورد LSTM، LSTM دو جهته بهتر از LSTM عمل میکند. این بدان معنی است که پردازش دو طرفه سیگنال سری زمانی برای پایش ماشینی سلامت، مناسب میباشد.

* در مقایسه با مدل های یادگیری ماشینی رایج، مدل های یادگیری عمیق قادر به دستیابی کارایی برتر در زمینه پایش ماشینی سلامت هستند.
* پیش آموزش در خودرمزنگار میتواند کارایی نظارت بر سلامت ماشین را ارتقا ببخشد.
* تکنیک نویززدایی برای نظارت بر سلامت ماشین مفید است.
* CNN، LSTM و انواع آنها میتوانند، نظارت بر سلامت ماشین را انجام دهند. با این حال، به دلیل پیچیدگی مدل، انتخاب ابرپارامتر برای دستیابی به کارایی جدیدترین تکنولوژی، مورد نیاز است.
5. خلاصه و مسیرهای آینده
در این مقاله، ما یک نمای کلی نظامند از پیشرفتهترین MHMS مبتنی بر DL، ارائه کردیم. یادگیری عمیق، به عنوان زیرشاخه یادگیری ماشینی و به عنوان پلی بین دادههای ماشینی بزرگ و MHMS مبتنی بر داده عمل میکند. بنابراین، در پنج سال گذشته، آنها در کارهای مختلف پایش ماشینی برای سلامت، استفاده شدهاند. این MHMS مبتنی بر DL پیشنهادی بر اساس چهار دسته از سبک DL خلاصه می شوند: مدل های خودرمزنگار، مدل های ماشین های بولتزمن محدود شده، شبکه های عصبی کانولوشن و شبکه های عصبی بازگشتی. از آنجایی که تحقیقات MHMS مبتنی بر DL به سرعت در حال رشد است، امیدواریم پیام های مربوط به قابلیت های این تکنیک های DL، به ویژه یادگیری ارائه برای داده های پیچیده ماشینی و پیش بینی هدف برای وظایف مختلف پایش ماشینی سلامت، به خوانندگان منتقل شود. از طریق این کارهای قبل، میتوان دریافت که MHMS مبتنی بر DL به نیروی انسانی زیاد و دانش تخصصی نیاز ندارد؛ به عنوان مثال، ساختار سرتاسری (انتها به انتها) قادر است دادههای ماشینی خام را به اهداف، ترسیم کند. بنابراین، استفاده از مدل های یادگیری عمیق به انواع خاصی از ماشین ها محدود نمی شود، که آن می تواند یک راه حل کلی برای رسیدگی به مشکلات پایش ماشینی سلامت باشد. علاوه بر این، برخی از روندهای تحقیقاتی و جهتگیریهای بالقوه تحقیقات آینده به شرح زیر ارائه شده است:
* مجموعه داده بزرگ منبع (متن) باز: با توجه به پیچیدگی عظیم مدل در ورای روشهای DL، کارایی MHMS مبتنی بر DL، به شدت به مقیاس و کیفیت مجموعه دادهها بستگی دارد. از سویی، عمق مدل DL، توسط مقیاس مجموعه داده ها، محدود می شود. در نتیجه، مدل معیار CNN برای تشخیص تصویر، 152 لایه دارد که میتواند توسط مجموعه داده بزرگ ImageNet که حاوی بیش از ده میلیون تصویر حاشیه نویسی شده است، پشتیبانی شود [146,147]. در مقابل، مدل های DL پیشنهادی برای MHMS ممکن است تا ۵ لایه پنهان را روی هم قرار دهند. و مدل آموزش داده شده در چنین مجموعه دادههای بزرگی میتواند مقداردهی اولیه مدل برای وظیفه/مجموعه داده خاص تابعه، باشد. بنابراین، طراحی و انتشار مجموعه داده های ماشین در مقیاس بزرگ معنادار است.
* استفاده از شناخت حوزه: یادگیری عمیق یک کلید اساسی برای همه مشکلات پایش ماشینی برای سلامت نیست. شناخت حوزه میتواند به موفقیت استفاده از مدل های DL در پایش ماشینی سلامت کمک کند. به عنوان مثال، استخراج ویژگی های متمایز می تواند اندازه مدل های DL دنبال شده را کاهش دهد و اصطلاح منظم سازی مناسب برای کار خاص، می تواند کارایی نهایی را افزایش دهد [84].
* تجسم مدل و داده: تکنیک های یادگیری عمیق، به ویژه شبکه های عصبی عمیق، به عنوان مدل های جعبه سیاه در نظر گرفته شده اند، یعنی مکانیسم های محاسباتی درونی آن ها غیرقابل توضیح است. تجسم ارائه آموخته شده و مدل کاربردی، می تواند بینش هایی را در مورد این دست مدل های DL ارائه دهد و سپس بینش های به دست آمده توسط این نوع تعاملات، می تواند ساخت و پیکربندی مدل های DL را برای مشکلات پیچیده پایش ماشینی سلامت، تسهیل کند. برخی از تکنیک های تجسم سازی از جمله مدل t-SNE برای تجسم داده های با ابعاد بالا [148] و تجسم فعال سازی های تولید شده توسط هر لایه و ویژگی های هر لایه از یک DNN از طریق بهینه سازی تنظیم شده[149]، پیشنهاد شدند.
* یادگیری عمیق انتقال یافته: یادگیری انتقالی، سعی میکند دانش آموخته شده در یک حوزه را در حوزه متفاوت اما مرتبط، اعمال کند [25]. این جهت تحقیق، در پایش ماشینی سلامت، معنیدار است، زیرا برخی از مشکلات پایش ماشینی سلامت دارای دادههای آموزشی کافی هستند در حالی که سایر حوزهها، فاقد دادههای آموزشی هستند. مدلهای یادگیری ماشینی از جمله مدلهای DL آموزش دیده در یک حوزه را میتوان به حوزه دیگر منتقل کرد. برخی از کارهای قبلی با تمرکز بر استخراج ویژگیهای انتقال یافته/کاهش ابعاد، انجام شده است [150,151]. در [152]، اندازهگیری حداکثر میانگین اختلاف (MMD) که اختلاف بین حوزه منبع و هدف را ارزیابی میکند به تابع هدف شبکههای عصبی عمیق، اضافه شد.
* کلاس نامتوازن: توزیع طبقاتی داده های ماشینی در زندگی واقعی معمولا از یک توزیع به شدت چوله (اریب) پیروی می کند که در آن بیشتر نمونه های داده به دسته های کمی تعلق دارند. به عنوان مثال، تعداد دادههای خطا، بسیار کمتر از دادههای سلامت، در تشخیص خطا است. برخی از مدل های یادگیری ماشین پیشرفته از جمله SVM و ELM، برای رسیدگی به این مشکل نامتوازنی در پایش ماشینی سلامت، پیشنهاد شده اند [153,154]. اخیرا روش های جالبی برای بررسی کاربرد یادگیری عمیق در مسائل کلاس نامتوازن، توسعه یافته اند، که شامل مدل های CNN با نمونه گیری مجدد کلاس یا آموزش حساس به هزینه [155] و یکی کردن روش های بوت استراپ و مدل CNN است [156].
اعتقاد بر این است که در آینده، یادگیری عمیق، بیشتر و موثرتر، به ویژه در عصر داده های ماشینی بزرگ، بر پایش ماشینی سلامت تاثیر می گذارد.
2

تعداد صفحات : 46 | فرمت فایل : WORD

بلافاصله بعد از پرداخت لینک دانلود فعال می شود