دانلود ترجمه مقاله تحلیل سیگنال لرزه مقیاس بزرگ با hadoop
ترجمه در قالب فایل Word و قابل ویرایش میباشد
سال انتشار:2014
تعداد صفحه ترجمه:16
تعداد صفحه فایل انگلیسی:10
موضوع انگلیسی :Large-scale seismic signal analysis with Hadoop
موضوع فارسی:دانلود ترجمه مقاله تحلیل سیگنال لرزه مقیاس بزرگ با hadoop
چکیده انگلیسی:In seismology, waveform cross correlation has been used for years to produce high-precision hypocenter
locations and for sensitive detectors. Because correlated seismograms generally are found only at small
hypocenter separation distances, correlation detectors have historically been reserved for spotlight
purposes. However, many regions have been found to produce large numbers of correlated seismograms,
and there is growing interest in building next-generation pipelines that employ correlation as a core part
of their operation. In an effort to better understand the distribution and behavior of correlated seismic
events, we have cross correlated a global dataset consisting of over 300 million seismograms. This was
done using a conventional distributed cluster, and required 42 days. In anticipation of processing much
larger datasets, we have re-architected the system to run as a series of MapReduce jobs on a Hadoop
cluster. In doing so we achieved a factor of 19 performance increase on a test dataset. We found that
fundamental algorithmic transformations were required to achieve the maximum performance increase.
Whereas in the original IO-bound implementation, we went to great lengths to minimize IO, in the
Hadoop implementation where IO is cheap, we were able to greatly increase the parallelism of our
algorithms by performing a tiered series of very fine-grained (highly parallelizable) transformations on
the data. Each of these MapReduce jobs required reading and writing large amounts of data. But, because
IO is very fast, and because the fine-grained computations could be handled extremely quickly by the
mappers, the net was a large performance gain
چکیده فارسی: در لرزه شناسی، شکل موج cross correlation برای نمایش کانون زمین لرزه و برای ردیاب های حساس به مدت مدیدی مورد استفاده قرار می گرفت. به دلیل اینکه منحنی های لرزه نگار قرین (مرتبط) معمولاً تنها در فواصل جداسازی کانون زمین لرزه یافت شده اند، ردیاب های قرین از قدیم برای نورافکنی مورد استفاده قرار گرفته اند. اما، مناطق بسیاری کشف شده اند که برای تولید تعداد زیادی منحنی لرزه نگاری همبسته (قرین) مناسب هستند، و رشد قابل توجهی در ایجاد خطوط لوله نسل بعد که از همبستگی به عنوان بخش هسته ای عملیات استفاده می کند، یافته است. در تلاشی برای درک بهتر توزیع و رفتار زمین لرزه های مرتبط، ما پایگاه داده ی جهانی ای را مرتبط (cross correlate) کرده ایم که از بیش از 00 میلیون منحنی لرزه نگاری تشکیل شده است. این مورد با استفاده از کلاستر توزیع شده ی مرسوم انجام شد، و برای اجرا به 42 روز نیاز داشت. در پیش بینی پردازش پایگاه داده های بسیار بزرگتر، ما مجدداً سیستم را برای اجرا بعنوان یک سری کارهای کاهش نقشه روی کلاستر هادوپ طراحی کرده ایم. در انجام این کار ما در مجموعه داده ای تست به افزایش 19 عملکرد دست یافته ایم. ما دریافته ایم که برای رسیدن به ماکسیمم افزایش عملکرد، به تغییرات الگوریتمی اصلی نیاز داریم. درحالیکه در پیاده سازی دامنه ورودی-خروجی، ما برای به حداقل رساندن IO راه طولانی ای را طی می کنیم، که در آن IO کم ارزش است، ما می توانستیم با انجام یک سری تغییرات کاملاً تفکیک شده در داده ها، تقارن الگوریتم هایمان افزایش دهیم. هر یک از این کارهای کاهش نگاشت (نقشه) مستلزم مقادیر زیادی خواندن و نوشتن داده ها بود. اما، به دلیل اینکه IO بسیار سریع است، و همچنین به دلیل محاسبات کاملاض مجزا می توانند توسط نقشه نگارها بسیار سریع مدیریت شوند، حاصل نهایی عملکرد بسیار جامعی بود.