پیاده سازی کلاسترینگ, خوشه‌بندي سلسله مراتبي (Hierarchical)

آموزش خوشه بندی سلسه مراتبی

آموزش خوشه بندی سلسه مراتبی

 

خوشه‌بندي سلسله مراتبي (Hierarchical) و خوشه‌بندي مسطح(Flat)

در روش خوشه بندي سلسله مراتبي، به خوشه‌هاي نهايي بر اساس ميزان عموميت آنها  ساختاري سلسله‌ مراتبي نسبت داده مي‌شود. مانند روشSingle Link. ولي در خوشه‌بندي مسطح تمامي خوشه‌هاي نهايي داراي يک ميزان عموميت هستند مانندK-Means. به ساختار سلسله مراتبي حاصل از روشهاي خوشه‌بندي سلسله مراتبي دندوگرام (Dendogram) گفته مي‌شود.

با توجه با اينکه روش‌هاي خوشه‌بندي سلسله مراتبي اطلاعات بيشتر و دقيق‌تري توليد مي‌کنند براي تحليل داده‌هاي با جزئيات پيشنهاد مي‌شوند ولي از طرفي چون پيچيدگي محاسباتي بالايي دارند براي مجموعه داده‌هاي بزرگ روش‌هاي خوشه‌بندي مسطح پيشنهاد مي‌شوند.

 

روشهاي خوشه‌بندي سلسله مراتبي

همان گونه که بيان شد، در روش خوشه بندي سلسله مراتبي، به خوشه‌هاي نهايي بر اساس ميزان عموميت آنها  ساختاري سلسله‌ مراتبي، معمولا به صورت درختي نسبت داده مي‌شود. به ا ين درخت سلسله مراتبي دندوگرام (dendogram) مي‌گويند. روش کار تکنيکهاي خوشه‌بندي سلسله‌مراتبي معمولا بر اساس الگوريتمهاي حريصانه (Greedy Algorithms) و بهينگي مرحله‌اي (stepwise-optimal) است. روشهاي خوشه‌بندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم مي‌شوند:

 

  1. بالا به پايين (Top-Down) يا تقسيم کننده (Divisive): در اين روش ابتدا تمام داده‌ها به عنوان يک خوشه در نظر گرفته مي‌شوند و سپس در طي يک فرايند تکراري در هر مرحله داده‌هايي شباهت کمتري به هم دارند به خوشه‌هاي مجزايي شکسته مي‌شوند و اين روال تا رسيدن به خوشه‌هايي که داراي يک عضو هستند ادامه پيدا مي‌کند.

 

  1. پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative): در اين روش ابتدا هر داده‌ها به عنوان خوشه‌اي مجزا در نظر گرفته مي‌شود و در طي فرايندي تکراري در هر مرحله خوشه‌هايي که شباهت بيشتري با يکديگر با يکديگر ترکيب مي‌شوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشه‌بندي سلسله مراتبي متراکم شونده رايج مي‌توان از الگوريتمهايSingle-Link، Average-Link و Complete-Link نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشه‌ها مربوط مي‌شود. که در بخشهاي بعد به تشريح هر يک پرداخته خواهد شد.

 

نمونه‌اي از روش خوشه‌بندي سلسله مراتبي و تفاوت بين روشهاي بالا به پايين و پايين به بالا در شکل زير مشاهده مي‌شود.

آموزش خوشه بندی سلسه مراتبی

شکل 3: تفاوت بين روشهاي بالا به پايين با روشهاي پايين به بالا
ا

 

خوشه‌بندي با روش Single-Link

اين روش يکي از قديمي‌ترين و ساده‌ترين روشهاي خوشه‌بندي است و جزء روشهاي خوشه‌بندي سلسله مراتبي و انحصاري محسوب مي‌شود. به اين روش خوشه‌بندي، تکنيک نزديکترين همسايه (Nearest Neighbour) نيز گفته مي‌شود.  در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده مي‌شود:

که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B مي‌باشد. در واقع در اين روش شباهت بين دو خوشه، کمترين فاصلة بين يک عضو از يکي با يک عضو از ديگري است. در شکل زير اين مفهوم بهتر نشان‌ داده شده است. [5]

آموزش خوشه بندی سلسه مراتبی

شکل 4:  شباهت بين دو خوشه در روش Single-Link برابر است با کمترين فاصلة بين داده‌هاي دو خوشه

1-1-1-  مثال: در اين قسمت سعي شده است تا در مثالي با  فرض داشتن 6 نمونه داده و ماتريس فاصلة بين آنها که در جدول 1 نشان‌داده شده است، نحوة اعمال روش خوشه‌بندي Single-Link بهتر تشريح شود.

 

جدول 1: ماتريس فاصلة بين 6 نمونة داده

1 2 3 4 5 6
1 0 4 13 24 12 8
2 0 10 22 11 10
3 0 7 3 9
4 0 6 18
5 0 8.5
6 0

 

 

در ابتدا هر داده به عنوان يک خوشه در نظر گرفته مي‌شود و يافتن نزديکترين خوشه در واقع يافتن کمترين فاصلة بين داده‌هاي بالا خواهد بود. با توجه به جدول 1 مشخص است که داده‌هاي 3 و 5 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با کمترين فاصلة بين 3 و يا 5 از ساير خوشه‌ها. نتيجه در جدول 2 نشان ‌داده شده است.

 

جدول 2: ماتريس فاصلة بين 5 خوشة حاصل از تکرار اول

1 2 (3 و 5) 4 6
1 0 4 12 24 8
2 0 10 22 10
(3 و 5) 0 6 8.5
4 0 18
6 0

 

با توجه به جدول 2 مشخص است که داده‌هاي 1 و 2 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با کمترين فاصلة بين 1 و يا 2 از ساير خوشه‌ها. نتيجه در جدول 3 نشان ‌داده شده است.

 

جدول 3: ماتريس فاصلة بين 4 خوشة حاصل از تکرار دوم

(1 و 2) (3 و 5) 4 6
(1 و 2) 0 10 22 8
(3 و 5) 0           6       8.5
4 0 18
6 0

 

با توجه به جدول 3 مشخص است که خوشه‌هاي (3 و 5) و 4 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با کمترين فاصلة بين (3 و 5) و يا 4 از ساير خوشه‌ها. نتيجه در جدول4 نشان ‌داده شده است.

 

جدول 4: ماتريس فاصلة بين 3 خوشة حاصل از تکرار سوم

(1 و 2) (3، 4 و 5) 6
(1 و 2) 0 10 8
(3، 4 و 5) 0 8.5
6 0

 

با توجه به جدول 4 مشخص است که خوشه‌هاي (1 و 2) و 6 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با کمترين فاصلة بين (1 و 2) و يا 6 از ساير خوشه‌ها. نتيجه در جدول5 نشان ‌داده شده است.

 

جدول 5: ماتريس فاصلة بين 2 خوشة حاصل از تکرار چهارم

(1، 2 و 6) (3، 4 و 5)
(1، 2 و 6) 0 8.5
(3، 4 و 5) 0

در نهايت اين دو خو‌شة حاصل ا هم ترکيب مي‌شوند. نتيجه در دندوگرام شکل 5 نشان داده شده است.

آموزش خوشه بندی سلسه مراتبی

شکل 5: دندوگرام مثال Single-Link

 

خوشه‌بندي با روش Complete-Link

 

این روش همانند Single-Link جزء روشهاي خوشه‌بندي سلسله مراتبي و انحصاري محسوب مي‌شود. به اين روش خوشه‌بندي، تکنيک دورترين همسايه (furthest Neighbour) نيز گفته مي‌شود.  در اين روش براي محاسبة شباهت بين دو خوشة Aو B از معيار زير استفاده مي‌شود:

(2)

 

که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B مي‌باشد. در واقع در اين روش شباهت بين دو خوشه بيشترين فاصلة بين يک عضو از يکي با يک عضو از ديگري است. در شکل زير اين مفهوم بهتر نشان‌ داده شده است. [5]

آموزش خوشه بندی سلسه مراتبی

شکل 6: شباهت بين دو خوشه در روش Complete-Link برابر است با بيشترين فاصلة بين داده‌هاي دو خوشه.

 

 مثال: در اين قسمت سعي شده است تا در مثالي با  فرض داشتن 6 نمونه داده و ماتريس فاصلة بين آنها که در جدول 6 نشان ‌داده شده است، نحوة اعمال روش خوشه‌بنديComplete-Link بهتر تشريح شود.

 

جدول 6: ماتريس فاصلة بين 6 نمونة داده

1 2 3 4 5 6
1 0 4 13 24 12 8
2 0 10 22 11 10
3 0 7 3 9
4 0 6 18
5 0 8.5
6 0

 

در ابتدا هر داده به عنوان يک خوشه در نظر گرفته مي‌شود و يافتن نزديکترين خوشه در واقع يافتن کمترين فاصلة بين داده‌هاي بالا خواهد بود. با توجه به جدول 6 مشخص است که داده‌هاي 3 و 5 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است بابيشترين فاصلة بين 3 و يا 5 از ساير خوشه‌ها. نتيجه در جدول 7 نشان ‌داده شده است.

 

جدول 7: ماتريس فاصلة بين 5 خوشة حاصل از تکرار اول

1 2 (3 و 5) 4 6
1 0 4 13 24 8
2 0 11 22 10
(3 و 5) 0 7 9
4 0 18
6 0

 

با توجه به جدول 7 مشخص است که داده‌هاي 1 و 2 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با بيشترين فاصلة بين 1 و يا 2 از ساير خوشه‌ها. نتيجه در جدول 8 نشان ‌داده شده است.

 

جدول 8: ماتريس فاصلة بين 4 خوشة حاصل از تکرار دوم

(1 و 2) (3 و 5) 4 6
(1 و 2) 0 13 24 10
(3 و 5) 0 7 9
4 0 18
6 0

 

با توجه به جدول 8 مشخص است که خوشه‌هاي (3 و 5) و 4 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با بيشترين فاصلة بين (3 و 5) و يا 4 از ساير خوشه‌ها. نتيجه در جدول 9 نشان ‌داده شده است.

 

جدول 9: ماتريس فاصلة بين 3 خوشة حاصل از تکرار سوم

(1 و 2) (3، 4 و 5) 6
(1 و 2) 0 24 10
(3، 4 و 5) 0 18
6 0

 

با توجه به جدول 9 مشخص است که خوشه‌هاي (1 و 2) و 6 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با بيشترين فاصلة بين (1 و 2) و يا 6 از ساير خوشه‌ها. نتيجه در جدول 10 نشان ‌داده شده است.

 

جدول 10: ماتريس فاصلة بين 2 خوشة حاصل از تکرار چهارم

(1، 2 و 6) (3، 4 و 5)
(1، 2 و 6) 0 24
(3، 4 و 5) 0

 

در نهايت اين دو خو‌شة حاصل ا هم ترکيب مي‌شوند. نتيجه در دندوگرام شکل 7 نشان داده شده است.

آموزش خوشه بندی سلسه مراتبی

شکل 7: دندوگرام مثال Complete-Link

 

خوشه‌بندي با روش Average-Link

 

اين روش همانند Single-Link جزء روشهاي خوشه‌بندي سلسله مراتبي و انحصاري محسوب مي‌شود.  از آنجا که هر دو روش خوشه‌بندي Single-link و Complete-link بشدت به نويز حساس مي‌باشد، اين روش که محاسبات بيشتري دارد، پيشنهاد شد. در اين روش براي محاسبة شباهت بين دو خوشة A و B از معيار زير استفاده مي‌شود:

(3)

 

که i يک نمونه داده متعلق به خوشة A و j يک نمونه دادة متعلق به خوشة B مي‌باشد. و NA تعداد اعضاء خوشة A  و NB تعداد اعضاء خوشة B است. در واقع در اين روش، شباهت بين دو خوشه ميانگين فاصلة بين تمام اعضاء يکي با تمام اعضاء ديگري است. در شکل زير اين مفهوم بهتر نشان‌ داده شده است. [5]

 

شکل 8: شباهت بين دو خوشه در روش Average-Link برابر است با ميانگين فاصلة بين داده‌هاي دو خوشه

 

  مثال: در اين قسمت سعي شده است تا در مثالي با  فرض داشتن 6 نمونه داده و ماتريس فاصلة بين آنها که در جدول 11 نشان ‌داده شده است، نحوة اعمال روش خوشه‌بنديAverage-Link بهتر تشريح شود.

 

جدول 11: ماتريس فاصلة بين 6 نمونة داده

1 2 3 4 5 6
1 0 4 13 24 12 8
2 0 10 22 11 10
3 0 7 3 9
4 0 6 18
5 0 8.5
6 0

 

در ابتدا هر داده به عنوان يک خوشه در نظر گرفته مي‌شود و يافتن نزديکترين خوشه در واقع يافتن کمترين فاصلة بين داده‌هاي بالا خواهد بود. با توجه به جدول 11 مشخص است که داده‌هاي 3 و 5 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است باميانگين فاصلة بين 3 و 5 از ساير خوشه‌ها. نتيجه در جدول 12 نشان ‌داده شده است.

 

جدول 12: ماتريس فاصلة بين 5 خوشة حاصل از تکرار اول

1 2 (3 و 5) 4 6
1 0 4 12.5 24 8
2 0 10.5 22 10
(3 و 5) 0 6.5 8.75
4 0 18
6 0

 

با توجه به جدول 12 مشخص است که داده‌هاي 1 و 2 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با بيشترين فاصلة بين 1 و يا 2 از ساير خوشه‌ها. نتيجه در جدول 13 نشان ‌داده شده است.

 

جدول 13: ماتريس فاصلة بين 4 خوشة حاصل از تکرار دوم

(1 و 2) (3 و 5) 4 6
(1 و 2) 0 11.5 23 9
(3 و 5) 0 6.5 8.75
4 0 18
6 0

 

با توجه به جدول 13 مشخص است که خوشه‌هاي (3 و 5) و 4 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با بيشترين فاصلة بين (3 و 5) و يا 4 از ساير خوشه‌ها. نتيجه در جدول 14 نشان ‌داده شده است.

 

جدول 14: ماتريس فاصلة بين 3 خوشة حاصل از تکرار سوم

(1 و 2) (3، 4 و 5) 6
(1 و 2) 0 23 9
(3، 4 و 5) 0 18
6 0

 

با توجه به جدول 14 مشخص است که خوشه‌هاي (1 و 2) و 6 کمترين فاصله را دارا هستند. و در نتيجه آنها را با هم ترکيب کرده و خوشة جديدي حاصل مي‌شود که فاصلة آن از ساير خوشه‌ها برابر است با بيشترين فاصلة بين (1 و 2) و يا 6 از ساير خوشه‌ها. نتيجه در جدول 15 نشان ‌داده شده است.

 

جدول 15: ماتريس فاصلة بين 2 خوشة حاصل از تکرار چهارم

(1، 2 و 6) (3، 4 و 5)
(1، 2 و 6) 0 20.5
(3، 4 و 5) 0

 

در نهايت اين دو خو‌شة حاصل ا هم ترکيب مي‌شوند. نتيجه در دندوگرام شکل 9 نشان داده شده است.

آموزش خوشه بندی سلسه مراتبی

شکل 9: دندوگرام مثال Average-Lin

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *