یک روش جدید برای ساخت شبکه ها از داده های باینری

  • 2021-10-27

تجزیه و تحلیل شبکه در حال ورود به زمینه هایی است که ساختارهای شبکه ناشناخته است ، مانند روانشناسی و علوم آموزشی. یک گام اساسی در استفاده از مدل های شبکه در ارزیابی ساختار شبکه نهفته است. روشهای فعلی یا اشکالاتی جدی دارند یا فقط برای داده های گاوسی مناسب هستند. در مقاله حاضر ، ما روشی را برای ارزیابی ساختارهای شبکه از داده های باینری ارائه می دهیم. اگرچه مدل هایی برای داده های باینری برای تحریک پذیری محاسباتی آنها بدنام است ، ما یک مدل محاسباتی کارآمد برای برآورد ساختارهای شبکه ارائه می دهیم. این رویکرد ، که مبتنی بر مدل های ISING است که در فیزیک استفاده می شود ، رگرسیون لجستیک را با انتخاب مدل بر اساس یک اندازه گیری مناسب و مناسب برای شناسایی روابط مربوطه بین متغیرهایی که ارتباطات در یک شبکه را تعریف می کنند ، ترکیب می کند. یک مطالعه اعتبار سنجی نشان می دهد که این روش موفق می شود مهمترین ویژگی های یک شبکه را برای اندازه های نمونه واقع گرایانه آشکار کند. ما روش پیشنهادی خود را برای برآورد شبکه افسردگی و علائم اضطراب از نمرات علائم 1108 نفر اعمال می کنیم. پسوندهای احتمالی مدل مورد بحث قرار گرفته است.

مقدمه

تحقیقات در مورد شبکه های پیچیده در حال رشد است و امکانات آماری برای تجزیه و تحلیل ساختارهای شبکه به موفقیت بزرگی در دهه گذشته 1،2،3،4،5 توسعه یافته است. شبکه ها در بسیاری از رشته های علمی مختلف مورد مطالعه قرار می گیرند: از فیزیک و ریاضیات گرفته تا علوم اجتماعی و زیست شناسی. نمونه هایی از مباحثی که اخیراً در معرض رویکردهای شبکه قرار گرفته اند شامل اطلاعات ، روانشناسی و نگرش 6،7،8،9،10 است. با استفاده از روانشناسی به عنوان نمونه ، گره ها (عناصر) در یک شبکه افسردگی ممکن است علائم را شامل شود ، در حالی که لبه ها (اتصالات) نشان می دهد که علائم تا چه اندازه بر یکدیگر تأثیر می گذارند. با این حال ، ساختار چنین شبکه ای به دلیل عدم وجود یک تئوری به اندازه کافی رسمی افسردگی ناشناخته است. در نتیجه ، ساختار شبکه باید از اطلاعات در داده ها استخراج شود. سوال چالش برانگیز نحوه استخراج آن است.

روش هایی که در حال حاضر برای کشف ساختارهای شبکه در زمینه روانشناسی استفاده می شوند ، مبتنی بر همبستگی ها ، همبستگی های جزئی و الگوهای استقلال مشروط 7،11،12،13 است. اگرچه چنین تکنیک هایی برای به دست آوردن اولین برداشت از داده ها مفید هستند ، اما آنها از تعدادی از اشکالاتی رنج می برند. به عنوان مثال ، همبستگی ها و همبستگی های جزئی به فرضیات خطی و عادی بودن نیاز دارند ، که به ندرت در روانشناسی راضی هستند و برای داده های باینری لزوماً نادرست هستند. الگوریتم هایی مانند PC-Algorithm1 14،15 ، که می توانند برای جستجوی ساختار علی استفاده شوند ، اغلب فرض می کنند که شبکه ها به کارگردانی و acyclic هستند که در بسیاری از موارد روانشناختی بعید است. سرانجام ، در هر یک از این روشها ، محققان برای تعیین اینکه آیا اتصال شبکه وجود دارد یا خیر ، به برش های دلخواه متکی هستند. یک روش متداول برای تعیین چنین مقادیر برش ، از طریق آزمایش هلیپتز تهی است که اغلب به سطح دلخواه اهمیت α = 0. 05 بستگی دارد. در مورد تجزیه و تحلیل شبکه ، با این حال ، اغلب باید تعداد قابل توجهی از تست های اهمیت را انجام دهد. می توان این مسئله را نادیده گرفت ، که منجر به یک مشکل آزمایش چندگانه می شود ، یا از طریق اصلاحات Bonferonni ، (محلی) کشف کاذب یا سایر روش های 16،17،18 با آن مقابله می کند ، که منجر به از بین رفتن قدرت خواهد شد.

برای داده های مداوم با مشاهدات توزیع شده گاوسی چند متغیره ، ماتریس کواریانس معکوس نمایانگر یک شبکه غیرمجاز است (همچنین یک میدان تصادفی مارکوف 19،20 نامیده می شود). با توجه به متغیرهای دیگر 21 ، ورود صفر در ماتریس کواریانس معکوس با حضور استقلال مشروط بین متغیرهای مربوطه مطابقت دارد. برای یافتن ساده ترین مدل که داده ها را به اندازه کافی ممکن با توجه به اصل پارسیمونی توضیح می دهد ، استراتژی های مختلفی برای یافتن تقریب پراکنده ماتریس کواریانس معکوس بررسی شده است. چنین تقریب پراکنده را می توان با تحمیل یک ℓ بدست آورد1-Penalty (Lasso) در مورد تخمین ماتریس کواریانس معکوس 13،22،23. Lasso باعث کاهش همبستگی های جزئی می شود و دیگران را دقیقاً به صفر 24 می رساند. یک برداشت متفاوت شامل تخمین همسایگی هر متغیر به صورت جداگانه است ، همانطور که در رگرسیون استاندارد با یک1-Penalty 25 ، به جای استفاده از ماتریس کواریانس معکوس. این تقریب به1ماتریس کواریانس معکوس. این روش تقریب گاوسی یک جایگزین جالب است: از نظر محاسباتی کارآمد و بدون علامت سازگار 25 است.

در روانشناسی و علوم آموزشی ، متغیرها اغلب گاوسی نیستند بلکه گسسته هستند. اگرچه زمینه های تصادفی مارکوف گسسته به دلیل عدم تحرک محاسباتی آنها بدنام است ، ما یک معادل باینری از روش تقریب گاوسی را پیشنهاد می کنیم که شامل رگرسیون است و از نظر محاسباتی 26 کارآمد است. این روش برای داده های باینری ، که ما با جزئیات بیشتری در بخش Methods توضیح می دهیم ، بر اساس مدل ISING 19،27 است. در این مدل ، متغیرها می توانند در هر یک از دو حالت باشند و تعامل بیشتر به صورت زوج است. این مدل شامل دو پارامتر خاص گره است: پارامتر تعامل βjk، که نشان دهنده قدرت تعامل بین متغیر J و K و پارامتر گره τ استj، که نشانگر تمایل خودمختار متغیر برای گرفتن مقدار یک ، صرف نظر از متغیرهای همسایه است. به عبارت ساده ، روش پیشنهادی در مدل ما این پارامترها را با رگرسیون لجستیک تخمین می زند: به طور مکرر ، یک متغیر بر روی سایر موارد رکود می شود. با این حال ، برای به دست آوردن کمبود ، یک1-صلیبی به ضرایب رگرسیون تحمیل می شود. سطح انقباض بستگی به پارامتر پنالتی لاسو دارد. پارامتر پنالتی باید با دقت انتخاب شود ، در غیر این صورت لاسو به شبکه اساسی واقعی منجر نمی شود - شبکه تولید داده 25. معیار اطلاعات بیزی 28 (EBIC) نشان داده شده است که در هنگام رشد نمونه به شبکه واقعی منجر می شود و منجر به یک میزان انتخاب مثبت نسبتاً خوب می شود ، اما در داشتن نرخ مثبت کاذب پایین 29 عملکرد کاملاً بهتر از سایر اقدامات را انجام می دهد.

با استفاده از این رویکرد ، ما یک روش منسجم را ایجاد کرده ایم که ما آن را Elasso می نامیم. این روش در بسته R آزادانه R در دسترس IsingFit (http://cran. r-project. org/web/packages/isingfit/isingfit. pdf) اجرا شده است. با استفاده از شبکه های وزنی شبیه سازی شده ، مقاله حاضر عملکرد این روش را با بررسی تا چه اندازه این روش در برآورد شبکه ها از داده های باینری انجام می دهد. ما داده ها را از معماری های مختلف شبکه شبیه سازی می کنیم (به عنوان مثال ، شبکه های واقعی ؛ شکل 1A و 1B را ببینید) و سپس از داده های حاصل به عنوان ورودی برای Elasso استفاده می کنیم. معماری های شبکه مورد استفاده در این مطالعه شامل شبکه های کلمه ای تصادفی ، بدون مقیاس و کوچک 30،31،32 است. علاوه بر این ، ما اندازه شبکه ها را با استفاده از شرایط با گره های 10 ، 20 ، 30 و 100 متغیر کردیم و شامل سه سطح اتصال (کم ، متوسط و زیاد) هستیم. سرانجام ، ما اندازه نمونه را بین 100 ، 500 ، 1000 و 2000 مشاهده کردیم. پس از استفاده از Elasso ، شبکه های تخمین زده شده (شکل 1C) را با شبکه های واقعی مقایسه می کنیم. ما نشان می دهیم که Elasso با اطمینان ساختارهای شبکه را تخمین می زند و با استفاده از آن در داده های روانشناسی ، کاربرد روش ما را نشان می دهد.

figure 1

نمونه هایی از شبکه هایی با 30 گره در مطالعه شبیه سازی.

(الف) شبکه های تولید شده. از چپ به راست: شبکه تصادفی (احتمال اتصال اضافی 0. 1) ، شبکه بدون مقیاس (قدرت پیوست ترجیحی 1 است) و شبکه جهانی کوچک (احتمال مجدد 0. 1).(ب) نسخه های وزنی (الف) که برای تولید داده ها (شبکه های واقعی) استفاده می شوند.(ج) شبکه های تخمین زده شده.

نتایج

مطالعه اعتبار سنجی

شبکه های برآورد شده هماهنگی بالایی با شبکه های واقعی مورد استفاده برای تولید داده ها نشان می دهند (شکل 2). همبستگی متوسط بین ضرایب درست و برآورد شده در همه شرایط با 500 مشاهده یا بیشتر زیاد است (88/0 = M ، SD = . 158 ، به جدول 1 مراجعه کنید). در کوچکترین شرایط اندازه نمونه که شامل تنها 100 مشاهده است ، به نظر می رسد شبکه های برآورد شده تا حدودی بیشتر از شبکه های واقعی منحرف می شوند ، اما حتی در این حالت مهمترین اتصالات بازیابی می شوند و میانگین همبستگی بین شبکه های تولید و برآورد شده همچنان قابل توجه است (M =. 556 ، SD = . 155). بنابراین ، عملکرد کلی Elasso کافی است.

جدول 1 همبستگی به عنوان اندازه گیری عملکرد Elasso. همبستگی بین مثلث فوقانی ماتریس مجاور وزنی شبکه تولید داده ها و شبکه تخمین زده شده محاسبه می شود. داده ها در شرایط مختلف شبیه سازی می شوند (sاندازه، nگره، اتصال (P (احتمال اتصال) ، PA (پیوست ترجیحی) ، PR (احتمال بازپرداخت)) هنگام استفاده از و قانون و γ = . 25. برای شبکه هایی با 100 گره ، سطح انحراف اتصال بین براکت ها نمایش داده می شود. نتایج استفاده از Elasso با یا قانون و γ = 0 بین براکت ها نمایش داده می شود

figure 2

میانگین همبستگی (محورهای عمودی) مثلثهای فوقانی ماتریس مجاور وزنی شبکه های واقعی و برآورد شده از 100 شبیه سازی با شبکه های جهانی تصادفی ، بدون مقیاس و کوچک برای اندازه نمونه هااندازه= 100 ، 500 ، 1000 و 2000 ، با تعداد گره nگره= 10 ، 20 ، 30 و 100.

ما از سه سطح اتصال استفاده کردیم (شبکه های تصادفی: احتمال اتصال اضافی Pاتصال= . 1 ، . 2 و . 3 ؛شبکه های بدون مقیاس: قدرت پیوست ترجیحی pضمیمه کردن= 1 ، 2 و 3 ؛شبکه های جهانی کوچک: احتمال بازپرداخت Pمجدداً= . 1 ، . 5 و 1). برای شرایط با 100 گره ، ما از سطوح مختلف اتصال برای شبکه های تصادفی و بدون مقیاس به منظور دستیابی به شبکه های واقع گرایانه تر استفاده کردیم (شبکه های تصادفی: Pاتصال= . 05 ، . 1 و . 15 ؛شبکه های بدون مقیاس: Pضمیمه کردن= 1 ، 1. 25 و 1. 5).

اطلاعات دقیق تر در مورد عملکرد eLasso با حساسیت و ویژگی ارائه شده است. حساسیت بیانگر نسبت اتصالات واقعی است که به درستی به عنوان موجود تخمین زده می شود و به عنوان نرخ مثبت واقعی نیز شناخته می شود. ویژگی مربوط به نسبت اتصالات غایب است که به درستی به عنوان صفر تخمین زده می شود و به عنوان نرخ منفی واقعی نیز شناخته می شود. نشان داده شده است که حساسیت و ویژگی زمانی که اندازه نمونه به اندازه کافی بزرگ باشد به 1 تمایل دارد 29،33; سوال این است که برای کدام اندازه های نمونه نزدیک می شویم. به طور کلی، ویژگی در تمام شرایط بسیار نزدیک به یک است (M = 0. 990، sd = 0. 014) با امتیازهای اختصاصی تا حدودی پایین تر برای بزرگترین و متراکم ترین شبکه های تصادفی (جدول 2 را ببینید). به طور کلی، حساسیت کمتر است (M = 0. 463، sd = 0. 238) اما برای شرایطی که شامل بیش از 100 مشاهده است، متوسط می شود (M = 0. 568، sd = 0. 171). دلیل اینکه حساسیت کمتر از ویژگی است در استفاده از تابع پنالتی (کند) نهفته است. برای مدیریت اندازه مسئله محاسباتی، eLasso تمایل دارد تا اتصالات کوچک اما غیر صفر را به سمت صفر سرکوب کند. بنابراین، مقادیر حساسیت کمتر عمدتاً منعکس کننده این واقعیت است که اتصالات بسیار ضعیف روی صفر تنظیم شده اند. با این حال، اتصالات مهم تقریباً به درستی شناسایی شده اند. علاوه بر این، نتایج ویژگی نشان می دهد که موارد مثبت کاذب بسیار کمی در شبکه های برآورد شده وجود دارد. بنابراین، eLasso مشکل تست چندگانه را به خوبی کنترل می کند. شکل 1 به خوبی این نتایج را نشان می دهد: تقریباً تمام اتصالات تخمین زده شده در شکل 1c نیز در شبکه تولید کننده نشان داده شده در شکل 1b (ویژگی بالا) وجود دارند، اما اتصالات ضعیف تر در شبکه اصلی دست کم گرفته می شوند (حساسیت کم).

جدول 2 حساسیت و ویژگی، به عنوان معیاری برای عملکرد eLasso. داده ها تحت شرایط مختلف شبیه سازی می شوند (sاندازه، nگره، اتصال (P (احتمال اتصال) ، PA (پیوست ترجیحی) ، PR (احتمال بازپرداخت)) هنگام استفاده از و قانون و γ = . 25. برای شبکه هایی با 100 گره ، سطح انحراف اتصال بین براکت ها نمایش داده می شود. نتایج استفاده از Elasso با یا قانون و γ = 0 بین براکت ها نمایش داده می شود

الگوی فوق نتایج ، شامل بازیابی شبکه کافی با ویژگی بالا و حساسیت نسبتاً بالا ، تقریباً برای همه شرایط شبیه سازی شده نماینده است. تنها استثناء این قانون هنگامی حاصل می شود که بزرگترین شبکه های تصادفی و بدون مقیاس (100 گره) با بالاترین سطح اتصال همراه باشند. در این موارد ، ضرایب تخمین زده شده همبستگی ضعیفی با ضرایب شبکه های تولید کننده نشان می دهند ، حتی برای شرایط مربوط به 2000 مشاهدات (به ترتیب . 222 و . 681). برای شبکه های تصادفی ، دلیل این امر این است که با افزایش سطح اتصال ، تعداد اتصالات افزایش می یابد. برای شبکه های بدون مقیاس ، تعداد اتصالات با افزایش سطح اتصال افزایش نمی یابد ، اما منجر به ترتیب عجیب و غریب اتصالات شبکه می شود ، که در آن یک گره به طور نامتناسب اتصالات زیادی دارد. از آنجا که Elasso متغیرهایی را برای داشتن اتصالات بیشتر مجازات می کند ، اندازه نمونه های بزرگتر برای غلبه بر این مجازات برای این نوع شبکه ها مورد نیاز است.

اگرچه سطح پایین تر حساسیت تا حدودی در روش انتخاب شده ذاتی است تا اندازه محاسباتی مسئله و راه حل آزمایش های متعدد از طریق مجازات را انجام دهد ، ممکن است در بعضی موارد مطلوب باشد که با هزینه ویژگی حساسیت بیشتری داشته باشند. در الاسو ، به طور کلی حساسیت می تواند از دو طریق افزایش یابد. اول ، Elasso مجموعه ای از همسایگان را برای هر گره با محاسبه EBIC 28 (BIC گسترده) مشخص می کند. EBIC راه حل هایی را که شامل متغیرهای بیشتر و همسایگان بیشتری است ، مجازات می کند. این بدان معناست که اگر تعداد متغیرها زیاد باشد ، EBIC تمایل دارد راه حل هایی را که همسایگان کمتری را به هر گره معین اختصاص می دهد ، طرفدار کند. در این روش ، یک هیپرپارامتر به نام γ قدرت مجازات اضافی را در تعداد همسایگان 29،33 تعیین می کند. در مطالعه شبیه سازی اصلی ما ، از γ = 0. 25 استفاده کردیم. هنگامی که γ = 0 ، هیچ مجازات اضافی برای تعداد همسایگان داده نمی شود ، که منجر به تعداد بیشتری از اتصالات تخمین زده می شود. دوم ، ما به اصطلاح و قانون را برای تعیین مجموعه لبه نهایی اعمال کردیم. و قانون به هر دو ضرایب رگرسیون β نیاز داردjkو βKJ(از1رگرسیون لجستیک تنظیم شده xjدر xkو از xkدر xj) به غیر Zero. از طرف دیگر ، یا قانون قابل استفاده است. یا قانون فقط به یکی از β نیاز داردjkو βKJبه عنوان Nonzero ، که منجر به اتصالات تخمین زده شده تر نیز می شود.

با استفاده از یا قانون و γ = 0 ، همبستگی بین ضرایب درست و برآورد شده حتی در همه شرایط با 500 مشاهده و بیشتر بیشتر است (M = . 895 ، SD = . 156 ؛ جدول 1). حساسیت نیز در همه شرایط بهبود یافته است (M = . 584 ، SD = . 221 ؛ جدول 2). با بیش از 100 مشاهده ، حساسیت متوسط بالاتر است (682/0 = M ، SD = . 153). استفاده از یا قانون و تنظیم γ = 0 بنابراین در واقع حساسیت Elasso را افزایش می دهد. همانطور که انتظار می رفت ، این افزایش حساسیت منجر به از بین رفتن ویژگی می شود. با این حال ، این ضرر اندک است ، زیرا ویژگی در همه شرایط زیاد است (95/0 = m ، SD = 0. 039 ؛ جدول 2).

سرانجام ، لازم به ذکر است که با شبکه های پراکنده ، ویژگی تا حدودی مقادیر بالایی را به دلیل پایین بودن نرخ اتصالات به خود اختصاص می دهد ، زیرا این امر بر اساس تعداد منفی های واقعی است. بنابراین ، ما همچنین یک اقدام دیگر ، به اصطلاح نمره F1 را مورد بررسی قرار دادیم ، که مبتنی بر منفی های واقعی نیست بلکه بر اساس مثبت های واقعی ، مثبت کاذب و منفی های دروغین 34 است. به همین ترتیب ، مستقل از نرخ پایه است. برای بیشتر شرایط ، روند نتایج قابل مقایسه است. با این حال ، برای شبکه های تصادفی بزرگتر و/یا متراکم تر ، نسبت اتصالات برآورد شده که در شبکه واقعی وجود ندارند بزرگتر است. جزئیات بیشتر در مورد این نتایج در اطلاعات تکمیلی آنلاین ارائه شده است.

برای نتیجه گیری ، Elasso ثابت می کند که یک روش مناسب برای برآورد شبکه ها از داده های باینری است. مطالعه اعتبار سنجی نشان می دهد که با اندازه نمونه 500 ، 1000 و 2000 ، شبکه تخمین زده شده به شدت شبیه شبکه واقعی (همبستگی بالا) است. ویژگی به طور یکنواخت در شرایط زیاد است ، به این معنی که عدم وجود مثبت کاذب در بین اتصالات تخمین زده شده شبکه وجود دارد. حساسیت نسبتاً زیاد است و با اندازه نمونه افزایش می یابد. در بیشتر موارد ، حساسیت به دلیل اتصالات ضعیف که به اشتباه صفر تنظیم شده اند ، کاهش می یابد. با این حال ، در این موارد ، Elasso هنوز هم به اندازه کافی مهمترین ساختارهای اتصال را انتخاب می کند. برای شبکه های بزرگتر با اتصال بالاتر یا سطح بالاتری از دلبستگی ترجیحی ، حساسیت پایین تر می شود. در این موارد مشاهدات بیشتری لازم است.

برنامه به داده های واقعی

برای نشان دادن کاربرد Elasso ، ما آن را در یک مجموعه داده بزرگ (1108 = N) که حاوی اندازه گیری افسردگی کنترل های سالم و بیماران با فعلی یا سابقه اختلال افسردگی است ، اعمال می کنیم. ما از 27 مورد از موجودی علائم افسردگی 35 استفاده کردیم ، که در مطالعه هلند از افسردگی و اضطراب 36 (NESDA) انجام شد. با استفاده از Elasso ، ما بررسی می کنیم که چگونه علائم افسردگی فردی در ارتباط است ، زیرا این ممکن است نشان دهد که علائم در شبکه افسردگی مهم است. به نوبه خود ، این اطلاعات ممکن است برای شناسایی اهداف برای مداخله در عمل بالینی استفاده شود.

شبکه Elasso برای این داده ها در شکل 3 آورده شده است. برای تجزیه و تحلیل شبکه افسردگی ، ما روی برجسته ترین خصوصیات گره ها در یک شبکه تمرکز می کنیم: قدرت گره ، بین بودن و ضریب خوشه بندی (شکل 4). استحکام گره اندازه گیری تعداد اتصالات یک گره است که توسط ضرایب Elasso 37 وزن دارد. اندازه گیری بین هر چند وقت یک گره در کوتاهترین مسیر بین هر ترکیب دو گره دیگر اندازه گیری می کند ، نشان می دهد که گره در جریان اطلاعات از طریق شبکه 38،39 چقدر مهم است. ضریب خوشه بندی محلی اندازه گیری از میزان تمایل گره ها با هم جمع می شود. این تعریف شده است که چند بار یک گره با همسایگان مستقیم خود مثلث تشکیل می دهد ، متناسب با تعداد مثلث های بالقوه که گره مربوطه می تواند با همسایگان مستقیم خود 38 شکل بگیرد. این اقدامات نشانگر گسترش احتمالی فعالیت از طریق شبکه است. از آنجا که علائم فعال شده می تواند علائم دیگر را فعال کند ، یک شبکه متراکم تر فعال سازی علائم را تسهیل می کند. علاوه بر این ، ما ساختار جامعه شبکه های حاصل از داده های تجربی را بررسی می کنیم تا خوشه های علائمی را که به ویژه در ارتباط هستند ، شناسایی کنیم.

figure 3

استفاده از Elasso در داده های واقعی.

ساختار شبکه حاصل از گروهی از کنترل های سالم و افراد مبتلا به فعلی یا سابقه اختلال افسردگی (1108 نفر). علائم شناختی به عنوان ○ و لبه های ضخیم تر (اتصالات) نشان دهنده ارتباطات قوی تر است.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.