האם הלך לי המחשב?
יש לי לפטופ נאמן ששמו Thinkpad T61 8898-6dg.
שבוע שעבר, כשאמרתי לArchlinux שיכבה (sudo halt), הוא עשה את הפרוצדורה הרגילה, סיים את כל התהליכים והתכונן לכיבוי אבל ממש לפני הPOWER OFF הוא נתקע. לגמרי. אפילו הסמן הפסיק להבהב.
בשלב הזה הייתי לוחץ חמש שניות על כפתור הכיבוי כדי לכבות אותו בכח אבל פעם אחת נתתי לו בערך חמש דקות והקרנל שם לב שמשהו לא בסדר איתו. מה שהופיע על המסך זוהי ההודעה הבאה:
השורה המעניינת היא:
Watchdog detected hard LOCKUP on cpu 0
מה זה אומר? מה יכול לגרום לזה?
אמרתי לעצמי, יש בלינוקס בעיה, מוזר אבל אפשרי. לא דאגתי עד שראיתי מה קרה בשתי מערכות ההפעלה האחרות.
מותקנות לי במחשב שלוש מערכות הפעלה. Archlinux 64bit, Windows XP ו- Windows Server 2008 R2.
בשתי מערכות הWindows התחילו להופיע מסכים כחולים, הן הפסיקו להגיב או שפתאום המחשב הופעל מחדש. זיהיתי לפחות ארבעה סוגים שונים של מסכים כחולים:
IRQL_NOT_LESS_OR_EQUAL
DRIVER_IRQL_NOT_LESS_OR_EQUAL
SYSTEM_SERVICE_EXCEPTOIN
PAGE_FAULT_IN_NONPAGED_AREA
המערכות לא נתקעו בנקודה מסויימת. לפעמים הן לא הספיקו להגיע לDesktop. לפעמים יכולתי לעבוד שעתיים בלי שקרה כלום. רק דבר אחד היה עקבי. כל פעם שניסיתי להפעיל את ComboFix הוא אף פעם לא סיים את טעינת התוכנה. הופיע מסך כחול, או שהמחשב פשוט נכבה או שהוא נתקע ולא זז לחלוטין בלי מסך כחול. למה הרצתי את ComboFix? כי האנטיוירוס שלי MSE גם עשה משהו לא אופייני לו. הוא התריע על שני וירוסים וכשניסה להסיר אותם הוא אמר שהם Not Found. כל כמה דקות הוא היה מוצא אותם מחדש.
בשלב הזה התחלתי לחשוב על מחשב חדש. איזו בעיית תוכנה תוכל לגרום לשלוש מערכות הפעלה, שאחת מהן היא Linux, לבעיות חריפות בבת אחת? אני הייתי בטוח שזו בעיית חומרה. גם האתרים הרבים שביקרתי בהם בעקבות חיפוש המסכים הכחולים האלה בGoogle הצביעו על הכיוון הזה.
מצאתי כלי של IBM שנקרא PC-DOCTOR. זהו bootdisk מבוסס DOS מלא כלים לבדיקת חומרה עבור מחשבי Thinkpad. קיוויתי למצוא זיכרון פגום או רכיב אחר בר החלפה אבל (לצערי?) כל הבדיקות ללא יוצא מן הכלל הצביעו על חומרה תקינה לחלוטין.
ביקשתי עצה מחברים וקיבלתי שלל עצות. תתקין מחדש, נסה Repair, אולי זה Rootkit, בעיית מתח, בדוק את הHard Disk ועוד כל מיני רעיונות שלא מצאתי היגיון באף אחד מהם.
עוד משהו בילבל אותי. כשהרצתי את שתי מערכות הWindows בSafe Mode הן ניסו להתקין מחדש הרבה מהדרייברים של החומרה הפנימית של המחשב דוגמת IDE Controller. למה?
את הHD בדקתי במסגרת בדיקות החומרה אך לא בדקתי את מערכת הקבצים שיושבת עליו. אולי שם יש בעיה. לא חשבתי שזה הכיוון אבל מה יש לי להפסיד?
בין מסך כחול אחד למשנהו הצלחתי לומר לו שבReboot הבא יבצע ChkDsk. מוזר מאוד. מאות שגיאות. הוא תיקן את כולן והמשיך לעשות מסכים כחולים.
מזל שיש חברים. לחצו עלי להתקין מחדש וזה מה שעשיתי. העברתי לכונן נפרד את כל המידע החשוב ומחקתי לחלוטין את שתי מערכות הWindows. התקנתי מחדש את Windows Server 2008 R2 ומאז לא היו בעיות.
אבל מה קרה עם הלינוקס?
מסתבר שיש דבר כזה צירוף מקרים בעולם. בדיוק באותו זמן היה באג (?) בקרנל של לינוקס שגרם ל-LOCKUP המדובר. בגירסה 2.6.37.1 הבעיה נפתרה. הנה הThread בפורום: https://bbs.archlinux.org/viewtopic.php?id=113985
אני יוצא מכל הסיפור די מבולבל. אני עדיין לא יודע מה גרם לחלק מהסימפטומים. מה שאני כן יודע הוא שמזמן לא קרה לי שבעיה הצליחה ככה לבלבל אותי עד כדי כך שחשבתי שזו בעיית חומרה.
בדיעבד, ב"ה שטעיתי.
תגיות: Archlinux, Blue screen, BSOD, Freeze, Kernel, Linux, Lockup, Thinkpad
פורסם בתאריך 1st מרץ 2011 ע"י SoleSoul
3 תגובות
נשמע מעניין
על איזה קרנל מדובר ? לא ראיתי בתמונה (או ניסיתי להסתכל), כנ"ל לגבי הthread, יהיה מעניין לשחזר ולדאבג את זה
שלום מפה ולשם
לא ממש הבנתי למה אתה מתכוון אבל הקרנל המדובר הוא 2.26.37-ARCH
ואני לא רוצה לנסות להחזיר את הבעיה 🙂
תחבר דיבאגר ממחשב אחר ותבדוק מה קורה ברגע שלפני התקיעה.