כיצד ראיית מכונה (MV) מקדמת אוטומציה עכשיו‏

מאת ‎Jody Muelaner

ראיית מכונה (MV) היא אוסף טכנולוגיות הנותנות לציוד אוטמטי (תעשייתי או אחר) רמה גבוהה של הבנה של הסביבה הקרובה מתמונות. ללא תוכנת ראיית-מכונה, תמונות דיגיטליות היו אוסף של פיקסלים ללא קשר ביניהם בעלי ערכי צבע ועוצמות גוון שונים לציוד כזה. ראיית מכונה מאפשרת למחשבים (בדרך כלל מחוברים למערכות בקרה של מכונה) לזהות קצוות וצורות בתמונות כאלו כדי לאפשר בתורן לרוטינות עיבוד רמה-גבוהה-יותר לזהות אובייקטים מוגדרים מראש בעלי ענין. תמונות מבחינתן אינן בהכרח מוגבלות לתמונות פוטוגרפיות בספקטרום הנראה; הן יכולות גם לכלול תמונות שהתקבלו על ידי שימוש באותות אינפרה-אדום, לייזר, קרני רנטגן ואולטרה-סאונד.

תמונה של שימוש בראיית מכונה עבור יישומי רובוטיקה מתוחכמים יותראיור 1‏: שימוש בראיית מכונה עבור יישומי רובוטיקה מתוחכמים יותר נמצא בעליה. (מקור תמונה: John6863373 | Dreamstime.com)

יישום ראיית-מכונה אחד נפוץ למדי במסגרות תעשייתיות הוא לזהות‏ חלק מסויים בכלי קיבול המכיל ערבוב של חלקים. כאן, ראיית מכונה יכולה לעזור לרובוטים מסוג Pick-and-Place להרים אוטומטית את החלק הנכון. כמובן, זיהוי חלקים כאלה באמצעות משוב הדמיה היה יכול להיות יחסית פשוט אם הם היו מסודרים בקפידה ובאוריינטציה זהה על מגש. עם זאת, אלגוריתמים חסונים של ראיית מכונה יכולים לזהות אובייקטים במרחקים שונים מהמצלמה (ולכן מופיעים כגדלים שונים בחיישן הדמיה) כמו גם באוריינטציות שונות.

מערכות ראיית מכונה המתוחכמות ביותר אפשרו תכנים חדשים ומתפתחים, הרבה יותר מתוחכמים מאיסוף מכלי קיבול — אולי פחות מוכרים ממערכות בכלי-רכב אוטונומיים, לדוגמה.

תמונה של ראיית מכונה הנותנת למערכות הבנת סביבה ברמה גבוההאיור 2: ראיית מכונה נותנת למערכות (תעשייתיות או אחרות) הבנה ברמה גבוהה של סידור סביבה מתמונות. (מקור תמונה: Wikimedia‏)

טכנולוגיות קשורות לראיית מכונה

המונח ראיית מכונה הוא לפעמים שמור לשיטות מתמטיות מבוססות ויעילות יותר של חילוץ מידע מתמונות. לעומת זאת, המונח ראיית מחשב בדרך כלל מתאר מערכות מודרניות ותובעניות יותר מבחינה חישובית — כולל גישות קופסה-שחורה המשתמשות בלמידת מכונה או בינה מלאכותית (AI). עם זאת, ראיית מכונה יכולה גם לשרת מונח כולל של כל השיטות של חילוץ מידע ברמה-גבוהה מתמונות; בהקשר זה ראיית מחשב מתארת את תאוריות הפעולה הבסיסיות שלה.

יש שפע טכנולוגיות לחילוץ משמעות ברמה-גבוהה מתמונות. בקהילת המחקר, טכנולוגיות כאלו נחשבות לרוב כנבדלות מראיית מכונה. עם זאת, מבחינה פרקטית‏, כולן מהוות דרכים שונות להשגת ראיית מכונה … ובמקרים רבים, הן חופפות.

עיבוד תמונה דיגיטלי הוא צורה של עיבוד אות דיגיטלי הכרוכה בהשבחת תמונה, ‏שחזור, קידוד ודחיסה. היתרונות על עיבוד תמונה אנלוגי כוללים רעש ועיוותים מינימליים כמו גם הזמינות של הרבה יותר אלגוריתמים. שימוש אחד מן העבר של השבחת-תמונה היה תיקון התמונות מטווח-קרוב הראשונות של פני הירח. זה השתמש במיפוי פוטוגרמטרי כמו גם במסנני רעש ותיקוני עיוותים גאומטריים הנובעים מיישור של מצלמת ההדמיה ביחס לפני הירח.

תמונה של מעגל-משולב (IC‏) בקר Texas Instruments DLPC350איור 3‏: המעגל-המשולב (IC‏) בקר DLPC350 מספק אותות ערור כניסה ויציאה עבור סנכרון תבניות מוצגות עם מצלמה. הוא עובד עם התקני מיקרו-מראה דיגיטליים (DMDs) המתוכננים להקנות ראיית מכונה 3D לציוד תעשייתי, רפואי ואבטחה. למעשה, היישומים כוללים סריקת 3D כמו גם מערכות מטרולוגיות. (מקור תמונה: Texas Instruments)

השבחת תמונה דיגיטלית כרוכה לרוב בהגדלת ניגודיות ועשויה גם לעשות תיקונים גאומטריים לזווית צפיה ועיוותי עדשה. דחיסה בדרך כלל מושגת על ידי קרוב של אות‏ מורכב‏ לשילוב של פונקציות קוסינוס — סוג של התמרת Fourier הידוע כהתמרת קוסינוס בדידה או DCT‏. פורמת קובץ ה-JPEG‏ הוא היישום הנפוץ ביותר של DCT. שחזור תמונה עשוי גם כן להשתמש בהתמרות Fourier כדי להסיר רעש וטשטוש.

פוטוגרמטריה משתמשת בסוג מסוים של זיהוי צורת גוף כדי להפיק מדידות מתמונות. מדידות אלו יכולות לכלול מידע 3D‏ כשהושגו תמונות מרובות של אותה הזירה ממקומות שונים. מערכות פוטוגרמטריה הפשוטות ביותר מודדות את המרחק בין שתי נקודות בתמונה הכוללת סרגל. הכללת סרגל ייחוס בתמונה בדרך כלל נדרשת למטרה זו.

גילוי צורת גוף מאפשר למחשבים לזהות קצוות ופינות או נקודות בתמונה. זהו צעד ראשון נדרש עבור פוטוגרמטריה כמו גם הזיהוי של אובייקטים ותנועה. גילוי כתם יכול לזהות אזורים עם קצוות שהם חלקים מדי לגילוי קצה או פינה.

זיהוי תבניות (Pattern Recognition) משמש לזיהוי אובייקטים ספציפיים. באופן הפשוט ביותר, המשמעות של זה היא לחפש חלק מכני ספציפי מוגדר-היטב על‏ מסוע.

שחזור 3D‏ קובע את צורת ה-3D‏ של אובייקטים מתמונות 2D. זה ניתן להשגה על ידי שיטות פוטוגרמטריות בהן הגבהים של חפצים נפוצים (מזוהים בתמונות ממספר נקודות תצפית) נקבעים על ידי טריאנגולציה. שחזור 3D הוא גם אפשרי על ידי שימוש בתמונת ‏2D יחידה; כאן, תוכנה מפרשת (בין שאר הדברים) את היחסים הגיאומטריים בין קצוות או אזורים של הצללה.

תמונה של סורקי 3D הלוכדים תמונות 2D של אובייקטאיור 4: סורקי 3D לוכדים תמונות 2D של אובייקט כדי ליצור דגם 3D שלו. במקרים מסוימים, הדגמים הדיגיטליים משמשים אחר כך להעתקי הדפסה 3D‏. (מקור תמונה: .Shenzhen Creality 3D Technology Co)

בן אדם יכול לשחזר ‏מנטלית‏ בקלות קוביה מ‏ייצוג line-art פשוט — וכדור ממעגל מוצל. הצללה נותנת אינדיקציה על שיפועי פני השטח. עם זאת, התהליך של היסק כזה הוא מורכב יותר מכפי שנראה כי הצללה היא פרמטר חד-מימדי בעוד שיפוע קורה בשני ממדים. זה יכול להוביל לריבוי משמעויות — ‏עובדה הבאה לידי ביטוי על ידי אומנות‏ המציגה אובייקטים בלתי-אפשריים פיזית.

תמונה של קביעה ממוחשבת של צורת‏ 3D של אובייקט בשלבי עיבוד מתמונת 2Dאיור 5‏: קביעה ממוחשבת של צורת‏ 3D של אובייקט בשלבי עיבוד מתמונת 2D כרוכה באתגרים.

מהו סדר הפעולות של משימות ראיית-מכונה

מערכות ראיית-מכונה רבות משלבות באופן הדרגתי את הטכניקות לעיל על ידי התחלה עם פעולות רמה-נמוכה ואחר כך התקדמות בזה אחר זה לפעולות ברמה גבוהה יותר. ברמה הנמוכה ביותר, כל הפיקסלים של תמונה נשמרים כנתוני רוחב-פס גבוה. אחר כך כל פעולה בסדרה מזהה מאפייני תמונה ומייצגת מידע בעל עניין עם כמות נתונים קטנה יחסית.

הפעולות ברמה-נמוכה של השבחת ושחזור תמונה באות ראשונות, ולאחריהן גילוי צורות גוף. היכן שיש שימוש בחיישנים מרובים, פעולות רמה-נמוכה יכולות להתבצע לפיכך על ידי תהליכים מבוזרים המוקדשים לחיישנים פרטניים. לאחר גילוי צורות גוף בתמונות פרטניות, יכולות להתקיים מדידות פוטוגרמטריות רמה-גבוהה יותר — כמו זיהוי כל אובייקט או משימות אחרות המסתמכות על הנתונים המשולבים מתמונות וחיישנים רבים.

חישובים ישירים ואלגוריתמים של למידה

חישוב ישיר בהקשר של ראיית מכונה הוא סט של פונקציות מתמטיות המוגדרות ידנית על ידי מתכנת אדם. פונקציות אלו מקבלות כניסות כמו ערכי פיקסל תמונה כדי להניב יציאות כמו קואורדינטות של קצוות אובייקט‏. לעומת זה, אלגוריתמים של למידה אינם כתובים ישירות על ידי בני אדם אלא במקום זה מאומנים באמצעות סטים של נתוני דוגמה המקשרים כניסות עם יציאות מבוקשות. הם, לפיכך, פועלים כקופסאות שחורות. מרבית למידת מכונה כזאת משתמשת כעת בלמידה עמוקה מבוססת על רשתות נוירוניות מלאכותיות כדי לעשות את החישובים שלה.

תמונה של חיישני תמונה מסדרת Banner Engineering iVuאיור 6‏: חיישני תמונה מסדרת ה-iVu יכולים לזהות חלקים בשלבי עיבוד לפי סוג, גודל, מיקום, אוריינטציה וצבע. רכיבי ראיית-המכונה יכולים לקבל קונפיגורציה וניטור של מסך משולב, HMI מרוחק או PC. מצלמה, בקר,עדשה ותאורה הם כולם משולבים-מראש. (מקור תמונה: .Banner Engineering Corp)

למידת מכונה פשוטה עבור יישומים תעשייתיים לרוב יותר אמינה ופחות תובענית מבחינה חישובית אם מבוססת על חישוב ישיר. כמובן, ישנן מגבלות על מה שניתן להשיג עם חישוב ישיר. לדוגמה, הוא לעולם לא יוכל לקוות לבצע את זיהוי התבניות (pattern recognition) המתקדם הדרוש עבור זיהוי אנשים לפי הפנים שלהם, במיוחד לא מהזנת וידאו של מרחב ציבורי עמוס. לעומת זאת, למידת מכונה מטפלת בזריזות ביישומים כאלה. לכן אין זה פלא שלמידת מכונה נפרסת יותר ויותר עבור פעולות ראיית מכונה ברמה נמוכה יותר, כולל השבחת תמונה, שחזור וגילוי צורת גוף.

גישות שיפור לימוד (לא אלגוריתמים)

ההבשלה של טכנולוגיית למידה-עמוקה הבהירה שלא אלגוריתמים של למידה בעצמם זקוקים לשיפור אלא הדרך בה הם מאומנים. רוטינת אימון משופרת אחת כזאת נקראת ראיית מחשב ממוקדת נתונים. כאן, מערכת הלמידה-העמוקה מקבלת סטים גדולים מאוד של אימון, של אלפי, מיליוני או אפילו מיליארדי תמונות — ואחר כך שומרת מידע תוצאתי שהופק על ידי האלגוריתמים שלה מכל תמונה. האלגוריתמים לומדים באפקטיביות על ידי תרגול דוגמאות עבודה ואחר כך פניה אל "ספר תשובות" כדי לוודא אם הם הגיעו לערכים הנכונים.

סיפור ישן אודות הימים המוקדמים של זיהוי תבניות (Pattern Recognition) דיגיטלי משרת‏ כסיפור אזהרה. הצבא האמריקאי התכוון להשתמש בראיית מכונה עבור זיהוי מטרות, והדגמות קבלן-ביטחון זיהו באמינות טנקים מתוצרת ארה"ב ומתוצרת רוסיה. טנקים שונים הובחנו כולם כהלכה על פי צילומים מהאוויר של הספק, אחד אחרי השני. אך כשנבדקו שוב עם ספריית התמונות של הפנטגון, המערכת התמידה במתן תשובות שגויות. הבעיה הייתה שכל התמונות של קבלן-הביטחון הציגו טנקים אמריקאיים במדבר וטנקים רוסיים בשדות ירוקים. רחוק מזיהוי טנקים שונים, המערכת זיהתה במקום זה צבעי רקע שונים. מוסר השכל? יש להציג לאלגוריתמים של למידה נתוני אימון שנאספו בקפידה כדי שיהיו יעילים.

מסקנה: חזון לבטיחות תא עבודה רובוטי

ראיית מכונה איננה עוד טכנולוגיית נישה. היא נהנית מהפריסה הגדולה ביותר ביישומים תעשייתיים. כאן, ההתפתחות הדרמטית ביותר היא כיצד ראיית מכונה משלימה כעת מערכות בטיחות של מפעלים תעשייתיים המשמיעות אזעקה או הודעות אודיו כשעובדי מפעל נכנסים לאזור עבודה ללא קסדה קשיחה, מסכה או ציוד הגנה מתאים אחר. ראיית מכונה יכולה גם להשלים מערכות המודיעות כשמכונות ניידות כמו מלגזות מתקרבות יותר מדי לבני אדם.

מערכות ראיית מכונה אלו ודומות יכולות לפעמים להחליף אמצעי הגנה קשיחים סביב רובוטים תעשייתיים כדי לאפשר תפעול יעיל יותר. הן יכולות גם להחליף או לשפר מערכות בטיחות מבוססות על הגנת קרן-אור שפשוט עוצרות מכונות אם עובד‏ מפעל נכנס לתא עבודה. כשראיית מכונה מנטרת את רצפת המפעל סביב תא העבודה, אפשרי שרובוטים בתאים כאלה יאטו בהדרגה עם התקרבות בני אדם.

עם התפתחות התכנון של מסגרות תעשייתיות כך שיתאימו לרובוטים שיתופיים וציוד תא עבודה שיתופי אחר הבטוחים לעובדי מפעל לנוע סביבם (אפילו כשהם עובדים), מערכות אלו ואחרות המבוססות על ראיית מכונה יהפכו להיות חלק הרבה יותר נפוץ של תהליכי מפעל.

מיאון אחריות: דעות, אמונות ונקודות מבט המובעות על ידי מחברים שונים ו/או משתתפי פורום באתר אינטרנט זה לא בהכרח משקפות את הדעות, האמונות ונקודות המבט של חברת DigiKey או את המדיניות הרשמית של חברת DigiKey.

אודות כותב זה

Image of Dr. Jody Muelaner

Jody Muelaner

Dr. Jody Muelaner הוא מהנדס שתכנן מנסרות והתקנים רפואיים; התמודד עם אי-הוודאות במערכות ייצור בתעופה-וחלל; ויצר מכשירי לייזר חדשניים. הוא פרסם במספר רב של כתבי-עת של ביקורות-עמיתים וסיכומים ממשלתיים ... וכתב דוחות טכניים עבור Rolls-Royce‏, SAE International‏ ו- Airbus‏. כיום הוא מוביל פרויקט לפיתוח e-bike המפורט באתר betterbicycles.org. Muelaner מכסה גם פיתוחים הקשורים לטכנולוגיות לצמצום פחמן.