האלמנטים הבסיסים בחיפוש הינם תמניות ("טוקנים"): צורה מופרדת רווחים כפי שמופיע בטקסט (אולם ללא סימני פיסוק).
לדוגמה, במשפט: "מגיעים מתאילנד לישראל." קיימות 4 תמניות: "מגיעים", "מתאילנד" "לישראל" ,"." .
מבנה החיפוש:
הגדרת החיפוש מורכבת משני חלקים: (1) הגדרת תמניות מבוקשות (2) הגדרת יחסים בין תמניות.
על כל חיפוש לכלול את שני החלקים.
לדוגמה, בחיפוש:
$w.word="ילד" $w.pos="noun" $w2.pos="adjective" ; $w ~0 $w2
החצי הראשון:
$w.word="ילד" $w.pos="noun" $w2.pos="adjective"
מגדיר שתי תמניות (התמנית ילד המתוייגת כשם עצם, תמנית כלשהיא המתוייגת כתואר), ואילו החצי השני:
$w ~0 $w2
מציין כי התמנית השניה (תואר) צריכה להופיע באותו משפט עם התמנית הראשונה (ילד/שם עצם) וביניהן לכל היותר 0 תמניות אחרות.
שני חלקי השאילתא מופרדים על ידי נקודה-פסיק: ;
חשוב: יש לכלול רווחים לפני ואחרי סימן הנקודה-פסיק.
שלב 1 -- הגדרת התמניות:
הגדרת התמניות מורכבת מאוסף של תכונות. כל תכונה נראית כך:
$token.property="value"
משמעות שורה זו היא:
(א) אנו מגדירים תמנית הנקראת "token".
(ב) נרצה כי עבור תמנית זו, ערך התכונה הנקראת property יהיה value
המערכת מכירה מספר רב למדי של תכונות, לדוגמה חלק הדיבר של המילה, המילה עצמה, תכונות מורפולוגיות כגון מין ומספר תחביריים, סיומות, תחיליות וכיוצא בזה.
נספח מספר 1 (@@שעדיין לא קיים...@@) מפרט את התכונות המוכרות על ידי המערכת, ורשימת הערכים האפשריים עבור כל תכונה.
ערך ה-value יכול להכיל גם את ערך הג'וקר * שמשמעותו "רצף כלשהוא של תוים". לדוגמה, השאילתה:
$w.word="ה*ה" ; $w
תחזיר את כל המשפטים המכילים מילה המתחילה באות ה ונגמרת באות ה. אופציה זו הינה כבדה יחסית – השתמשו בה בצמצום.
שלב 2 -- הגדרת יחסים בין תמניות:
חלק זה מורכב משמות התמניות שהוגדרו בחלק הקודם, ויחסים ביניהם. תמניות שלא מופיעות בחלק זה של השאילתא לא יבואו לידי ביטוי בחיפוש, גם אם הוגדרו בחלק הקודם.
היחסים האפשריים הם:
|
$w |
התמנית $w מופיעה במשפט |
|
$w & $w2 |
התמניות $w ו-$w2 מופיעות במשפט |
|
! $w |
התמנית $w לא מופיעה במשפט |
|
$w ! $w2 |
התמנית $w מופיעה במשפט והתמנית $w2 לא מופיעה במשפט |
|
$w |$w2 |
לפחות אחת התמניות, $w או $w2 מופיעות במשפט |
|
$w ~4 $w2 |
התמניות $w ו-$w2 מופיעות במשפט, וביניהן לכל היותר 4 תמניות |
|
$w ord~5 $w2 |
התמנית $w מופיעה לפני התמנית $w2, וביניהן לכל היותר 5 תמניות |
|
$w !~4 $w2 |
התמניות $w ו-$w2 מופיעות במשפט וביניהן בדיוק 4 תמניות |
|
$w !ord~4 $w2 |
התמנית $w מופיעה לפני התמנית $w2, וביניהן בדיוק 5 תמניות |
ניתן גם לכלול ביטויי סוגריים:
( $w1 & w2 ) ! $w3
משפטים הכוללים את התמניות w1 ו w2, אך לא את w3.
נשים לב כי גם כאן יש להוסיף רווחים לפני ואחרי כל סוגר.