Additional Material

  • The C10K problem

  • Luiz André Barroso and Urs Hölzle, The Datacenter as a Computer - An Introduction to the Design of Warehouse-Scale Machines, Morgan & Claypool, 2009.

    As computation continues to move into the cloud, the computing platform of interest no longer resembles a pizza box or a refrigerator, but a warehouse full of computers. These new large datacenters are quite different from traditional hosting facilities of earlier times and cannot be viewed simply as a collection of co-located servers. Large portions of the hardware and software resources in these facilities must work in concert to efficiently deliver good levels of Internet service performance, something that can only be achieved by a holistic approach to their design and deployment. In other words, we must treat the datacenter itself as one massive warehouse-scale computer (WSC). We describe the architecture of WSCs, the main factors influencing their design, operation, and cost structure, and the characteristics of their software base. We hope it will be useful to architects and programmers of today’s WSCs, as well as those of future many-core platforms which may one day implement the equivalent of today’s WSCs on a single board.

  • Big Data Application

    5 Big Data Projects That Could Impact Your Life

    הערים החכמות של העתיד יידעו לפנות אשפה ולחזות פשעים

  • Big data as the main factor of model learning

    • Michele Banko , Eric Brill, Scaling to Very Very Large Corpora for Natural Language Disambiguation, ACL, 2001.

      The authors explored several classi fication algorithms and found that more data led to better accuracy. Furthermore, with increasing amounts of training data, the accuracy of di ferent algorithms converged. In other words: machine learning algorithms really don't matter, all that matters is the amount of data you have.

    • Thorsten Brants , Ashok C. Popat , Peng Xu , Franz J. Och , Jeffrey , Large language models in machine translation, EMNLP, 2007.

      This paper reports on the benefits of largescale statistical language modeling in machine translation. A distributed infrastructure is proposed which we use to train on up to 2 trillion tokens, resulting in language models having up to 300 billion n-grams. It is capable of providing smoothed probabilities for fast, single-pass decoding. We introduce a new smoothing method, dubbed Stupid Backoff, that is inexpensive to train on large data sets and approaches the quality of Kneser-Ney Smoothing as the amount of training data increases.

    • Jimmy Lin, An Exploration of the Principles Underlying Redundancy-Based Factoid Question Answering, ACM Transactions on Information Systems,27(2):1-55, 2007.

      This paper describes a question answering system that is designed to capitalize on the tremendous amount of data that is now available online. Most question answering systems use a wide variety of linguistic resources. We focus instead on the redundancy available in large corpora as an important resource. We use this redundancy to simplify the query rewrites that we need to use, and to support answer mining from returned snippets. Our system performs quite well given the simplicity of the techniques being utilized. Experimental results show that question answering accuracy can be greatly improved by analyzing more and more matching passages. Simple passage ranking and n-gram extraction techniques work well in our system making it efficient to use with many backend retrieval engines.


  • Question Answering

    The amazing world of Dr. HalfBaked


  • השפה כקורפוס

    • ה"א הידיעה

      • כדי ללכוד בזווית עין את הקורא המציצן, הלאו דווקא בלתי רצוי. (הארץ, 13.6.03, עמ' 58, יונתן יבין).
      • השלושים ומשהו שקלים שהלוויתי לך…
      • אני לא רוצה לתת לך את המעט גולות שנשארו לי.
      • שוב שטפה אותה התחושה המשונה אבל הלא בלתי נעימה של סכנה. (מיכל פלג, העיר הפנימית, הספרייה החדשה, 1998, עמ' 36)
      • הרקורד הבאמת מוצלח מאוד שלהם. (גל"צ, ???)
      • נשאר לי לגמור לבדוק את העוד עשר בחינות האלה. (22.7.03אני, )
      • רק אם יהיו שם מבצעים של הסוף עונה (נועה, 28.7.03)
      • המתקפה החסרת רסן והכמעט חסרת תקדים (טייס ח"א, גל"צ 29.9.2003)
      • בשביל הקצת דברים שהייתי צריכה, לא היה שווה לי לרוץ לקניון. (שיחה, שירלי טל, 12.8.03)
      • מכאן פתאום הבשביל שלי נעשה יותר חשוב
      • המתחת לעין שלי נפוח חבל על הזמן כאילו קיבלתי בוקס
      • המאחורי הקלעים היה גדול!

    • צורת בינוני כמנגנון לייצור של שמות עצם ותואר חדשים
      • סופר
      • כותב
      • מטפס
      • לוכד
      • דלמת הרוצח

        וְאִם בְּשִׂנְאָה יֶהְדָּפֶנּוּ אוֹ הִשְׁלִיךְ עָלָיו בִּצְדִיָּה וַיָּמֹת: אוֹ בְאֵיבָה הִכָּהוּ בְיָדוֹ וַיָּמֹת מוֹת יוּמַת הַמַּכֶּה רֹצֵחַ הוּא גֹּאֵל הַדָּם יָמִית אֶת הָרֹצֵחַ בְּפִגְעוֹ בוֹ: וְאִם בְּפֶתַע בְּלֹא אֵיבָה הֲדָפוֹ אוֹ הִשְׁלִיךְ עָלָיו כָּל כְּלִי בְּלֹא צְדִיָּה: אוֹ בְכָל אֶבֶן אֲשֶׁר יָמוּת בָּהּ בְּלֹא רְאוֹת וַיַּפֵּל עָלָיו וַיָּמֹת וְהוּא לֹא אוֹיֵב לוֹ וְלֹא מְבַקֵּשׁ רָעָתוֹ: וְשָׁפְטוּ הָעֵדָה בֵּין הַמַּכֶּה וּבֵין גֹּאֵל הַדָּם עַל הַמִּשְׁפָּטִים הָאֵלֶּה: וְהִצִּילוּ הָעֵדָה אֶת הָרֹצֵחַ מִיַּד גֹּאֵל הַדָּם וְהֵשִׁיבוּ אֹתוֹ הָעֵדָה אֶל עִיר מִקְלָטוֹ אֲשֶׁר נָס שָׁמָּה וְיָשַׁב בָּהּ עַד מוֹת הַכֹּהֵן הַגָּדֹל אֲשֶׁר מָשַׁח אֹתוֹ בְּשֶׁמֶן הַקֹּדֶשׁ: וְאִם יָצֹא יֵצֵא הָרֹצֵחַ אֶת גְּבוּל עִיר מִקְלָטוֹ אֲשֶׁר יָנוּס שָׁמָּה: וּמָצָא אֹתוֹ גֹּאֵל הַדָּם מִחוּץ לִגְבוּל עִיר מִקְלָטוֹ וְרָצַח גֹּאֵל הַדָּם אֶת הָרֹצֵחַ אֵין לוֹ דָּם: כִּי בְעִיר מִקְלָטוֹ יֵשֵׁב עַד מוֹת הַכֹּהֵן הַגָּדֹל וְאַחֲרֵי מוֹת הַכֹּהֵן הַגָּדֹל יָשׁוּב הָרֹצֵחַ אֶל אֶרֶץ אֲחֻזָּתוֹ: וְהָיוּ אֵלֶּה לָכֶם לְחֻקַּת מִשְׁפָּט לְדֹרֹתֵיכֶם בְּכֹל מוֹשְׁבֹתֵיכֶם: כָּל מַכֵּה נֶפֶשׁ לְפִי עֵדִים יִרְצַח אֶת הָרֹצֵחַ וְעֵד אֶחָד לֹא יַעֲנֶה בְנֶפֶשׁ לָמוּת:


    • מעבר מבנין קל לבנין הפעיל

      • מיהו המשאיל?

        השוו בין הגרסה המוקדמת של 'זה לא זמן טוב לכתוב שירים' ובין הגרסה המאוחרת, באלבום הבכורה .

      • השני מתקיע ובשעת ההלל הראשון מַקרֵא את ההלל (משנה, ראש השנה, ד,ז)

      • השכיח פת בתנור מצילין ממנו מזון שתי סעודות (תוספתא שבת יג,ח)

      • מלאך אחד, אשר קסת הסופר במותניו, עתיד להרשים כל אחד על מצחו (זהר, חלק א, קכז)

      • באותו יום שנפטר אדם גדול לא הטעמתי כלום (חלק שלישי, סימן תק) נוסח התלמוד הירושלמי (מועד קטן ג,ז): הרואה תלמיד חכם שמת כרואה ספר תורה שנשרף, אמר רבי אבהו יבא עלי אם טעמתי כלום כל אתו היום

      • וכשבאו לביתו צבר את השמירות על השולחן והלך לשוק, וראו בני הבית שהתחיל הרוח להתגלגל כמו זאווירוחע מזוית לזוית עד שהפריש ויצא מן הבית (שבחי הבעש"ט, ט, מעשה במוכסין ובעל ריחיים)

      • אופן עשית הקיימאק אני שמעתי בזה האופן, דהיינו שמרתיחין החלב על האור, ולוקחין הקפיאה שעולה על פני החלב ומשימים אותו בקערה וחוזרין ומניחים אותו עד שירתיח, ויעשה הקפיאה, <.B>ושמין אותה בקערה. וכעז"ה עד שנתמלאת, ומניחים אותה לילה אחד תחת אויר הרקיע (נהר מצרים, רבי רפאל אהרן בן שמעון(

      • אול-יידיש-ניוז מצייץ תמונה שמחה בה "הנאצי מכניע להיהודי!", במובן שהנאצי נכנע ליהודי

      • פעם אחת הִקְרָה (=קרה), שכבוד קדושת זקני הגאון הקדוש זצ"ל סיפר לעת מצוא… (שיח שרפי קודש, חלק ג, סימן תקטז)

      • אישה כי תזריע וילדה זכר (ויקרא יב,ב)

        הנוסח השומרוני ותרגום השבעים ליוונית: אישה כי תִזָרַע

      • ופרעה הקריב (שמות יד)

        תרגום אונקלוס: ופרעה קריב (=קרב)

      • לא הספיק השיני להחליץ ולייבם עד שמת (יבמות ג,א)

      • ויאמר אל מלאך הפנים להכתיב למשה מן ראשית הבריאה עד היום (ספר היובלים א)

        ומה ת"ל "וינח ביום השביעי"? אלא כביכול הכתיב על עצמו שברא עולמו לששה ימים ונח בשביעי (מכילתא דרב ישמעאל, יתרו, ז)

        כיוצ' בו "ויכר יהודה ויאמ' צדקה ממני", והמק' הכתיב על ידו "ולא יסף עוד לדעתה", כיון שידע שכלתו היא (ספרי במדבר, פח)

      • נוסח משנת מעשרות א,ז

        כתב-יד קאופמן: אבל לא יתן לקדירה וללפס כשהן מַרְתִּחִין (הניקוד במקור)

        דפוס נאפולי: אבל לא יתן לקדרה וללפס כשהן רותחין

      • הסוכה הריחה


    • ואו ההיפוך?

      • ציפור אחת

        גילתה את כל סודותי

        ותצעק אותם בקול רם

        רווח כפול בעיבוד פרוגרסיב-רוק ל'הכל' של יונה וולך - שימו לב ל 1:58

      • וקינאתי לך ובחושך ארבתי

        ושנאתי לך ועד דמע אהבתי

        וביתנו שמם מחיוך ומצחוק

        ובשובך אל הבית מרוד כמו כלב

        עלבונות של זרים בי נקמת פי אלף

        ואדע כי חשבת עלי מרחוק

        ניתן למצוא כאן את הביצוע מהפנט של הילה רוח ל'וידוי' של אלכסנדר פן עם הלחן הקלאסי של סשה ארגוב - שימו לב ל 2:23

      • שימו לב כיצד קורא מוקי את הפסוק "הים ראה וינוס" בפתיחת כולם מדברים על שלום

      • וַ/וְיֶהֱמוּ כָּל מַלְאֲכֵי מֶרְכָּבָה

        אוֹפַן וְשָׂרָף שׁוֹאֲלִים בִּנְדָבָה

        מִתְחַנְּנִים לָאֵל בְּעַד שַׂר צָבָא

        אָנָּא תְּנָה פִדְיוֹם וְכֹפֶר הָבָה

        אַל נָא יְהִי עוֹלָם בְּלִי יָרֵחַ

        עוֹקֵד וְהַנֶּעְקָד וְהַמִּזְבֵּחַ

        (רבי יהודה אבן עבאס)

      • וְיִשְׁתַּמֵּר חֻקּוֹת עָמְרִי וְכֹל מַעֲשֵׂה בֵית-אַחְאָב וַתֵּלְכוּ בְּמֹעֲצוֹתָם (מיכה ז,טז)

      • פּוּרָה דָּרַכְתִּי לְבַדִּי וּמֵעַמִּים אֵין אִישׁ אִתִּי וְאֶדְרְכֵם בְּאַפִּי וְאֶרְמְסֵם בַּחֲמָתִי וְיֵז נִצְחָם עַל בְּגָדַי וְכָל מַלְבּוּשַׁי אֶגְאָלְתִּי: כִּי יוֹם נָקָם בְּלִבִּי וּשְׁנַת גְּאוּלַי בָּאָה: וְאַבִּיט וְאֵין עֹזֵר וְאֶשְׁתּוֹמֵם וְאֵין סוֹמֵךְ וַתּוֹשַׁע לִי זְרֹעִי וַחֲמָתִי הִיא סְמָכָתְנִי: וְאָבוּס עַמִּים בְּאַפִּי וַאֲשַׁכְּרֵם בַּחֲמָתִי וְאוֹרִיד לָאָרֶץ נִצְחָם: (ישעיה סג)

    • לאחוז, לארוז

      אני פרפר שהיה פעם גולם

      אז תפסיקי בכנפיי לאחוז

      את יכולה לארוז

      האזינו לאביב גפן שר אותן

    • אפילו אם

      אם ירד שלג לא יתקיימו לימודים מחר

      אם לו ירד שלג לא יתקיימו לימודים מחר

      אילו ירד שלג לא יתקיימו לימודים מחר

      אף אילו ירד שלג יתקיימו לימודים מחר

      אפילו ירד שלג יתקיימו לימודים מחר

      אפילו אם ירד שלג יתקיימו לימודים מחר

    • מתרגם אוטומטי כמשקף תרבות על בסיס קורפוס עכשווי

      תרגמו את השיר הבא בגוגל: I wash the car / I wash the floor / I am very nervous / I am very hysterical

      המתרגם של מיקרוסופט פיוטי משהו: I am washing the car / I am washing the floor

    • גלגולי לשון

      ספר קריא, מעניין ומצחיק, על ההתפתחות הטבעית של השפה האנושית - מעין 'מוצא המינים' על העולם הלשוני - עם מבט מרענן על המושג 'שפה'.