|
jjrchome LV
发表于 22-9-2011 09:36:25
|
显示全部楼层
本帖最后由 jjrchome 于 22-9-2011 09:41 编辑
文盲幫你改作文(转载)
人工智慧(AI)已經悄悄潛入人類生活的各個層面,連托福、GMAT這些重要的檢定考試,也逐漸引進電腦閱卷,代替專業的教師批改作文。這不禁讓人懷疑,電腦怎麼看得懂作文?電腦怎麼判斷文章的優劣高低?
一般人對人工智慧的印像,莫過於機器人和電腦西洋棋程式。具有人類的外貌,敏銳、聰明、能與人類流暢溝通的機器人,是我們對人工智慧終極的夢想。在過去的一百年間,小說中、電影中、科學著作中,人類不停地勾勒機器人的功能和型貌,不停地預告機器人的實現,甚至為機器人的「人權」制定了規範。然而,一個世紀過去,機器人只能化為Roomba(智慧型自動吸塵器)的型態出現我們眼前,與人類摹想的目標──長得像人、會思考、會聊天的機器人──仍然相距甚遠。假如我們放下對人類型貌的執著,人工智慧其實有驚人的進展。其中,最富宣示義意的,莫過於IBM的電腦棋手深藍(Deep Blue),在1997年擊敗當時世界西洋棋王卡斯巴羅夫(Garry Kasparov)的軼事。有些誇大的報導,將此事解釋為人工智慧已經超越人類智慧,電腦比人腦更聰明。事實上,下棋的學問,無非是一連串邏輯推演,而電腦在邏輯運算上,向來就遠比人類優越。在相同的時間裡,電腦比人類算計得更深更遠,足以預知許多步棋之後的各種盤面,決定最好的落子。所以,電腦在棋類競賽中勝過人類,本來就是遲早發生的必然結果。
機器人的研究,處處以模仿人類、再現人類為目標,顯得困難重重,遲滯不前。深藍則擅用電腦先天的優勢,徹底發揮高速運算的能力,終於勝過了人類最頂尖的西洋棋手。擊敗西洋棋王之後,IBM宣布終止這項計劃,讓深藍「退休」。西洋棋規則明確,步驟分明,完全受邏輯運算支配。隨著電腦硬體速度加快,記憶容量增加,電腦的棋力只會越來越高明,超出人腦越來越多。所以,深藍勝過人類之後,它的任務已經圓滿。然而,並不是所有的事情都像西洋棋這麼純粹有條理。遇到不能完全透過推理和邏輯來解決的問題,如何讓電腦運用計算和記憶的優勢,做得和人類一樣好,甚至比人類更好呢?面對這樣的挑戰,自動作文評分(Automated Essay Scoring)研究的發展,是很好的示範。
早在1960年代,人類就冀望電腦能分擔教師的工作,自動批改學生作文。對人類而言,批改作文是一種高難度的心智工作。首先,批改者必須具備敏銳的語文能力,挑出學生作文裡的錯誤。錯誤有很多種,包含文法句式上的錯誤、字詞使用的錯誤、標點符號的錯誤等。排除了錯誤,作文還有好壞之分。所謂文章好壞,由各種細緻的因素交互作用所決定,這些因素包括形式、結構、內容、意境等。這時,必須仰賴批改者的文學品味以及文化素養,評估文章的整體成就。敏銳的語文能力、文學品味、文化素養,看來都是人類心靈幽微之處,最難以捉模的素質。由此可見,人類批改作文所涉及的心智活動,有許多經驗和直覺的成分,與下棋不同,難以訴諸邏輯計算和純粹的理性推演。既然如此,科學家如何跨越性質上根本的矛盾,讓沒有感情、不通世務、只會計算的機器,來閱讀人類的心靈產物,評判高低呢?令人訝異的是,透過這四十年來,自動作文評分的研究,我們親見機器與心靈之間的鴻溝,並不是永恒的平行線。反之,在批改作文這件事上,人類與電腦,沿著截然不同的途徑,取得了相當的共識。
如何教電腦「閱讀」文章,是作文評分研究最大的挑戰。電腦處理的對象是數字,電腦一切的功能,都立基於一串連的加減乘除和邏輯運算。構成文章的元素卻是單字、詞彙、句子、段落、篇章,與數字毫不相干。一篇文章對電腦而言,不過是一連串數字,每個數字代表一個對應的字,這些數字對電腦全無意義。「紅」、「橙」、「黃」、「綠」這些字,人類一看就立刻產生色彩、光澤、溫度的連結,甚至同時浮現相關的記憶聯想。「大漠孤湮直,長河落日圓」對人類來說,是一幅圖畫、一組意象、一種境界。然而,對工於計算卻不解風情的電腦來說,這些字句只是一串雜亂的數字,沒有色彩、沒有光澤、沒有溫度,更不可能體悟其中的意境。
冀望電腦像人類一樣感受文章的意境,恰似我們期待機器人具備人類的外表、模仿人類的行動溝通,這些都是太困難,太吃力不討好的挑戰。對於這個難題,自動作文評分的先鋒艾利斯〃佩吉(Ellis Page),在1960年代提出一個新奇的觀點:電腦根本不需要真的「讀懂」文章,就能改作文。在他實作的系統裡,每篇文章都轉成了一組對電腦而言有意義的數字,稱為「特徵值」,並以特徵值代替原文,作為電腦評分的對象。所謂「特徵值」,是一群從原文中統計出來的量化數值,包括字數、句數、子句數、詞的平均字數、罕見字數等等。接著,佩吉把一批英文作文,請專人評分,作為樣本,再利用統計的方法,分析樣本文章的分數和這些特徵值之間的關聯。他發現,字數越多、句數越多、詞的平均字數越多,文章的分數通常越高。而高分的文章裡,卻不會出現太多罕見字。所以,這些特徵值和文章優劣的相關程度,就是每一個特徵值的「權重」。假如文章的字數和分數明顯成正比,表示批改文章時,字數多寡有相當重要的參考價值,字數越多,分數越高。於是,字數這個特徵值就會得到較高的權重。而罕見字太多的文章,分數通常不高,因此罕見字數這個特徵值就會有負的權重。配合這組權重,對於每一篇新文章,電腦統計出該文章的特徵值之後,就能算出文章的分數。
將數千字的文章,約化成幾個統計數值,就此判定文章的成就,這一切聽起來多麼的粗糙、多麼的荒誕。然而,佩吉透過實驗,證明這個方法其實並不虛妄。他實驗的方式也頗有新意,他將同一批文章,交給兩位作文老師批改。由兩位老師對每一篇文章給的分數,可以算出他們的「共識度」,代表這兩位老師對作文評分的一致性。然後,佩吉也將同一批文章,交給自動評分系統批改,也算出評分系統和作者老師之間的共識度。結果,兩位老師之間的共識度是0.85,而作文老師與自動評分系統之間的共識度則是0.78,差距不遠。也就是說,佩吉的自動評分系統,批改能力已經接近作文教師了。
佩吉的方法學,不模仿人類批改作文的程序,而擅用電腦統計運算的優勢〃從純粹量化的角度解決問題。這套方法成為自動作文評分研究的基礎,後來40年的發展,都不脫這個框架,只是特徵的設計,越來越細緻,計算權重、決定分數的數學模型,也更加精巧。除此之外,也加入拼字文法檢查器,挑出文章的語法錯誤。1990年代之後,自動作文評分系統,不只評估遣詞造句和結構組織等基本的寫作能力,對於命題作文,系統還能評判內容是否切中題旨,論述的組織發展是否完整連貫。這些神奇的功能,背後仍然是一連串統計運算:科學家根據語言學和資訊擷取(Information Retrieval)的知識,從文字中找出上百個與修辭、結構、組織、內容相關的量化特徵值,讓電腦從經過專人評分的樣本文章裡,計算出每個特徵值的權重,於是便能評判新的文章。
隨著語言學和資訊擷取等相關領域的成長,自動作文評分的研究也不斷的進步。最近幾年,著名的自動評分系統E-Rater達到極高的效能,與專業的寫作教師有97%的共識度,比任兩位教師之間的共識度更高,實用價值無庸置疑,已經普遍應用在托福和GMAT等大型英文能力檢定的批改作業中。除了GMAT,目前有越來越多語言能力檢定採用電腦評分,而且不只是英文,在各種不同的語言上,自動作文評分研究都有活躍的發展。即使是較不易處理的中文,也有效能不錯的評分系統。
電腦透過機械式的統計運算就能改作文,甚至比專業的教師改得更好,這代表什麼?寫作是人類溝通的方式,是智能的展現,是心靈的脈動,是靈魂的窗口。冷酷的電腦完全不理解人類的情感,根本無法「看懂」人類寫的文章。為什麼自動作文評分系統靠著字數、句數、用字頻率這些無機的統計數據,卻有驚人的批改能力?
閱讀與寫作看似微妙,在不可捉摸的心智活動底下,是否也隱約受到潛藏的機械法則支配呢?
|
|