刘娟：缘木求鱼的电脑作文评改（转自早报）-第2页-子女教育-新加坡狮城论坛

xuemei166 LV

发表于 20-9-2011 00:25:58 | 显示全部楼层

让电脑批改
没有灵魂、徒有一身华丽衣裳的作文
娃哈哈哈哈哈哈～
电脑能读出思想！读出喜、怒、哀、乐！
娃哈哈哈哈哈哈哈～

不过，正经话，
让电脑帮忙改错别字、病句
作为阅卷第一关还是可取的

老师接着审结构、内容、文采，给出批语

问题是有几个学生肯工工整整写字的？

看来纸和笔即将被淘汰了
电脑输入代替学生写字
电脑阅卷代替人工阅卷

除了思维，
数码统治一切的时代来临

回复支持反对

使用道具举报

春满月圆 LV

发表于 22-9-2011 09:21:48 | 显示全部楼层

                                                      电脑真能自动批改作文?
                                                   《联合早报》（2011.9.14）

                                                                                                桑晓灿

9月7日，《联合早报》刊登了一篇题为“华文教研中心研发，自动作文评改与学习系统”的新闻。乍看这个题目，我吃了一惊，心里猜测，难道新加坡真的要采取这种电脑打分形式来批改学生作文吗？带着疑问我看完了整篇文章，果然是事实，并且该系统已准备在明年起投入试用。

这个由新加坡华文教研中心研发的自动作文评改与学习系统，据报道主要是针对三到六年级的小学生，可以在8秒内改完一篇300字的文章，包括侦测字、词和句子错误，而研发这个项目所给出的原因是教师作文批改量大，需要减轻教师的工作量。

诚然，任何部门领域都会想尽量减轻工作量，想提高效率，我们也理解教师所承受的压力，然而若是以这种“科研产品”改作文来缓解压力，却有些让人质疑其可行性。众所周知，教育并不是简单的ABCD选项，也不是单纯的知识复制粘贴，而是在不断地创新和突破，在写作方面尤为明显，因写作者掺入主观意志成分较多，自由发挥想象空间广阔，所以，如果不充分了解背景及意境，根本无法草率地用电脑的模式思维代替人脑的理性与感性的结合，对文章做出更加准确的判断。
　　
2009年11月，英国《每日电讯报》有篇新闻报道指出，英国曾计划用电脑批改高考作文，结果发现按照电脑打分后，丘吉尔的演说被评为“低于平均水平”，海明威的小说被评为“不认真、少细节”，威廉•戈尔丁的作品被评为“缺乏连贯性”……很多名家之作被严重低估，这使得考试委员会不得不重新考虑使用电脑软件批改作文的可行性。正如英国特许教育评估学会负责人格雷厄姆•赫伯特所说“电脑不理解意志和情感”，每个人的思想意志不尽相同，表达方式和深度层次也各有差异，单纯地用电脑阅卷可能不能完全理解写作者要表达的内涵与意境，或是在“口味”与系统要求不符的情况下被一概“抹杀”。
　　
例如：王安石的“春风又绿江南岸”，放在系统中，也许会出现“形容词误作动词”的提示；鲁迅的“孔乙己大约的确已经死了”若是放进去，怕是不死也会被批得“遍体鳞伤”；海子可能更惨，诗集从头到尾应该到处都是下划线，被评为“逻辑混乱，用词不当，语法错误，病句百出”，朦胧派再也不敢朦胧，跳跃性的思维怕是全给系统按得老老实实了。若真如此，文坛早已是百花凋敝，一片荒芜。所以我认为，语言是充满活力和弹性的，不应过于拘泥和硬性剖解。
　　
当然，这个系统只是针对小学三到六年级的学生，小学生无论是思想境界和写作水平都无法与名人作家相提并论，但是不可否认，任何人都有潜质，小学生有自己的童真世界和漫画语言，其表达语言的方式虽然与成人不尽相同，却富有创造力与新鲜感，尤其是现代网络文学蓬勃发展，遣词造句方面也相当幽默活泼，彰显个性，体现出语言不拘一格的另一种魅力。若是这种富有“棱角”的作文放到自动测评的“打磨机器”里，我想很多学生的特性会被这种“循规蹈矩”的系统湮没，打磨得“中规中矩”，扼杀了学生的想象力和创造力，甚至可能因此而埋没了对写作有天赋的人才。
　　
报道当中还提到“这个作文评改平台只能侦测语言表达方面的问题，还不能做到评分，评定作文内容和语境等”，在我看来，即使语言表达方面也根本无法用电脑去判断，而是用富有想象和感知的人脑，该系统也只能在测错字方面派上些用场。研究小组组长谢育芬博士也强调“这个项目的目的不是为了取代人工评阅”，既然都已经意识到系统所存在的弊端，意识到不可取代人工评阅，那么为何还要一再地强调为减轻教师工作负担而试用这个工具呢？只是为了臆想中透视后的效果而不断正面化该系统的作用吗？也许会有人说，只是在试用，侦测准确率可以提高，系统可以更加完善，但是我认为，无论该系统再完善，也根本不是教育创新的明智之举，相反，只是南辕北辙、操之过急的“科技产品”中的“次品”。

回复支持反对

使用道具举报

春满月圆 LV

发表于 22-9-2011 09:28:11 | 显示全部楼层

看看新加坡华文教研中心的官方申明~~~

回应电脑批改作文有其实践价值
《联合早报》（2011-09-22）

最近报章言论版刊载了桑晓灿和刘娟两位读者，对于新加坡华文教研中心目前正在研发的“作文评改与学习系统”的文章。桑、刘两位读者的作文教学观，非常值得敝中心和华文教师深思、借鉴。敝中心衷心感谢桑、刘对系统的关切和指教。
　　
其实，桑、刘的许多意见，在我们研发系统的过程中已经注意到，并在系统的开发初期认真思考过、辩论过；我们会继续在系统的研发和应用上小心处理，让系统尽可能发挥其应有功用。这一系统目前还处于开发阶段，敝中心并未计划在明年推出学校使用，但会在明年有选择性地在一些学校试用，进行人机批改的对比研究，并收集教师和学生的反馈，以提升系统的评改功能，完善使用者界面。
　　
这一系统共有两个板块，即：“作文评改板块”和“作文学习板块”。第一板块第一阶段的成果，刚于最近举行的“第二届华文作为第二语言之教与学”国际研讨会上呈现。这一阶段主要在字词句层面，针对真实的小学生作文，进行侦错与修改试验，取得了一些技术上的突破。接下来，我们还会继续提高其侦错的准确率，并提升语言批改与反馈的功能。
　　
第二个板块为“作文学习板块”，这一板块将以“作文评改板块”为基础，从认知的角度，以“过程写作”的模式，配合小学华文教材进行开发。这个板块也将结合差异性教学设计原则，根据学生的语言程度进行目标具体、过程清楚的作文指引。在过程中，系统将在语言方面及时提供学生反馈，并在内容、组织方面提供引导，逐步提升学生的书面表达能力。
　　
“作文评改与学习系统”能协助华文教师减轻语文层面的批改负担，让教师能集中精力为学生提供高层次的写作指导，针对学生作文的内容提供详细具体的反馈与评点。同时，系统也能提供学生一个自主学习的空间，促进表达能力的提升。这一系统的服务对象，是华文作为第二语文的本地学生，尤其是书写表达能力较不足的学生，协助他们在写作过程中较准确地应用字词，写出完整的句子。
　　
这个系统不是一个放诸四海皆准的系统，也不是一个创意写作系统。系统有它特定的服务对象与明确的教学目的。

照顾在作文方面有困难的学生
　　
根据教育部去年公布的小一学生家庭语言背景调查，现在就读于新加坡小学的小一学生，已有超过六成来自讲英语的家庭。这些孩子在华语学习上遇到很多挑战，最大的挑战莫过于写作。一般而言，在华文作为第二语文的作文教学上，如何指导学生准确、完整地表达自己的意思是基本的目标。至于较高层次的文采、个性化写作、甚至创意等，相信必须在学生已经掌握了基本的语文写作能力后才能达成。
　　
现在的小学生所写的作文，主要问题有错别字多、用词不当、句子语病多等，而嵌套英文句式的问题尤其明显。从教师的角度看，学生语言表达错误多，在评改时自然十分苦恼。因此，教研中心开发这一系统，是为了帮助教师快速、准确地评改作文中的语言表达错误，希望借此减轻教师反复批改及纠错的工作量，让教师能更有时间、精力进行针对性的指导，比如刘君所强调的“人文评语”；桑君所强调的文采、创新和突破等。
　　
从学习者的角度来看，这个系统也能作为自主学习的管道。学生将能和系统进行互动，在系统的引导下输入作品。系统将会立即对其语言表达进行侦错并提供修改建议。根据电脑辅助语言学习（Computer-assisted Language Learning）的研究结果，电脑辅助学习有助于降低学习上的挫折感，增强与建立自信心，进而提升学习效果。学生将作文输入系统后，平台的即时侦错与所提供的修改建议，不但能让学生及时掌握学习点，同时在呈交作业时也更具信心。教师发回作文后，学生也会因为红色的圈圈、线线减少了而减轻挫败感、增强学习动力，而教师适当的“人文评语”会在这时发挥更大的作用。有了系统的辅助，学生在作文上将能较流畅、准确地表达，其行文也会更完整，这是我们开发平台期望看到的效果。

电脑技术让自动评改变得可行
　　
以电脑评改作文的做法，国际上已有先例。在英文方面，TOFEL就有电脑自动评改系统。华文方面，台湾心测中心与中国大陆的一些单位，也在积极开发不同功能的自动评改系统。甚至在书写系统复杂的印度，也在研制作文自动评分系统。这些国际的研究，意味着现今的电脑技术已日趋成熟，能够支援复杂的运算程序，让自动化评改变得可行。此外，人工评改的侦错率与精确性，会受到个人语文素养和体力的局限；只要有足够的语料支撑，电脑评改的侦错率与精确性则相对稳定；尤其在评改语言表层错误的工作上，电脑将是人工评阅的一大助力。当然，在系统开发的过程中，我们也意识到技术层面仍存在许多挑战与局限，必须不断地研究、探讨和解决。我们会谘询专家学者的意见，不断地完善系统。
　　
综上所述，中心研发自动作文评改与学习系统，绝对不是为了以“电脑打分形式来批改学生作文”，或全面取代人工评阅，也无意扼杀学生的文采和创造力。电脑仅是一种工具，其可能性与可行性，需要靠设计者和应用者不断地发掘和运用，从而得到改善。我们相信，只要不断提升系统，且运用得当，电脑科技的局限也可以成为潜能。推动华文学习与提升华语文的学习效益是敝中心的使命，只要是有益于华文教学事业的事情，我们都愿意尽力尝试。各界的支持、关心、提醒与指正，我们都会认真思考、细心斟酌，并作为系统开发时的参考。
　　
最后，本人代表新加坡华文教研中心研究团队，对大家的关注表示衷心的感谢。有了各界的支持，我们有信心为新加坡的华文教学作出更大的贡献。

新加坡华文教研中心研究主任（代）吴福焕敬复

回复支持反对

使用道具举报

jjrchome LV

发表于 22-9-2011 09:36:25 | 显示全部楼层

本帖最后由 jjrchome 于 22-9-2011 09:41 编辑

文盲幫你改作文（转载）

人工智慧（AI）已經悄悄潛入人類生活的各個層面，連托福、GMAT這些重要的檢定考試，也逐漸引進電腦閱卷，代替專業的教師批改作文。這不禁讓人懷疑，電腦怎麼看得懂作文？電腦怎麼判斷文章的優劣高低？

一般人對人工智慧的印像，莫過於機器人和電腦西洋棋程式。具有人類的外貌，敏銳、聰明、能與人類流暢溝通的機器人，是我們對人工智慧終極的夢想。在過去的一百年間，小說中、電影中、科學著作中，人類不停地勾勒機器人的功能和型貌，不停地預告機器人的實現，甚至為機器人的「人權」制定了規範。然而，一個世紀過去，機器人只能化為Roomba（智慧型自動吸塵器）的型態出現我們眼前，與人類摹想的目標──長得像人、會思考、會聊天的機器人──仍然相距甚遠。假如我們放下對人類型貌的執著，人工智慧其實有驚人的進展。其中，最富宣示義意的，莫過於IBM的電腦棋手深藍（Deep Blue），在1997年擊敗當時世界西洋棋王卡斯巴羅夫（Garry Kasparov）的軼事。有些誇大的報導，將此事解釋為人工智慧已經超越人類智慧，電腦比人腦更聰明。事實上，下棋的學問，無非是一連串邏輯推演，而電腦在邏輯運算上，向來就遠比人類優越。在相同的時間裡，電腦比人類算計得更深更遠，足以預知許多步棋之後的各種盤面，決定最好的落子。所以，電腦在棋類競賽中勝過人類，本來就是遲早發生的必然結果。

機器人的研究，處處以模仿人類、再現人類為目標，顯得困難重重，遲滯不前。深藍則擅用電腦先天的優勢，徹底發揮高速運算的能力，終於勝過了人類最頂尖的西洋棋手。擊敗西洋棋王之後，IBM宣布終止這項計劃，讓深藍「退休」。西洋棋規則明確，步驟分明，完全受邏輯運算支配。隨著電腦硬體速度加快，記憶容量增加，電腦的棋力只會越來越高明，超出人腦越來越多。所以，深藍勝過人類之後，它的任務已經圓滿。然而，並不是所有的事情都像西洋棋這麼純粹有條理。遇到不能完全透過推理和邏輯來解決的問題，如何讓電腦運用計算和記憶的優勢，做得和人類一樣好，甚至比人類更好呢？面對這樣的挑戰，自動作文評分（Automated Essay Scoring）研究的發展，是很好的示範。

早在1960年代，人類就冀望電腦能分擔教師的工作，自動批改學生作文。對人類而言，批改作文是一種高難度的心智工作。首先，批改者必須具備敏銳的語文能力，挑出學生作文裡的錯誤。錯誤有很多種，包含文法句式上的錯誤、字詞使用的錯誤、標點符號的錯誤等。排除了錯誤，作文還有好壞之分。所謂文章好壞，由各種細緻的因素交互作用所決定，這些因素包括形式、結構、內容、意境等。這時，必須仰賴批改者的文學品味以及文化素養，評估文章的整體成就。敏銳的語文能力、文學品味、文化素養，看來都是人類心靈幽微之處，最難以捉模的素質。由此可見，人類批改作文所涉及的心智活動，有許多經驗和直覺的成分，與下棋不同，難以訴諸邏輯計算和純粹的理性推演。既然如此，科學家如何跨越性質上根本的矛盾，讓沒有感情、不通世務、只會計算的機器，來閱讀人類的心靈產物，評判高低呢？令人訝異的是，透過這四十年來，自動作文評分的研究，我們親見機器與心靈之間的鴻溝，並不是永恒的平行線。反之，在批改作文這件事上，人類與電腦，沿著截然不同的途徑，取得了相當的共識。

如何教電腦「閱讀」文章，是作文評分研究最大的挑戰。電腦處理的對象是數字，電腦一切的功能，都立基於一串連的加減乘除和邏輯運算。構成文章的元素卻是單字、詞彙、句子、段落、篇章，與數字毫不相干。一篇文章對電腦而言，不過是一連串數字，每個數字代表一個對應的字，這些數字對電腦全無意義。「紅」、「橙」、「黃」、「綠」這些字，人類一看就立刻產生色彩、光澤、溫度的連結，甚至同時浮現相關的記憶聯想。「大漠孤湮直，長河落日圓」對人類來說，是一幅圖畫、一組意象、一種境界。然而，對工於計算卻不解風情的電腦來說，這些字句只是一串雜亂的數字，沒有色彩、沒有光澤、沒有溫度，更不可能體悟其中的意境。

冀望電腦像人類一樣感受文章的意境，恰似我們期待機器人具備人類的外表、模仿人類的行動溝通，這些都是太困難，太吃力不討好的挑戰。對於這個難題，自動作文評分的先鋒艾利斯〃佩吉（Ellis Page），在1960年代提出一個新奇的觀點：電腦根本不需要真的「讀懂」文章，就能改作文。在他實作的系統裡，每篇文章都轉成了一組對電腦而言有意義的數字，稱為「特徵值」，並以特徵值代替原文，作為電腦評分的對象。所謂「特徵值」，是一群從原文中統計出來的量化數值，包括字數、句數、子句數、詞的平均字數、罕見字數等等。接著，佩吉把一批英文作文，請專人評分，作為樣本，再利用統計的方法，分析樣本文章的分數和這些特徵值之間的關聯。他發現，字數越多、句數越多、詞的平均字數越多，文章的分數通常越高。而高分的文章裡，卻不會出現太多罕見字。所以，這些特徵值和文章優劣的相關程度，就是每一個特徵值的「權重」。假如文章的字數和分數明顯成正比，表示批改文章時，字數多寡有相當重要的參考價值，字數越多，分數越高。於是，字數這個特徵值就會得到較高的權重。而罕見字太多的文章，分數通常不高，因此罕見字數這個特徵值就會有負的權重。配合這組權重，對於每一篇新文章，電腦統計出該文章的特徵值之後，就能算出文章的分數。

將數千字的文章，約化成幾個統計數值，就此判定文章的成就，這一切聽起來多麼的粗糙、多麼的荒誕。然而，佩吉透過實驗，證明這個方法其實並不虛妄。他實驗的方式也頗有新意，他將同一批文章，交給兩位作文老師批改。由兩位老師對每一篇文章給的分數，可以算出他們的「共識度」，代表這兩位老師對作文評分的一致性。然後，佩吉也將同一批文章，交給自動評分系統批改，也算出評分系統和作者老師之間的共識度。結果，兩位老師之間的共識度是0.85，而作文老師與自動評分系統之間的共識度則是0.78，差距不遠。也就是說，佩吉的自動評分系統，批改能力已經接近作文教師了。

佩吉的方法學，不模仿人類批改作文的程序，而擅用電腦統計運算的優勢〃從純粹量化的角度解決問題。這套方法成為自動作文評分研究的基礎，後來40年的發展，都不脫這個框架，只是特徵的設計，越來越細緻，計算權重、決定分數的數學模型，也更加精巧。除此之外，也加入拼字文法檢查器，挑出文章的語法錯誤。1990年代之後，自動作文評分系統，不只評估遣詞造句和結構組織等基本的寫作能力，對於命題作文，系統還能評判內容是否切中題旨，論述的組織發展是否完整連貫。這些神奇的功能，背後仍然是一連串統計運算：科學家根據語言學和資訊擷取（Information Retrieval）的知識，從文字中找出上百個與修辭、結構、組織、內容相關的量化特徵值，讓電腦從經過專人評分的樣本文章裡，計算出每個特徵值的權重，於是便能評判新的文章。

隨著語言學和資訊擷取等相關領域的成長，自動作文評分的研究也不斷的進步。最近幾年，著名的自動評分系統E-Rater達到極高的效能，與專業的寫作教師有97%的共識度，比任兩位教師之間的共識度更高，實用價值無庸置疑，已經普遍應用在托福和GMAT等大型英文能力檢定的批改作業中。除了GMAT，目前有越來越多語言能力檢定採用電腦評分，而且不只是英文，在各種不同的語言上，自動作文評分研究都有活躍的發展。即使是較不易處理的中文，也有效能不錯的評分系統。

電腦透過機械式的統計運算就能改作文，甚至比專業的教師改得更好，這代表什麼？寫作是人類溝通的方式，是智能的展現，是心靈的脈動，是靈魂的窗口。冷酷的電腦完全不理解人類的情感，根本無法「看懂」人類寫的文章。為什麼自動作文評分系統靠著字數、句數、用字頻率這些無機的統計數據，卻有驚人的批改能力？

閱讀與寫作看似微妙，在不可捉摸的心智活動底下，是否也隱約受到潛藏的機械法則支配呢？