中大資訊: Veriguide實測（二）

前一章試過，在網上直錄資料，在沒有下注釋、credit 原作者的情況下，veriguide 得出的「相似度」是100 %。那麼，下了注釋又如何？

我們準備了文件２(即文件1的文字，加上注釋。)
我們在每一句號／問號／分號等表示句子完結的標點後加上footnote標記，並在注釋中寫出書名、頁數之類。文件2正文內容共2845字，共加注釋66個。

圖一、文件2在結句標點後加入注釋共六十六個。

經過veriguide 檢測之後，跟完全沒有落reference 的比較，％低了16%。

圖二、落注的文件2的檢測結果。

查看詳細的結果，其實抄的內容還是說你抄。為何比率會低了呢？這是因為數字之功。你落reference 的時候，會有數字穿插於文字之間，而這些數字，就幫你把「分母」增大。在「分母」增大，而「分子」不變的情況下，比率就低了。66個注釋(數字)即123個字符。

圖四、較詳細的比較。分子不變，但分母大了，比率也就低了。

圖三、抄的還是說我抄。

你可能會覺得admin 我落注落得唔夠多，唔夠仔細，所以抄的內容仍被視作剽竊。
好，咁admin準備左文件３，盡量落注。

今次admin我瘋狂落注。28XX字的正文就落左234個注。注的格式合符學術規範，如下圖示：

圖四、無一句無來處！

結果：28XX字落234個注係真係得既！！！%下降到36.3%

圖五、文件2、3之結果對比。

其實點解會咁呢？係咪因為落注真係有用呢？
其實睇番詳細比對，你的抄的內容大部分都係會被檢出來，但後文抄中時的內容為何沒有被檢出來？這是因為到中時內容那裡，注已是三位數字的了。太多三位數字的數字把內容間隔開，所以電腦未能把抄襲的內容檢測出來。

圖六、太多數字搞到ｄ句子間隔開，電腦檢測不出來。

圖七、判別規則是百分之七十或以上的相似度。數字太多，搞到相似度不行，電腦就檢不出來。好愚昧的維誠！

為了證實以上所說，admin 把文件3再上傳一次，並選用更為嚴謹的篩選。結果不出所料：

圖八、相似度高了６％左右

一些較短的句子，仍可以避過被判抄襲的命運。但較長的句子，就被檢了出來：

圖九、就好似注157至注168的這一段。這段中間多長句，就被檢了出來。

最後多做一點。admin 把文件3作改動，把所有注的出處都改為來源網址，即wiki和中時網站，且看如何。

圖十、無法大幅降低%。

小結：
1. 落reference 無法大幅降低抄襲的相似比率。
2. 影響抄襲相似比率的不因為你落不落reference，而是那reference在文內插入的「數字」會干擾文意，影響檢測。
3. 機器檢出來的抄襲，須先經教師核實，才會上報。所以教師驗明你係真係引述他人，而且落足credit，你係唔會出事的。
4. 2XXX字的文有234個係特登誇張地示範。現實中無人會咁落。
5. 想降低相似率,落reference不行，咁rephrase 呢？
且留意下一章。

你可能會問，咁落reference / footnote 咪一定冇問題！
姑且一試，下章就試試落注！
實測第一章:http://cuhkinfo.blogspot.hk/2016/10/veriguide.html
實測第三章: http://cuhkinfo.blogspot.hk/2016/09/veriguide.html
如何使用veriguide 在交功課之前check自己過唔過到: http://cuhkinfo.blogspot.com/2013/10/veriguide-check.html
人肉veriguide 打抄心得: http://cuhkinfo.blogspot.com/2016/10/veriguide_24.html

中大資訊

提提你

2016年10月3日星期一

Veriguide實測（二）

聯絡我們