提提你

【自己佣金自己賺】網購、叫外賣、旅遊預訂拎返佣:https://cuhkinfo.blogspot.com/2023/07/blog-post.html

【00. 新生行事曆】

https://cuhkinfo.page.link/fm

【01. 搵銀攻略】

http://cuhkinfo.blogspot.com/2014/02/blog-post_21.html

【02. 投考政府工資訊目錄】

http://cuhkinfo.blogspot.com/2018/11/blog-post_19.html

【03. 科目資訊平臺】

https://cuhkinfo.page.link/course

【04. 報失、拾遺平臺】

按此報失按此報拾遺

 

資料搜尋

資料搜尋

2016年10月3日星期一

Veriguide實測(二)

前一章試過,在網上直錄資料,在沒有下注釋、credit 原作者的情況下,veriguide 得出的「相似度」是100 %。那麼,下了注釋又如何?

我們準備了文件2(即文件1的文字,加上注釋。)
我們在每一句號/問號/分號等表示句子完結的標點後加上footnote標記,並在注釋中寫出書名、頁數之類。文件2正文內容共2845字,共加注釋66個。
圖一、文件2在結句標點後加入注釋共六十六個。


經過veriguide 檢測之後,跟完全沒有落reference 的比較,%低了16%。

圖二、落注的文件2的檢測結果。

查看詳細的結果,其實抄的內容還是說你抄。為何比率會低了呢?這是因為數字之功。你落reference 的時候,會有數字穿插於文字之間,而這些數字,就幫你把「分母」增大。在「分母」增大,而「分子」不變的情況下,比率就低了。66個注釋(數字)即123個字符。

圖四、較詳細的比較。分子不變,但分母大了,比率也就低了。

圖三、抄的還是說我抄。
你可能會覺得admin 我落注落得唔夠多,唔夠仔細,所以抄的內容仍被視作剽竊。
好,咁admin準備左文件3,盡量落注。

今次admin我瘋狂落注。28XX字的正文就落左234個注。注的格式合符學術規範,如下圖示:
圖四、無一句無來處!



結果:28XX字落234個注係真係得既!!!%下降到36.3%
圖五、文件2、3之結果對比。

其實點解會咁呢?係咪因為落注真係有用呢?
其實睇番詳細比對,你的抄的內容大部分都係會被檢出來,但後文抄中時的內容為何沒有被檢出來?這是因為到中時內容那裡,注已是三位數字的了。太多三位數字的數字把內容間隔開,所以電腦未能把抄襲的內容檢測出來。

圖六、太多數字搞到d句子間隔開,電腦檢測不出來。
圖七、判別規則是百分之七十或以上的相似度。數字太多,搞到相似度不行,電腦就檢不出來。好愚昧的維誠!

為了證實以上所說,admin 把文件3再上傳一次,並選用更為嚴謹的篩選。結果不出所料:

圖八、相似度高了6%左右

一些較短的句子,仍可以避過被判抄襲的命運。但較長的句子,就被檢了出來:

圖九、就好似注157至注168的這一段。這段中間多長句,就被檢了出來。

最後多做一點。admin 把文件3作改動,把所有注的出處都改為來源網址,即wiki和中時網站,且看如何。
圖十、無法大幅降低%。



小結:
1. 落reference 無法大幅降低抄襲的相似比率。
2. 影響抄襲相似比率的不因為你落不落reference,而是那reference在文內插入的「數字」會干擾文意,影響檢測。
3. 機器檢出來的抄襲,須先經教師核實,才會上報。所以教師驗明你係真係引述他人,而且落足credit,你係唔會出事的。
4. 2XXX字的文有234個係特登誇張地示範。現實中無人會咁落。
5. 想降低相似率,落reference不行,咁rephrase 呢?
且留意下一章。

你可能會問,咁落reference / footnote 咪一定冇問題 !
姑且一試,下章就試試落注!
實測第一章:http://cuhkinfo.blogspot.hk/2016/10/veriguide.html
實測第三章: http://cuhkinfo.blogspot.hk/2016/09/veriguide.html
如何使用veriguide 在交功課之前check自己過唔過到: http://cuhkinfo.blogspot.com/2013/10/veriguide-check.html
人肉veriguide 打抄心得: http://cuhkinfo.blogspot.com/2016/10/veriguide_24.html