當前位置:首頁 > 文章中心>CrossCheck查重原理及規則

CrossCheck查重原理及規則

發布時間:2021-05-10 15:22:54 閱讀:2595 作者:致遠教育 字數:2088 字 預計閱讀時間:6分鐘
導讀:CrossCheck,是一個專業的查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過30%,編輯就會要求修改或者可能直接拒稿。那么CrossCheck查重原理及查重規則是怎樣的呢?本文為大家分析。

CrossCheck,是一個專業的查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過30%,編輯就會要求修改或者可能直接拒稿。那么CrossCheck查重原理及查重規則是怎樣的呢?本文為大家分析。

CrossCheck logo

一篇被CrossCheck處理的文章,這個軟件第一步應該做的是進行文本的格式化。說來也很合理。因為一篇文章中,除了單詞以外,還有大量的符號(標點符號,數學符號及特殊符號等)。這些并不是CrossCheck查重的對象,所以會把他們處理掉。這些符號會通通被替換為空格。這種文本處理方式也是很常見的,在python和matlab的數據處理中經常會使用。

處理后的文章就只剩下單詞了。然后軟件會對文章進行比對處理。根據軟件設置的重復原則對文本進行標記。最終得出一份相似性報告。

這里的重點是軟件判定重復的原則。了解了原則之后,我們就可以有針對性的進行修改。網上很多關于這些規則的說法,大部分是說連續六個單詞重復即判定為重復,或者根據語言風格相似即判定重復。這些說法不夠準確,也沒有依據。我們還是回到軟件本身來回答這個問題。CrossCheck它是一款軟件,它不是人,不能判斷文章的內容,只會把文章和系統內的進行比對,根據規則做出判斷。那這樣的規則到底有哪些?

其實,CrossCheck查重的基本規則只有一條:不連續重復的六個單詞中間連續不重復的單詞小于四個(不包括四個)即判定這六個單詞重復(注意:這里的規則是軟件系統默認的規則,大部分期刊使用默認規則)。

所有的查重結果都是基于這條進行的。這句話比較繞口。具體怎么理解,我們來看下具體的實例。

1. 先分析最極端也是最直白的重復。不連續重復的六個單詞中間不重復的單詞為0個,即六個連續重復的單詞。顯然這個肯定是會被判定重復了。下面我用1表示重復的單詞,0表示不重復的單詞。那么這種情況就是:111111。

再分析中間有不重復單詞的情況。這點大家很多情況摸不著頭腦,有時候幾個單詞距離的很遠,也被判定重復了,很是苦惱。

1)中間只有一個不重復的。例如:1011111;1101111;1111011等。

實例:Computer science has been widely considered as ...(斜體表示和已有文獻重復)。

這里面單純插入一個widely單詞,是不足以騙過系統的。

2)中間有兩個不重復的。例如:1100110011;110010011001等。

實例1:Computer science has been widely percieved as an...

這里替換兩個不重復單詞widely percieved,但是Computer, science, has, been, as, an已經是六個不連續的重復了。

實例2:Computer science and technology has been widely percieved as an...

在Computer science后面加上兩個不重復的單詞and technology是不是就可以了呢?答案是否定的,Computer, science, has, been, as, an這六個詞中間只有兩個是不重復的,不能判定為整句不重復。

3)中間有三個不重復的。這個咋一眼看不覺得重復,但其實是重復了。例如:100010001111;100010001000100010001等。

100010001000100010001這種情況是不是很刺激。對!按照規則,這個也算重復。

實例1:Computer science, resulting from America, has been widely percieved as an...

這種形式是11000110011模式,依舊是重復的。

實例2:Computer science, resulting from America, has been widely percieved as one of most promising....

好,我們把an改成one of most promising。雖然one of most這三個沒有重復,但緊接著后面的promising和已有文獻重復了,很不幸,整個句子還是重復了。重復形式為11000110010001。

CrossCheck查重舉例

上面分析的是單純的單詞,不涉及符號和數字。大家的論文很多情況包含各種單位符號和數學符號,系統該如何處理他們?

1)單純的數字。比如123,25,1998等這些整數,他們都是連續的,中間沒有空格和特殊符號,系統不會進行處理,還會保持原來形式。算一個單詞。

實例1:Computer science, developed from 1930, has been widely percieved as an..

這句話是11000110011的重復,這里的1930算一個單詞。

對于小數要特別注意,因為小數點系統處理后會被空格代替,所以小數是會被看作兩個單詞的。如1.23,在系統里面會看作1和23兩個單詞。

例2:Computer science, developed from 1,930, has been widely percieved as an.. 

還是這句話,這里的1,930多加個了分隔符,就變成兩個單詞。所以句子中間就有四個連續不重復的單詞(即developed, from, 1和930四個),整個句子就是不重復的。

2)連接符。不少單詞或者專業詞匯會用連接符號連起來,系統會自動把連接符號替換成空格,所以被看作兩個單詞。如:ever-increasing算作ever和increasing;CD-ROM算作CD和ROM。

3)科學單位。文章中難免會有g cm-3這種有上標或者下標的單位。軟件系統其實不會識別上下標。直接按照正常大小處理,再替換特殊符號為空格,所以g cm-3算三個單詞。

4)包括符號的專有名詞縮寫。比如化學中Ag包覆Au再包覆一層C。作者可能會縮寫成Ag@Au/C。這個經過系統處理后,其實是三個單詞的Ag,Au和C。所以有時候會發現系統把這類詞分開匹配查重。

實例:The synthesized Ag@Au/C nanoparticles exhibited good activities.

可能會遇到這種重復,這里Ag@Au/C 算作三個單詞,所以是101011101重復類型。

5)跨段落重復。有時候系統的重復可能不在于特定的一段,還會跨段落,因為在軟件眼里,整個文章就是一連串單詞被空格分割,不存在段落之分。

實例:

4. Experimental and methods

4.1. Synthesis of ...

這個是典型的文章中方法部分。這里猜猜系統判定重復的元素是幾個?嗯,8個。去掉點號,就是4, Experimental, and, methods, 4, 1, Synthesis, of 這8個單詞。

6)總結起來,系統處理的特殊符號包括:標點符號;數學符號;特殊符號等一切非數字的符號。

以上就是CrossCheck查重的基本規則?;灸依舜蠹矣龅降那闆r。了解了這些規則,修改起來就方便了。再舉幾個例子。

CrossCheck查重規則舉例

1. Computer science, resulting from America, has been widely percieved as one of most promising....

這句話是11000110010001重復,最簡單的修改就是把不重復的單詞提高到4個不連續。比如修改成110000110010001就不會被系統判斷重復了。

修改為:Computer science, which results from America, has been widely percieved as one of most promising....

這種是沒有問題的。

2. 單復數改變。從系統原理可知,單復數是不同的單詞,故可以達到避免重復的目的。

The Au nanoparticle exhibited good catalytical activities and ...

這里是10110111重復,剛好六個,那我們把nanoparticle變為復數nanoparticles變成五個了,不算重復。不過要注意的是修改之后,自己再想想會不會還和別人有重合,畢竟CrossCheck系統的對比樣本實在是太豐富了。

3. 同義詞替換。這一招依舊是非常有效的方法。但是不能單純的使用,一定要結合整個句子來。

4. 句子單詞顛倒。不錯的辦法。還是那句話,注意句子的整體結構。

最后,寫好論文的核心還是要多讀文獻,多學習寫作技巧,最終形成自己的寫作風格。如果需要各類留學論文作業代寫服務,請咨詢網站客服。

評論列表

2022-01-06 13:34匿名用戶
好家伙,原來crosscheck這么牛掰

最新評論

評論內容:

驗證碼:
驗證碼

911国产在线观看无码专区