一、先懂原理:破解 iThenticate 查重结果的核心逻辑
在当前学术论文投稿体系中,iThenticate 已成为国际公认的主流查重工具,众多收录于 SCI、SSCI、EI 等核心数据库的高水平期刊,均将其作为稿件原创性检测的核心标准。然而,不少作者在获取查重报告后常会面临这样的困境:总相似度(Similarity Index)数值偏高,但经细致核查后发现,论文并不存在实质性抄袭或不当引用行为。这种情况在投稿过程中较为常见,若处理方式不当,很可能直接导致编辑作出拒稿决定,因此掌握科学的应对方法至关重要。
在针对高相似度结果采取行动前,首先需要深入理解 iThenticate 的检测机制,避免因对结果的误读而采取无效措施:
- 比对范围覆盖全面:该系统的比对数据库极具广度,不仅包含 Crossref 学术文献数据库、全球主流出版商的内容库,还涵盖了互联网公开资源、各类预印本平台(如 arXiv、bioRxiv)等,确保对学术内容的全面检索。
- 逐句匹配不涉语义:系统采用 “文本切分 + 精准匹配” 模式,将论文按句子或语义片段拆分后,与数据库内容进行字符级、词组级的比对,整个过程不涉及语义理解,仅基于文字形式的相似性判定。
- 总相似度≠抄袭率:这是最易被误解的核心概念。例如,某篇论文总相似度显示为 30%,仅代表论文中有 30% 的文本片段与数据库中已有内容存在相似或相同表述,并非意味着 30% 的内容存在抄袭。
因此,高相似度与抄袭之间不能直接划等号。期刊编辑在判断时,通常会结合查重报告的细节(如重复片段分布)、重复来源的具体类型以及论文整体内容,进行综合且严谨的评估。
二、找对原因:非抄袭性高相似度的 5 类常见诱因
在确认论文无抄袭行为的前提下,iThenticate 查重结果偏高,往往与以下 5 类学术写作中的正常场景相关:
- 文献引用密度较高:在论文的文献综述、引言等章节,为体现研究的学术背景,需大量引用前人研究成果。即便所有引用均规范标注出处,密集的引用文本仍可能被系统识别为相似内容,推高总相似度。
- 专业领域固定表达:在医学、工程、计算机等高度专业化的领域,存在大量标准化的专业术语(如 “PCR 扩增”“有限元分析”)、方法描述(如实验步骤、算法流程)及固定句式,这类内容因在领域内广泛使用,极易被系统标记为重复。
- 作者自引内容重叠:若当前论文与作者此前发表的成果存在内容重叠(如方法学复用、研究背景延续),即便已规范标注自引,系统仍会将重叠部分计入总相似度,此类情况也被称为 “自我剽窃” 的误判风险。
- 标准化内容表述一致:在定量研究中,实验方法、数据处理流程、图表说明等内容常需遵循行业标准或通用表述,例如 “样本量计算采用 G*Power 3.1 软件”“数据以
x±s
表示” 等,这类标准化表述的高频使用会导致相似度升高。 - 参考文献格式重复:即便未复制参考文献正文,参考文献列表中相同的文献标题、作者姓名、期刊名称、发表年份等信息,因格式固定且高频重复,也会对总相似度产生一定影响。
三、主动沟通:向期刊编辑说明高相似度的 3 个关键步骤
若论文无抄袭行为,但 iThenticate 报告显示总相似度偏高,建议在投稿时的 Cover Letter(投稿信)或回复编辑问询的说明信中,主动、清晰地解释情况,具体可遵循以下 3 个步骤:
- 明确界定查重结果特点:先坦诚承认总相似度偏高的事实,再通过具体细节说明重复内容的合理性,避免笼统表述。例如:
“We acknowledge that the overall similarity index of our manuscript is 32% as detected by iThenticate. However, a detailed review of the report shows that over 80% of the matched text originates from three non-concerning sources: the reference list (45%), standard descriptions of the experimental methodology (25%), and commonly used technical terms in the field of [具体领域,如 “neuroimaging”] (10%).” - 提供可视化数据支持:自行整理 “相似来源分布表”,清晰列出主要重复来源类别(如参考文献、专业术语、自引内容)及其占总相似度的比例,附在说明信中。直观的数据能让编辑快速理解高相似度的构成,降低对抄袭的疑虑。
- 郑重声明论文原创性:明确强调论文的核心价值部分(如研究思路设计、实验数据采集与分析、结果解读及结论推导)均为原创。若存在自引情况,需主动披露自引文献的来源,并说明自引的必要性(如 “为保证方法学的连贯性,本文部分引用了作者此前发表的研究 [文献编号],相关内容已规范标注”)。
四、规范申诉:应对高相似度拒稿或修改要求的流程
若期刊在初审阶段因高相似度问题作出拒稿决定,或要求作者修改后重新提交,可按照以下流程提出正式申诉,最大程度争取发表机会:
- 优化内容后重新检测:首先针对报告中可修改的重复段落(如非核心的背景描述、可替换的表述)进行适度重写,避免与来源文献逐字重复(注意保留专业术语的准确性)。修改完成后,通过个人账号或学校提供的平台在 iThenticate 重新检测,确保相似度显著降低。
- 撰写结构化申诉信:申诉信(标题统一为 “Rebuttal Letter for Similarity Report”)需包含 4 个核心模块:
- 感谢编辑的时间与反馈,表达对期刊的重视;
- 详细解释初始高相似度的原因(结合前文提到的 5 类诱因,对应说明);
- 附上重新检测的查重报告截图(标注关键数据,如修改后的总相似度、重复来源变化);
- 再次声明论文原创性,强调修改后的稿件已符合期刊要求。
- 补充针对性对比证据:根据重复来源的不同准备证据材料:
- 若重复内容来自预印本平台,需说明 “该预印本为作者本人此前发布的研究草稿,此次投稿为修订后的正式版本,不存在抄袭”,并附上预印本链接及作者身份证明;
- 若重复为规范引用内容,可将引用段落用彩色标注,附在申诉信后,并对应列出引用的文献条目,证明引用的合法性。
五、提前规避:降低高相似度风险的 3 条实用建议
与其在查重后被动应对,不如在投稿前主动规避高相似度风险,以下 3 条建议可有效提升投稿效率:
- 投稿前完成自我检测:在向期刊正式投稿前,自行通过 iThenticate 检测论文(可购买个人检测次数或使用机构提供的资源),提前识别高相似段落并优化,避免因疏忽导致的不必要麻烦。
- 精准掌握期刊容忍度:不同期刊对相似度的要求存在差异:部分期刊要求总相似度低于 20%,部分期刊更关注 “单一来源相似度不超过 10%”(避免大段引用某一篇文献)。投稿前务必仔细阅读期刊 “Author Guidelines”(作者指南),明确其具体标准。
- 避免过度逐句复制:对于方法学、结果说明等必须保留核心信息的内容,可在不改变原意的前提下调整句式、替换同义表述(如将 “the experiment was conducted in triplicate” 改为 “triplicate experiments were performed”),降低被系统标记的概率。
综上,当 iThenticate 查重结果显示高相似度时,作者无需过度焦虑。高相似度本身并非抄袭的直接证据,关键在于通过清晰的逻辑、充分的证据向编辑说明情况,并在必要时提交优化后的检测结果。对科研作者而言,既要在论文撰写全程坚守原创性原则,也要熟悉查重工具的机制与期刊规则,才能有效规避误解,保障研究成果顺利发表。