学术论文投稿：iThenticate 高相似度问题的科学应对策略

一、先懂原理：破解 iThenticate 查重结果的核心逻辑

在当前学术论文投稿体系中，iThenticate 已成为国际公认的主流查重工具，众多收录于 SCI、SSCI、EI 等核心数据库的高水平期刊，均将其作为稿件原创性检测的核心标准。然而，不少作者在获取查重报告后常会面临这样的困境：总相似度（Similarity Index）数值偏高，但经细致核查后发现，论文并不存在实质性抄袭或不当引用行为。这种情况在投稿过程中较为常见，若处理方式不当，很可能直接导致编辑作出拒稿决定，因此掌握科学的应对方法至关重要。

在针对高相似度结果采取行动前，首先需要深入理解 iThenticate 的检测机制，避免因对结果的误读而采取无效措施：

比对范围覆盖全面：该系统的比对数据库极具广度，不仅包含 Crossref 学术文献数据库、全球主流出版商的内容库，还涵盖了互联网公开资源、各类预印本平台（如 arXiv、bioRxiv）等，确保对学术内容的全面检索。
逐句匹配不涉语义：系统采用 “文本切分 + 精准匹配” 模式，将论文按句子或语义片段拆分后，与数据库内容进行字符级、词组级的比对，整个过程不涉及语义理解，仅基于文字形式的相似性判定。
总相似度≠抄袭率：这是最易被误解的核心概念。例如，某篇论文总相似度显示为 30%，仅代表论文中有 30% 的文本片段与数据库中已有内容存在相似或相同表述，并非意味着 30% 的内容存在抄袭。

因此，高相似度与抄袭之间不能直接划等号。期刊编辑在判断时，通常会结合查重报告的细节（如重复片段分布）、重复来源的具体类型以及论文整体内容，进行综合且严谨的评估。

二、找对原因：非抄袭性高相似度的 5 类常见诱因

在确认论文无抄袭行为的前提下，iThenticate 查重结果偏高，往往与以下 5 类学术写作中的正常场景相关：

文献引用密度较高：在论文的文献综述、引言等章节，为体现研究的学术背景，需大量引用前人研究成果。即便所有引用均规范标注出处，密集的引用文本仍可能被系统识别为相似内容，推高总相似度。
专业领域固定表达：在医学、工程、计算机等高度专业化的领域，存在大量标准化的专业术语（如 “PCR 扩增”“有限元分析”）、方法描述（如实验步骤、算法流程）及固定句式，这类内容因在领域内广泛使用，极易被系统标记为重复。
作者自引内容重叠：若当前论文与作者此前发表的成果存在内容重叠（如方法学复用、研究背景延续），即便已规范标注自引，系统仍会将重叠部分计入总相似度，此类情况也被称为 “自我剽窃” 的误判风险。
标准化内容表述一致：在定量研究中，实验方法、数据处理流程、图表说明等内容常需遵循行业标准或通用表述，例如 “样本量计算采用 G*Power 3.1 软件”“数据以x±s表示” 等，这类标准化表述的高频使用会导致相似度升高。
参考文献格式重复：即便未复制参考文献正文，参考文献列表中相同的文献标题、作者姓名、期刊名称、发表年份等信息，因格式固定且高频重复，也会对总相似度产生一定影响。

三、主动沟通：向期刊编辑说明高相似度的 3 个关键步骤

若论文无抄袭行为，但 iThenticate 报告显示总相似度偏高，建议在投稿时的 Cover Letter（投稿信）或回复编辑问询的说明信中，主动、清晰地解释情况，具体可遵循以下 3 个步骤：

明确界定查重结果特点：先坦诚承认总相似度偏高的事实，再通过具体细节说明重复内容的合理性，避免笼统表述。例如：
“We acknowledge that the overall similarity index of our manuscript is 32% as detected by iThenticate. However, a detailed review of the report shows that over 80% of the matched text originates from three non-concerning sources: the reference list (45%), standard descriptions of the experimental methodology (25%), and commonly used technical terms in the field of [具体领域，如 “neuroimaging”] (10%).”
提供可视化数据支持：自行整理 “相似来源分布表”，清晰列出主要重复来源类别（如参考文献、专业术语、自引内容）及其占总相似度的比例，附在说明信中。直观的数据能让编辑快速理解高相似度的构成，降低对抄袭的疑虑。
郑重声明论文原创性：明确强调论文的核心价值部分（如研究思路设计、实验数据采集与分析、结果解读及结论推导）均为原创。若存在自引情况，需主动披露自引文献的来源，并说明自引的必要性（如 “为保证方法学的连贯性，本文部分引用了作者此前发表的研究 [文献编号]，相关内容已规范标注”）。

四、规范申诉：应对高相似度拒稿或修改要求的流程

若期刊在初审阶段因高相似度问题作出拒稿决定，或要求作者修改后重新提交，可按照以下流程提出正式申诉，最大程度争取发表机会：

优化内容后重新检测：首先针对报告中可修改的重复段落（如非核心的背景描述、可替换的表述）进行适度重写，避免与来源文献逐字重复（注意保留专业术语的准确性）。修改完成后，通过个人账号或学校提供的平台在 iThenticate 重新检测，确保相似度显著降低。
撰写结构化申诉信：申诉信（标题统一为 “Rebuttal Letter for Similarity Report”）需包含 4 个核心模块：
- 感谢编辑的时间与反馈，表达对期刊的重视；
- 详细解释初始高相似度的原因（结合前文提到的 5 类诱因，对应说明）；
- 附上重新检测的查重报告截图（标注关键数据，如修改后的总相似度、重复来源变化）；
- 再次声明论文原创性，强调修改后的稿件已符合期刊要求。
补充针对性对比证据：根据重复来源的不同准备证据材料：
- 若重复内容来自预印本平台，需说明 “该预印本为作者本人此前发布的研究草稿，此次投稿为修订后的正式版本，不存在抄袭”，并附上预印本链接及作者身份证明；
- 若重复为规范引用内容，可将引用段落用彩色标注，附在申诉信后，并对应列出引用的文献条目，证明引用的合法性。

五、提前规避：降低高相似度风险的 3 条实用建议

与其在查重后被动应对，不如在投稿前主动规避高相似度风险，以下 3 条建议可有效提升投稿效率：

投稿前完成自我检测：在向期刊正式投稿前，自行通过 iThenticate 检测论文（可购买个人检测次数或使用机构提供的资源），提前识别高相似段落并优化，避免因疏忽导致的不必要麻烦。
精准掌握期刊容忍度：不同期刊对相似度的要求存在差异：部分期刊要求总相似度低于 20%，部分期刊更关注 “单一来源相似度不超过 10%”（避免大段引用某一篇文献）。投稿前务必仔细阅读期刊 “Author Guidelines”（作者指南），明确其具体标准。
避免过度逐句复制：对于方法学、结果说明等必须保留核心信息的内容，可在不改变原意的前提下调整句式、替换同义表述（如将 “the experiment was conducted in triplicate” 改为 “triplicate experiments were performed”），降低被系统标记的概率。

综上，当 iThenticate 查重结果显示高相似度时，作者无需过度焦虑。高相似度本身并非抄袭的直接证据，关键在于通过清晰的逻辑、充分的证据向编辑说明情况，并在必要时提交优化后的检测结果。对科研作者而言，既要在论文撰写全程坚守原创性原则，也要熟悉查重工具的机制与期刊规则，才能有效规避误解，保障研究成果顺利发表。