第四十一章 背后的影子
“我明白你的顾虑是什么,不过我很负责任地告诉你,我刚才所说的这种利用文本特征来侦破破案的技术,早就在九十年代,就已经在许多发达国家中投入使用了。像是日本这些国家,他们的刑警,很早就开始利用嫌疑人留下的文本信息来进行破案了。”
“九十年代就开始了…那他们究竟是怎么破案的?”听到这,陈熙不由得感叹了一声,其他人早已熟知并妥善利用的工具,到了她这里,竟然因为自己的无知,还对其心存质疑。
“嗯,这项技术在国内起步较晚,在学术界里,对它的研究并不在少数,但真正地将其投入到现实中使用的,还在少数,所以你们对它不了解,也很正常,毕竟从理论走上应用,也是需要一定时间的。”唐语然如是说道,像是在宽慰陈熙一样。
“后来,警方收集了所有人平时写下的文本信息,对其进行研究,终于锁定了一个犯罪嫌疑人,然后以此为突破口,对其进行更加严密的跟踪和观察,终于被他们发现了关键性的证据,从而将其正法了。”
“没想到还可以这样操作…如果都是自杀案的话,那这次遇到的三个案子,是不是也可以以日记本为突破口?”正说着,陈熙像是突然想到了什么,开口说道。
听了陈熙的话,唐语然先是摇了摇头,随即叹了一口气,说道:“那三本日记我都已经研究过了,每一本日记的语言风格和特征都是一致的,不存在他人撰写的这种情况。”
“那如果有人故意模仿呢?”陈熙不禁反问道。
“这种事情,即便想做到,也是很困难的,我将每一本日记分成了等额的十份,选取其中的一份作为训练集,其他作为测试集,结果显示,每一份测试集与训练集的匹配度都是相近的,如果真的是有人故意模仿写成的,那这匹配度的相似程度,未免也太高了一些。”唐语然分析道。
“我明白了,所以说,这三本日记,应该都是出于死者之手,而并非他人,对吗?”
“没错。”唐语然说完,重重地点了点头。
“看样子,这个思路是行不通了。”陈熙说着,语气中似是有些惋惜。
“虽然这个方法不能用在日记本上,不过这个结论却从侧面证实了日记的可信度。”一直听着两人的谈话,一旁的魏钟文开口说道。
“没错,确实是这个样子。”
“嗯,说的没错。”
听到魏钟文的话,唐语然和陈熙,两个人都纷纷表示了赞同。
“不过,你们现在有收集好的数据了吗?”唐语然开口问道。
“暂时还没有,这个是我们刚刚想到的思路,在行动之前,请你来这里,就是想先请教一下这个方案的可行性。”魏钟文解释道。
“这个方案,单从我个人的角度来看,是可行的,也是可以操作的。顺利的话,结果在一到两天就能出来,不过前提是,你们的数据具有足够的可信度。”唐语然回应道。
“可信度,你指的是什么?”
“语言风格这种东西,是很抽象的一个概念,如果有人察觉了你们的动作,强行更改了其风格,就会导致结果毫无参考的价值。”唐语然提示道。
“当然,我们在行动的过程中,会尽量地不打草惊蛇,这也是我们的第一原则,这一点不用担心。”魏钟文像是要打消唐语然的疑虑一样,极为笃定地说道。
“好,既然这样,咱们也算是分工明确了,我就等着你们给数据就好了,到时候我会在第一时间将数据结果提供给你们的。”唐语然坦率地说道。
“还有一件事,我们想向你咨询一下。”魏钟文看向一旁唐语然,开口说道。
“什么事?”
“我们调查过了徐子晴银行卡的流水,发现了一件很奇怪的事。”
“奇怪的事?”唐语然不禁反问道。
“没错,你之前不是说过吗,徐子晴一直酷爱奢侈品,也经常会购买一些名牌包。”
“是这样,有什么问题吗?”
“根据她的银行流水,我们发现在她的账单中,的确是有几笔款额较大的支出,但也还没有高到奢侈品的价格。而且这些高额账单对应的收款人大多是一些网店的商户。”
“你的意思是…”唐语然大概明白了过来,但是她并没有说破,只是等着魏钟文接着说下去。
“没错,这就是其中的原理。”唐语然认同似的点了点头。“九十年代的时候,在日本,就曾有过一个案子,就是凭借着这样的分析,成功帮警方查到了凶手。在那个案件中,警方怀疑死者并非死于自杀,而是死于他杀,但是不管怎么找寻,都无法确定那个嫌疑人是谁,每个人都看似有动机,但因为缺少证据,警方一时间难以做出判断,于是有人提出了利用这个方法来寻找嫌疑人。”
“那后来呢?”陈熙听得认真极了,赶忙问道。
“怎么说?”陈熙不禁提出了疑问。
“有些凶杀案是经过凶手精心设计和布置的,想将其伪装成自杀案,这样一来,如果想要让警方相信死者真的是自杀,就需要留下一份遗书,来向世人宣告自己自杀的行为。所以说,凶手要做的事,就是要伪造出一份遗书。”
“我明白了,这些遗书,就是你们研究的对象,先抽取遗书的文本特征,在此基础上构建一个特征模型,然后再抽取自杀者平时留下的文本信息的特征,将两者进行对比,得出一个匹配度,匹配度高,就说明遗书出自死者之手,如果匹配度低,就说明遗书是他人伪造的。从而来判断死者究竟是否死于自杀。”
“能。”听了陈熙的问题,唐语然坚定地点了点头。“只要有足够的数据,这种事情是可以做到的。”
“那具体的判断原理,你能讲一下吗?”
“当然可以。”唐语然说完,先是顿了顿,接着说道:“其实原理很简单,也并不难理解。就像你刚才所说的,只要能够得到两人的聊天记录,收集上面的文本信息,就能对两人的语言风格和文本特征进行抽取,只要有了这些特征,就可以依据特征构造一个模型,说简单点,这个模型,就类似于一个模子。在这之后,如果想判断某一文本是否是由这个人所写成的,只要将文本内容的特征抽取出来,与已经成型的模型进行对比,得到一个相应的匹配度,就可以根据这个匹配度做出判断了。”
“那你能给我们提供一些具体的案例吗?我想多学习一下。”陈熙说道,像是好不容易抓到了这样一个好的学习机会,不肯放过一样。
“那我简单说一下吧…”唐语然顿了顿,像是在思考一样,接着说道:“像这类的案件,一定要留有文本信息,才可以对其进行研究,所以与之相关的案件,大多数是一些伪装成自杀的案子。”
“没有那么夸张了,我在这一行,还只是一个小辈而已。”听了陈熙的夸奖,唐语然一下子有些不好意思了,连忙自谦似的说道。
“你也不用谦虚,术业有专攻嘛,不过我还是想问,按照你的经验,这种计算机统计出来的结果,准确率会很高吗?”陈熙迟疑了一下,还是说出了心中的顾虑,毕竟查案这种事,来不得一点马虎。
“那么,按照你的意思,匹配度越高,文本出自同一个人之手的几率就越大,是吗?”听了唐语然的解释,陈熙不禁有些晕晕的,她只是听了个大概,但基本的原理她是听懂了。
“没错,可以这么说,这种方法是讲究几率的,无法做到百分百的吻合,所以也只能作为参考。”
“那需要我做什么呢?”唐语然开口问道。
“我想请问,如果警方能够同时获取秦凯和冯明这两个人的聊天记录,你是否能判断出,他们一方的聊天对象,是否是另外一个人?”不答反问,陈熙将另一个问题抛给了唐语然。
“但如果匹配度很高的话,基本上也不会有什么问题了吧?”陈熙反问道。
“理论上来说,是这样的,即便是有人刻意想仿造他人的风格,对文本内容进行造假,但这种东西,不是想造假就能造得出的,其中会牵扯到很多的因素,这其中的因素被我们称之为特征因子。如果模仿的不像,或是抓不住重点,反而会搞得不伦不类,计算机在抽取特征时,一下子便可识别出来。”
“听起来很专业的样子,没想到你们研究的东西这么有技术含量。”陈熙不禁感叹似的说道。
“根据一开始的猜测,我们曾假设三个案子之间是相互关联的,如果从这个角度入手,这个高手是谁,恐怕就不难猜了。”陈熙说道。
“一个精通互联网技术的人…难道是冯明吗?他好像是科技公司的高管。”顺着陈熙的思路,唐语然大胆地猜测道。
“没错,我们也是这么假设的,所以现在正需要搜集相关的证据,来验证我们的猜想。”
阅读幕后证词最新章节 请关注凡人小说网(www.washuwx.net)