知识图谱问答

已发表: 2023-01-25

什么是 Google 的知识图问答功能?

知识图问答 (KGQA) 在搜索引擎结果页面 (SERP) 中占据了大量空间。

Google 的知识图问答功能无需用户点击网站即可回答用户的查询。

每个搜索引擎都希望根据搜索者的意图返回最好的信息。 要成为值得信赖的首选答案来源,您需要在网上为人所知。 Google 了解查询流并使用它们来识别主题并从网络中提取可信数据以更新本体。 Google 卡片、知识图 (KG) 和知识集合是用户与 Google 交互的一种方式。 就像搜索结果中的“人们也会问”问题一样,知识图谱问答可以让人们在 Google SERP 上停留的时间更长。

目录

  • 什么是 Google 的知识图问答功能?
    • 知识面板和知识图有什么区别?
    • 知识面板和 Google 商家资料之间有什么区别?
    • Google 的知识面板和知识库有什么区别?
  • 用机器学习回答复杂问题
  • 如何创建 Google 认为有用的问答内容
  • 知识图谱回答与数据相关的问题
  • KG问答优化步骤
  • 如何请求 Google 知识面板更新?
  • 问答 KG 寻求提供经过验证的知识

让我们首先建立一个基础词汇表。

知识面板和知识图有什么区别?

可以获取知识图谱以在搜索结果中提供更丰富的知识面板并返回查询的答案。

它有助于将知识面板视为 Google 知识图的前端表现形式。 我们在面板图数据中看到的数据背后有更多数据。 一旦你建立了一个知识图谱实体,谷歌就会依赖它并将其视为规范的信息来源。 这家科技巨头并没有发明 KG 作为桌面用户体验的补充; 这是对更好的移动查询答案需求的回应。 如此多的网站在移动设备上曾经(现在仍然)很糟糕。 GKG 旨在向其用户提供准确的信息; 它的主要目标不是为您的网站增加流量。

以前,谷歌似乎并不根据准确性对网页进行排名。 如今,其质量评估人员对如何评估经验、专业知识、权威性和可信度 (EEAT) 有了更多的说明。 答案的准确性是一个信任因素,它的准则告诉我们信任是最重要的因素。 相反,“准确性”是实体在知识面板中显示的一个因素。

知识面板是 Google 搜索结果页面中的一种丰富结果类型。 它们为搜索者提供了与给定实体相关的经过审查的信息概览。

知识面板和 Google 商家资料之间有什么区别?

Google Business Profiles (GBP) 看起来与其知识面板非常相似。 GBP 对于在特定地点或指定服务区域内为客户提供服务的企业而言是独一无二的。 GBP 访问权让企业主可以管理他们在 Google 地图和搜索中的数字化形象。 这是免费的。 相比之下,您的 Google 知识面板 (GKP) 是由 Google 使用有关您的在线实体的信息自动生成的。 它可以完全控制它的传播以及它选择在其中更新的内容。

Google 的知识面板和知识库有什么区别?

将 Google Knowledge Vault (GKV) 想象成由生成机器可读百科全书的算法生成的。

只有在确信知识面板中显示的内容正确且有用后,Google 才会将信息添加到其 GKV。 GKV 完全基于机器学习和机器逻辑。 只有在 Google 的全球知识算法对其对指定实体的理解获得足够的信心后,才会将来自多个域的独立实体移入知识库。

“……我们介绍了 Knowledge Vault,这是一个 Web 规模的概率知识库,它结合了从 Web 内容中提取的内容(通过分析文本、表格数据、页面结构和人工注释获得)和从现有知识库中导出的先验知识。 我们采用受监督的机器学习方法来融合这些不同的信息源。 知识库比以前发布的任何结构化知识库都要大得多,并且具有一个概率推理系统,可以计算事实正确性的校准概率。” – 知识库:一种网络规模的概率知识融合方法[1]

用机器学习回答复杂问题

Google 收到了 93% 的每日查询。 就像它传统上如何充当搜索引擎并最终成为您的产品或服务一样。 为了改进其问答能力,谷歌的一项专利指出:“自然语言处理 (NLP) 可以涉及根据自然语言文档中包含的信息回答自然语言问题。”

“所描述的技术能够使用基于机器学习的方法回答自然语言问题,以收集和分析来自网络搜索的证据。” – [2]

然而,在将实体添加到其知识库之前,谷歌必须首先通过算法理解所提出的问题。 它试图了解触发问题的查询意图。 对于模棱两可的查询,语义解释有助于回答复杂的问题,并试图复制人类的认知。 Web 文章通常无法显示发布日期或上次更新时间。 相比之下,谷歌的知识图不断更新。 例如,我正要为这篇文章引用一篇文章,但首先进行了研究并看到“这篇文章已有 3 年多了”。

MarketWatch 估计,“到 2023 年,语义知识库行业的价值将达到 330 亿美元,在接下来的十年中,年增长率将达到 10%。” 其 2023 年 1 月 18 日,与时间和成本相关的语义知识图谱市场规模预计将在未来几年到 2029 年行业增长,文章包括语义搜索、问答机和信息检索。

令人费解的是,科学创新的增长有多少是为了更好的 KG。 同样,数字营销人员和 SEO 通过快速适应而受益。

KG 通常被视为大规模语义网络,将事实存储为(主题实体、关系、客体实体)或(主题实体、属性、值)形式的三元组。 图中的边代表这些实体之间的关系。 大多数 KG 建立在不同的现有数据源之上以连接数据。 在 GPT3 中出现 GPTChat 之前,Google 并未受到其他大型 KG 的威胁,例如 DBpedia、Freebase 和 YAGO。

推动更人性化的问题答案

Goole、OpenAI、Bing 和其他公司之间的竞争规模空前,旨在为问题提供更人性化的答案,而不仅仅是信息链接。 谷歌不断使用和测试各种大型 AI 语言模型,以改进其搜索引擎和知识面板。

“知识图谱”这个术语有一个庞大的关系家族; 它包括知识图谱、图数据库、知识库、知识面板、神经网络、机器学习、NLP、人工智能、关联数据、知识图谱嵌入、知识迁移、迁移学习、知识表示学习(KRL)等领域! 与有效填补问答内容空白相比,花钱在付费搜索和微不足道的网站性能改进上显得苍白无力。 以下建议来自我自己的经验。

公司的数据驱动系统经过评估,以建立对科学方法及其应用的信任。 其知识图 (KG) 问答 (QA) 功能依赖于可通过自然语言界面访问的复杂数据结构。

如何创建 Google 认为有用的问答内容

如何创建通知 Google 的问答内容 - 示例:Lake Itaska

新的 SEO 理解Google 是一种答案引擎并提供给它。

你发布的验证数据越多,科技巨头就越能连接数据。 通过这种方式,您可以促进搜索引擎了解有关您实体的事实的工作。 当您将自己的结构化数据连接到所有谈论您的不同第三方时,您就提供了帮助。 谷歌对于结构化数据实现是否通过图形或节点数组连接而不是将它们作为页面上自己的块中的单独元素没有偏好。

  • 常见问题解答内容:您的公司可以创建标有架构的数据库,以帮助 Google 抓取和获取问答信息页面。 Google 可能会选择获取您网站的常见问题解答内容。
  • 网站主题集群:具有明确本体的信息可用于表示主题专业知识。 知识图使用 Google 信任的网络数据组织实体。 您可以成为不同数据集中的主要来源。 这样,你就是一个数据发布者。 如果您已经声明了您的知识面板,这可能是触发知识面板更新的更可靠、更快速的方法。
  • 准确的产品数据库:只要您在保持产品数据库更新方面做得无懈可击,您就是在帮助 Google 获得对您的产品事实的高度信任和信任。 如果您的在线品牌和产品清晰一致,Google 更有信心向其用户展示准确且相关的信息。 与您的在线形象保持一致。 使用相同的拼写、标题、作者简介、工作地点等。
  • 上传图像数据集:来自该特定数据库的图像可以与您的答案相关联并填充您的知识图谱。 产品 QA 数据集的存在和准确性有助于确保可比性。
  • 使用 FactClaim 架构标记: Google 的搜索结果通常来自其知识图谱存储库,其中包含数十亿关于人物、地点和事物的事实。 通过包含支持您的观点的事实统计内容,您可以展示您对基于事实的相关来源的认识和了解。
  • 一致的姓名、地址、电话:进入 2023 年,有更多方法可以管理您的 Google 商家资料。但是,您的 NAP 是 Google 识别您的实体的基础。 最好有一个稳定的地址并使用谷歌地图中分配的地址。 知识图谱与谷歌地图密切相关。 它基于结构化数据,NAP 一致性形式的结构化信息:姓名、地址、电话号码,以及这些信息如何影响确保 Google 地图更新。 相同类型的一致性提供 GKG。
  • 自动 Google 商家资料常见问题解答文本回复:您可以直接在您的 Google 商家资料中添加自动常见问题解答回复。 它的功能是带问答的自动双向对话。
  • 结合有效的 Google Post 策略: Google 学术搜索作者、著名品牌和美国民选官员没有利用这个机会来声明他们的知识面板。 这反过来又为他们提供了访问 Google 帖子的权限,这应该是您的内容知识图策略的一部分。
  • 使用受众数据和市场研究:初始市场研究提供了受众数据洞察力,可以推动创新内容活动和 KG 策略。 知识库首先根据问题相对于人们查询意图的“重要程度”对问题进行分类。

有关在您的网站上使用结构化数据的更多信息:

来自谷歌的 Ryan Levering 主要研究结构化数据,他在 Mastodon 上表示:“整个页面的图形都是我们使用的,无论它来自哪里。 它被混合在一起,虽然知道它来自哪里,但通常不使用。 但是,这里需要注意的是,当您在多个块中执行此操作时,有时会出现冲突/重复问题。 此外,随着时间的推移,更丰富/正确的语义将有利于连接更多的图。 我们仍然看到这样的情况,即人们在与页面上不同块的主要实体相同的顶层放置关于事物(如相关产品)的不相关标记,这主要是噪音。 因此,有时集中逻辑会使其更加一致/正确。”

知识图谱回答与数据相关的问题

图的一个目标是能够充当术语、逻辑和正确答案的基本事实。

这是直接来自谷歌的关于其知识图如何工作的引述。

“谷歌的搜索结果有时会显示来自我们知识图谱的信息,我们的数据库包含数十亿关于人物、地点和事物的事实。 知识图使我们能够回答事实性问题,例如“埃菲尔铁塔有多高?” 或“2016 年夏季奥运会在哪里举行。” 我们使用知识图谱的目标是让我们的系统在确定有用时发现并显示公开的事实信息。” – Google 的知识图谱如何运作

您可以为您的知识图谱提供展示相互关联的关系和概念的信息。 虽然正在对聊天机器人人工智能进行大量投资,但我们目前知道它需要一个领域模型来理解和回答问题。 机器学习可以生成庞大的句子和用例知识库,但静态聊天机器人有局限性。

在更新数据知识图条目之前,谷歌收集有关特定主题或主题的信息以首先建立信心。 图表帮助我们回答与数据相关的问题,以便 Google 可以轻松地存储和检索信息。 它基本上归结为理解问题,将问题与你的知识图联系起来,并推断出答案。

KG问答优化建议步骤:

  1. 查看您控制的内容、人员、地点、原因以及方式。
  2. 确定哪些内部 QA 数据可以从外部获取。
  3. 了解在哪里可以找到它。
  4. 了解它是如何被使用的、被谁使用、如何使用以及为什么使用。
  5. 使用图表来确定如何通过分析他们的集群、群组和组来提供更多价值。
  6. 设置警报以帮助监控与实体关系内部和实体关系相关的上下文、组信号和动态的 QA 数据信号。
  7. 安排维护时间来管理和提供图形 QA 内容。

自然语言处理和图形对齐管理有助于查找冲突实体或关系定义的案例。 Google 的面板、图表和保险库与实体解析有关。

在您控制的平台上回答问题之前,请先智能地理解问题。 您应该知道搜索者的意图和问题所需的关键信息。 搜索引擎通过搜索对知识图谱包含有用的命名实体来提取关键信息。 为了自己被信任,他们在推断 KG 上的答案之前是有选择的。

如何请求 Google 知识面板更新?

谷歌为其声称的知识图所有者提供了一种请求更新和报告问题的方式。 一旦您获得了提供直接反馈的能力,事情就变得容易多了。 它的即时答案会根据网络抓取和用户反馈定期更新。

“我们还知道,其信息包含在知识面板中的实体(如知名人士或电视节目的创作者)是自我权威的,我们为这些实体提供直接反馈的方式。 因此,显示的某些信息也可能来自经过验证的实体,这些实体建议对自己的知识面板上的事实进行编辑。 – 关于知识面板

“我们还以各种方式直接从内容所有者那里收到事实信息,包括那些建议更改他们声称的知识面板的人。” – Google 的知识图谱如何运作

许多人认为获得语义知识图的主要好处是它提供了品牌清晰度、数据恢复和销售体验。 但由于有这么多人提出问题,考虑其整合数据并使用它提供答案的能力也很重要。 什么不是以这种方式证明有价值的零售商?

问答信息检索如何工作?

谷歌从它可以确定的来源收集问题集群内容。

2023 年是改进知识图谱策略的时代,因为越来越多的潜在客户转化直接发生在搜索引擎结果页面 (SERP) 上。 Google 会评估它可以信任您的实体的哪些方面,并选择将包含在您的知识图谱、知识面板和知识库中的内容。 它了解您的目标受众和客户; 它旨在整合您在网络上的优势和知识,以提供最佳答案。 受众研究和 SERP 分析可以为您的营销方法提供信息。

当 Google 从网页中提取 QA 实体信息时,会确定涉及这些实体的关联分数及其与其他实体的关系。 它非常关心描述这些实体属性的事实答案。 一旦确定了最佳营销策略,就该将其转化为营销策略,您已采取特定的营销行动来改善 SERP 结果。 无论是现在还是将来,了解 QA 信息检索以及如何通知您的 KG 都是有效 SEO 的重要组成部分。

我们从谷歌专利中了解到自然语言处理模型如何回答自然语言文本问题。

“一个计算系统包括一个机器学习的自然语言处理模型,该模型包括一个经过训练以接收自然语言文本主体并输出知识图谱的编码器模型,以及一个经过训练以接收自然语言问题并输出程序的程序员模型。 该计算系统包括存储指令的计算机可读介质,这些指令在被执行时使处理器执行操作。 操作包括获取自然语言文本主体,将自然语言文本主体输入编码器模型,接收知识图谱作为编码器模型的输出,获取自然语言问题,将自然语言问题输入程序员模型,接收程序作为程序员模型的输出,并在知识图上执行程序以产生自然语言问题的答案。” – Natural Language Processing With An N-Gram Machine,专利号:WO2019083519A1,公开日期:2019年5月2日[3]

知识图谱相关性评分

结合机器语言学习和数据图,将听众问题的上下文与您的答案联系起来。 Google KG 相关性评分使用预训练的 LM 对 KG 上的节点进行评分,以回答问题。 Google 在其 KG 中有一个加权信息的通用框架。 它的机器学习使用文本和知识图谱的联合推理。 通过这种方式,它通过使用 LM 和图形神经网络将问题的上下文与答案内容联系起来。

总体而言,Google KG 比网页更高效、更可信。 那么这是要去哪里呢?

问答 KG 寻求提供经过验证的知识

Google Knowledge Graph 提供查询的直接答案

谷歌知识图提供的响应查询的事实最初来自其他来源。 (直到最近,这主要来自维基百科和维基数据)。 Google 努力工作以信任填充其 KG 的任何和所有信息。 准确地满足查询一定是具有挑战性的。 例如,要回答“谁是谷歌的创始人?”,知识图谱需要按照“[组织]由[人]创立”的方式在此处提取三元组(主语-谓语-宾语)

维基百科和维基数据提供了这样的精确信息。

Electronic Arts 的知识图谱策略师 Aaron Bradly 几年前在 Twitter 上提出了一个有趣的问题。 “换句话说,一个更大的潜在问题是我们是否应该认为谷歌知识图谱提供的‘事实’在事实上是正确的(以及谷歌本身是否认为图谱提供的‘事实’在事实上是正确的)。”

人们可以很快看出为什么知识图谱提供的“答案”和“事实”需要得到用户的信任。

布拉德利继续说:“因此,Graph 需要依靠其来源的可信度来确定要做出的断言。 如此之多以至于谷歌已经仔细考虑了改进他们如何确定来源可信度的方法。 最终,提供的断言是“来自某处”。 当响应(尤其是语音)的有效负载不包含出处信息时,这就会成为问题。 知识聚合器(这里是谷歌)和知识用户(这里是搜索者)都需要努力改进我们处理这些问题和答案的方式。” [4]

谷歌创始人拉里佩奇和谢尔盖布林在 2019 年离职后重新露面,审查谷歌的人工智能产品战略。 他们批准了计划并提出了将新的聊天机器人功能添加到 Google 搜索引擎中的想法。 谷歌在 2023 年 1 月大规模裁员之前,它再次承诺将 AI 置于其计划的前沿和中心。 [5]

您可以使用 Google Knowledge Graph Search API 在 Google Knowledge Graph 中搜索或查找实体。 Google Cloud 提供以下架构标记代码示例: [6]

{
  “@语境”: {
    “@vocab”:“http://schema.org/”
  },
  "@type": "物品清单",
  “项目列表元素”:[
    {
      “结果”: {
        "@id": "c-07xuup16g",
        "name": "斯坦福大学",
        "description": "加州斯坦福私立大学",
        “详细说明”: {
          "articleBody": "斯坦福大学,正式名称为 Leland Stanford Junior University,是加利福尼亚州斯坦福市的一所私立研究型大学。校园占地 8,180 英亩,是美国最大的校园之一,在校学生超过 17,000 人。",
          “网址”:“https://en.wikipedia.org/wiki/Stanford_University”,
          “许可证”:“https://en.wikipedia.org/wiki/Wikipedia:Text_of_Creative_Commons_Attribution-ShareAlike_3.0_Unported_License”
        },
        “网址”:“http://www.stanford.edu/”,
        “图片”: {
          “contentUrl”:“https://encrypted-tbn1.gstatic.com/images?q=tbn:ANd9GcTfPPf-ker0y_892m1wu8-U89furQgQ67foDFncY3r9sREpeWxV”,
          “网址”:“https://es.wikipedia.org/wiki/Archivo:Logo_of_Stanford_University.png”
        },
        “标识符”:[
          {
            "@type": "属性值",
            "propertyID": "googleKgMID",
            “值”:“/m/06pwq”
          },
          {
            "@type": "属性值",
            "propertyID": "googlePlaceID",
            “值”:“ChIJneqLZyq7j4ARf2j8RBrwzSk”
          },
          {
            "@type": "属性值",
            "propertyID": "wikidataQID",
            “价值”:“Q41506”
          }
        ],
        “@类型”: [
          “地方”,
          “组织”,
          “电影院”,
          “公司”,
          “教育机构”,
          “事物”,
          “学院或大学”
        ]
      }
    }
  ]
}

我们发现实施模式标记非常有帮助。 如果您是双重身份,请阅读我们添加结构化数据标记文章的优缺点。

推进语义搜索和 GKG

如果本文提高了您对语义搜索和图形技术的认识,并且现在您渴望响应此类机会,请致电 651-206-2410 致电 Jeannie Hill。

通过获得我们的查询实体审计来提升您的个人或企业知识图谱

参考:

[1] https://research.google/pubs/pub45634/

[2] https://patents.google.com/patent/WO2014008272A1/en

[3] https://patentscope.wipo.int/search/en/detail.jsf?docId=WO2019083519

[4] https://mobile.twitter.com/aaranged/status/1108444732282163200

[5] https://searchengineland.com/google-search-chatbot-features-this-year-391977

[6] https://cloud.google.com/enterprise-knowledge-graph/docs/search-api