Obrigado por visitar Nature.com. A versão do navegador que você está usando tem suporte limitado para CSS. Para uma melhor experiência, recomendamos que você use um navegador atualizado (ou desative o modo de compatibilidade no Internet Explorer). Enquanto isso, para garantir suporte contínuo, exibiremos o site sem estilos e JavaScript.
A poluição do solo é um grande problema causado por atividades humanas. A distribuição espacial de elementos potencialmente tóxicos (EPTs) varia na maioria das áreas urbanas e periurbanas. Portanto, é difícil prever espacialmente o conteúdo de EPTs em tais solos. Um total de 115 amostras foram obtidas de Frydek Mistek na República Tcheca. As concentrações de cálcio (Ca), magnésio (Mg), potássio (K) e níquel (Ni) foram determinadas usando espectrometria de emissão de plasma indutivamente acoplada. A variável de resposta é Ni e os preditores são Ca, Mg e K. A matriz de correlação entre a variável de resposta e a variável preditora mostra uma correlação satisfatória entre os elementos. Os resultados da predição mostraram que a Regressão por Máquina de Vetores de Suporte (SVMR) teve um bom desempenho, embora seu erro quadrático médio estimado (RMSE) (235,974 mg/kg) e erro absoluto médio (MAE) (166,946 mg/kg) tenham sido maiores do que os outros métodos aplicados. Modelos mistos para Krigagem Bayesiana Empírica-Linear Múltipla A regressão (EBK-MLR) teve um desempenho ruim, conforme evidenciado por coeficientes de determinação menores que 0,1. O modelo de regressão de máquina de vetores de suporte de krigagem bayesiana empírica (EBK-SVMR) foi o melhor modelo, com baixos valores de RMSE (95,479 mg/kg) e MAE (77,368 mg/kg) e alto coeficiente de determinação (R2 = 0,637). A saída da técnica de modelagem EBK-SVMR é visualizada usando um mapa auto-organizado. Neurônios agrupados no plano do componente CakMg-EBK-SVMR do modelo híbrido mostram vários padrões de cores que predizem concentrações de Ni em solos urbanos e periurbanos. Os resultados demonstram que a combinação de EBK e SVMR é uma técnica eficaz para prever concentrações de Ni em solos urbanos e periurbanos.
O níquel (Ni) é considerado um micronutriente para as plantas porque contribui para a fixação de nitrogênio atmosférico (N) e o metabolismo da ureia, ambos necessários para a germinação das sementes. Além de sua contribuição para a germinação das sementes, o Ni pode atuar como um inibidor de fungos e bactérias e promover o desenvolvimento das plantas. A falta de níquel no solo permite que a planta o absorva, resultando em clorose nas folhas. Por exemplo, feijão-caupi e feijão-verde requerem a aplicação de fertilizantes à base de níquel para otimizar a fixação de nitrogênio2. A aplicação contínua de fertilizantes à base de níquel para enriquecer o solo e aumentar a capacidade das leguminosas de fixar nitrogênio no solo aumenta continuamente a concentração de níquel no solo. Embora o níquel seja um micronutriente para as plantas, sua ingestão excessiva no solo pode fazer mais mal do que bem. A toxicidade do níquel no solo minimiza o pH do solo e dificulta a absorção de ferro como um nutriente essencial para o crescimento das plantas1. De acordo com Liu3, o Ni foi considerado o 17º elemento importante necessário para o desenvolvimento e crescimento das plantas. Além do papel do níquel no desenvolvimento e crescimento das plantas, os humanos precisam dele para uma variedade de aplicações. A galvanoplastia, a produção de ligas à base de níquel e a fabricação de dispositivos de ignição e velas de ignição na indústria automotiva exigem o uso de níquel em vários setores industriais. Além disso, ligas à base de níquel e artigos galvanizados têm sido amplamente utilizados em utensílios de cozinha, acessórios para salões de baile, suprimentos para a indústria alimentícia, fios e cabos elétricos, turbinas a jato, implantes cirúrgicos, têxteis e construção naval. 5. Os níveis ricos em Ni nos solos (ou seja, solos superficiais) foram atribuídos a fontes antropogênicas e naturais, mas principalmente, o Ni é uma fonte natural e não antropogênica. 4,6. As fontes naturais de níquel incluem erupções vulcânicas, vegetação, incêndios florestais e processos geológicos; no entanto, as fontes antropogênicas incluem baterias de níquel/cádmio na indústria siderúrgica, galvanoplastia, soldagem a arco, diesel e óleos combustíveis e emissões atmosféricas da combustão de carvão e incineração de resíduos e lodo Acúmulo de níquel. 7,8. De acordo com Freedman e Hutchinson e Manyiwa et al. 10, as principais fontes de poluição do solo superficial no ambiente imediato e adjacente são principalmente fundições e minas à base de níquel-cobre. O solo superficial ao redor da refinaria de níquel-cobre de Sudbury, no Canadá, apresentou os maiores níveis de contaminação por níquel, com 26.000 mg/kg11. Em contraste, a poluição da produção de níquel na Rússia resultou em maiores concentrações de níquel no solo norueguês11. De acordo com Alms et al. 12, a quantidade de níquel extraível por HNO3 nas principais terras aráveis da região (produção de níquel na Rússia) variou de 6,25 a 136,88 mg/kg, correspondendo a uma média de 30,43 mg/kg e uma concentração de base de 25 mg/kg. De acordo com o kabata 11, a aplicação de fertilizantes de fósforo em solos agrícolas em solos urbanos ou periurbanos durante sucessivas safras pode infundir ou contaminar o solo. Os efeitos potenciais do níquel em humanos podem levar ao câncer por meio de mutagênese, danos cromossômicos, geração de Z-DNA, reparo de excisão de DNA bloqueado ou processos epigenéticos. 13. Em experimentos com animais, descobriu-se que o níquel tem o potencial de causar uma variedade de tumores, e complexos de níquel cancerígenos podem exacerbar tais tumores.
As avaliações de contaminação do solo floresceram nos últimos tempos devido a uma ampla gama de questões relacionadas à saúde decorrentes das relações solo-planta, solo e relações biológicas do solo, degradação ecológica e avaliação de impacto ambiental. Até o momento, a predição espacial de elementos potencialmente tóxicos (EPTs), como Ni no solo, tem sido trabalhosa e demorada usando métodos tradicionais. O advento do mapeamento digital do solo (MSS) e seu sucesso atual15 melhoraram muito o mapeamento preditivo do solo (MSP). De acordo com Minasny e McBratney16, o mapeamento preditivo do solo (MSP) provou ser uma subdisciplina proeminente da ciência do solo. Lagacherie e McBratney, 2006, definem MDS como “a criação e o preenchimento de sistemas de informações espaciais do solo por meio do uso de métodos de observação in situ e laboratorial e sistemas de inferência espacial e não espacial do solo”. McBratney et al. 17 descrevem que o DSM ou PSM contemporâneo é a técnica mais eficaz para prever ou mapear a distribuição espacial de PTEs, tipos de solo e propriedades do solo. Geoestatística e algoritmos de aprendizado de máquina (MLA) são técnicas de modelagem DSM que criam mapas digitalizados com a ajuda de computadores usando dados significativos e mínimos.
Deutsch18 e Olea19 definem geoestatística como “a coleção de técnicas numéricas que lidam com a representação de atributos espaciais, empregando principalmente modelos estocásticos, como a forma como a análise de séries temporais caracteriza dados temporais”. Primariamente, a geoestatística envolve a avaliação de variogramas, que permitem quantificar e definir as dependências de valores espaciais de cada conjunto de dados20.Gumiaux et al. 20 ilustram ainda que a avaliação de variogramas em geoestatística é baseada em três princípios, incluindo (a) calcular a escala de correlação de dados, (b) identificar e calcular a anisotropia na disparidade do conjunto de dados e (c) além de levar em conta o erro inerente dos dados de medição separados dos efeitos locais, os efeitos de área também são estimados. Com base nesses conceitos, muitas técnicas de interpolação são usadas em geoestatística, incluindo krigagem geral, co-krigagem, krigagem ordinária, krigagem bayesiana empírica, método de krigagem simples e outras técnicas de interpolação bem conhecidas para mapear ou prever PTE, características do solo e tipos de solo.
Algoritmos de Aprendizado de Máquina (MLA) são uma técnica relativamente nova que emprega classes maiores de dados não lineares, alimentadas por algoritmos usados principalmente para mineração de dados, identificação de padrões em dados e repetidamente aplicados à classificação em campos científicos como ciência do solo e tarefas de retorno. Numerosos artigos de pesquisa dependem de modelos MLA para prever PTE em solos, como Tan et al. 22 (florestas aleatórias para estimativa de metais pesados em solos agrícolas), Sakizadeh et al. 23 (modelagem usando máquinas de vetores de suporte e redes neurais artificiais) poluição do solo). Além disso, Vega et al. 24 (CART para modelagem de retenção e adsorção de metais pesados no solo) Sun et al. 25 (a aplicação do cubista é a distribuição de Cd no solo) e outros algoritmos como k-vizinho mais próximo, regressão impulsionada generalizada e árvores de regressão impulsionadas também aplicaram MLA para prever PTE no solo.
A aplicação de algoritmos do DSM na previsão ou mapeamento enfrenta vários desafios. Muitos autores acreditam que o MLA é superior à geoestatística e vice-versa. Embora um seja melhor que o outro, a combinação dos dois melhora o nível de precisão do mapeamento ou previsão no DSM15. Woodcock e Gopal26 Finke27; Pontius e Cheuk28 e Grunwald29 comentam sobre deficiências e alguns erros no mapeamento de solo previsto. Cientistas do solo tentaram uma variedade de técnicas para otimizar a eficácia, precisão e previsibilidade do mapeamento e previsão do DSM. A combinação de incerteza e verificação é um dos muitos aspectos diferentes integrados ao DSM para otimizar a eficácia e reduzir defeitos. No entanto, Agyeman et al. 15 descrevem que o comportamento de validação e a incerteza introduzidos pela criação e previsão de mapas devem ser validados independentemente para melhorar a qualidade do mapa. As limitações do DSM são devido à qualidade do solo geograficamente dispersa, que envolve um componente de incerteza; no entanto, a falta de certeza no DSM pode surgir de múltiplas fontes de erro, nomeadamente erro de covariável, erro de modelo, erro de localização e erro analítico 31. As imprecisões de modelagem induzidas em processos MLA e geoestatísticos estão associadas a uma falta de compreensão, levando, em última análise, à simplificação excessiva do processo real32. Independentemente da natureza da modelagem, as imprecisões podem ser atribuídas a parâmetros de modelagem, previsões de modelos matemáticos ou interpolação33. Recentemente, surgiu uma nova tendência de DSM que promove a integração de geoestatística e MLA em mapeamento e previsão. Vários cientistas do solo e autores, como Sergeev et al. 34; Tarasov et al. 36 e Tarasov et al. 37 exploraram a qualidade precisa da geoestatística e do aprendizado de máquina para gerar modelos híbridos que melhoram a eficiência da previsão e do mapeamento. qualidade.Alguns desses modelos de algoritmos híbridos ou combinados são Krigagem de Rede Neural Artificial (ANN-RK), Krigagem Residual de Perceptron Multicamadas (MLP-RK), Krigagem Residual de Rede Neural de Regressão Generalizada (GR-NNRK)36, Krigagem de Rede Neural Artificial-Perceptron Multicamadas (ANN-K-MLP)37 e Co-Krigagem e Regressão de Processo Gaussiano38.
De acordo com Sergeev et al., a combinação de várias técnicas de modelagem tem o potencial de eliminar defeitos e aumentar a eficiência do modelo híbrido resultante, em vez de desenvolver um modelo único. Nesse contexto, este novo artigo argumenta que é necessário aplicar um algoritmo combinado de geoestatística e MLA para criar modelos híbridos ideais para prever o enriquecimento de Ni em áreas urbanas e periurbanas. Este estudo se baseará na Krigagem Bayesiana Empírica (EBK) como modelo base e a combinará com modelos de Máquina de Vetores de Suporte (SVM) e Regressão Linear Múltipla (MLR). A hibridização de EBK com qualquer MLA não é conhecida. Os múltiplos modelos mistos observados são combinações de krigagem ordinária, residual, de regressão e MLA. EBK é um método de interpolação geoestatística que utiliza um processo espacialmente estocástico localizado como um campo aleatório não estacionário/estacionário com parâmetros de localização definidos sobre o campo, permitindo variação espacial39. EBK tem sido usado em uma variedade de estudos, incluindo a análise da distribuição de carbono orgânico em fazendas solos40, avaliação da poluição do solo41 e mapeamento das propriedades do solo42.
Por outro lado, o Self-Organizing Graph (SeOM) é um algoritmo de aprendizagem que foi aplicado em vários artigos, como Li et al. 43, Wang et al. 44, Hossain Bhuiyan et al. 45 e Kebonye et al.46 Determinam os atributos espaciais e o agrupamento de elementos. Wang et al. 44 descrevem que o SeOM é uma técnica de aprendizagem poderosa, conhecida por sua capacidade de agrupar e imaginar problemas não lineares. Ao contrário de outras técnicas de reconhecimento de padrões, como análise de componentes principais, agrupamento fuzzy, agrupamento hierárquico e tomada de decisão multicritério, o SeOM é melhor em organizar e identificar padrões PTE. De acordo com Wang et al. 44, o SeOM pode agrupar espacialmente a distribuição de neurônios relacionados e fornecer visualização de dados de alta resolução. O SeOM visualizará dados de previsão de Ni para obter o melhor modelo para caracterizar os resultados para interpretação direta.
Este artigo tem como objetivo gerar um modelo de mapeamento robusto com precisão ótima para prever o conteúdo de níquel em solos urbanos e periurbanos. Nossa hipótese é que a confiabilidade do modelo misto depende principalmente da influência de outros modelos anexados ao modelo base. Reconhecemos os desafios enfrentados pelo DSM e, embora esses desafios estejam sendo abordados em várias frentes, a combinação de avanços em geoestatística e modelos MLA parece ser incremental; portanto, tentaremos responder a perguntas de pesquisa que podem gerar modelos mistos. No entanto, quão preciso é o modelo na previsão do elemento alvo? Além disso, qual é o nível de avaliação de eficiência com base na validação e avaliação de precisão? Portanto, os objetivos específicos deste estudo foram (a) criar um modelo de mistura combinado para SVMR ou MLR usando EBK como modelo base, (b) comparar os modelos resultantes (c) propor o melhor modelo de mistura para prever concentrações de Ni em solos urbanos ou periurbanos e (d) a aplicação de SeOM para criar um mapa de alta resolução da variação espacial do níquel.
O estudo está sendo realizado na República Tcheca, especificamente no distrito de Frydek Mistek, na região da Morávia-Silésia (ver Figura 1). A geografia da área de estudo é muito acidentada e faz parte principalmente da região de Beskidy, na Morávia-Silésia, que faz parte da borda externa dos Montes Cárpatos. A área de estudo está localizada entre 49° 41′ 0′ N e 18° 20′ 0′ E, e a altitude está entre 225 e 327 m; no entanto, o sistema de classificação de Koppen para o estado climático da região é classificado como Cfb = clima oceânico temperado. Há muita chuva, mesmo nos meses secos. As temperaturas variam ligeiramente ao longo do ano entre -5 °C e 24 °C, raramente caindo abaixo de -14 °C ou acima de 30 °C, enquanto a precipitação média anual está entre 685 e 752 mm47. A área estimada de pesquisa de toda a área é de 1.208 quilômetros quadrados, com 39,38% das terras cultivadas e 49,36% da cobertura florestal. Por outro lado, a área usada neste estudo é de cerca de 889,8 quilômetros quadrados. Em Ostrava e arredores, a indústria siderúrgica e as metalúrgicas são muito ativas. As siderúrgicas, a indústria siderúrgica onde o níquel é usado em aços inoxidáveis (por exemplo, para resistência à corrosão atmosférica) e aços de liga (o níquel aumenta a resistência da liga, mantendo sua boa ductilidade e tenacidade) e agricultura intensiva, como fertilizantes fosfatados aplicação e produção pecuária são fontes potenciais de pesquisa de níquel na região (por exemplo, adição de níquel a cordeiros para aumentar as taxas de crescimento em cordeiros e gado de baixa alimentação). Outros usos industriais de níquel em áreas de pesquisa incluem seu uso em galvanoplastia, incluindo processos de galvanoplastia de níquel e niquelagem autocatalítica. As propriedades do solo são facilmente distinguíveis da cor do solo, estrutura e conteúdo de carbonato. A textura do solo é média a fina, derivada do material de origem. Eles são coluviais, aluviais ou eólicos por natureza. Algumas áreas de solo parecem manchadas na superfície e no subsolo, frequentemente com concreto e branqueamento. No entanto, cambissolos e estagnossolos são os tipos de solo mais comuns na região48. Com elevações variando de 455,1 a 493,5 m, os cambissolos dominam a República Tcheca49.
Mapa da área de estudo [O mapa da área de estudo foi criado usando o ArcGIS Desktop (ESRI, Inc, versão 10.7, URL: https://desktop.arcgis.com).]
Um total de 115 amostras de solo superficial foram obtidas de solos urbanos e periurbanos no distrito de Frydek Mistek. O padrão de amostra usado foi uma grade regular com amostras de solo espaçadas de 2 × 2 km, e o solo superficial foi medido a uma profundidade de 0 a 20 cm usando um dispositivo GPS portátil (Leica Zeno 5 GPS). As amostras são embaladas em sacos Ziploc, devidamente etiquetadas e enviadas ao laboratório. As amostras foram secas ao ar para produzir amostras pulverizadas, pulverizadas por um sistema mecânico (moinho de discos Fritsch) e peneiradas (tamanho da peneira 2 mm). Coloque 1 grama de amostras de solo secas, homogeneizadas e peneiradas em garrafas de teflon claramente etiquetadas. Em cada recipiente de teflon, dispense 7 ml de 35% HCl e 3 ml de 65% HNO3 (usando um dispensador automático - um para cada ácido), cubra levemente e deixe as amostras repousarem durante a noite para a reação (programa aqua regia) .Coloque o sobrenadante em uma placa de metal quente (temperatura: 100 W e 160 °C) por 2 h para facilitar o processo de digestão das amostras e, em seguida, resfrie.Transfira o sobrenadante para um balão volumétrico de 50 ml e dilua para 50 ml com água deionizada.Em seguida, filtre o sobrenadante diluído em um tubo de PVC de 50 ml com água deionizada.Adicionalmente, 1 ml da solução de diluição foi diluído com 9 ml de água deionizada e filtrado em um tubo de 12 ml preparado para pseudoconcentração de PTE.As concentrações de PTEs (As, Cd, Cr, Cu, Mn, Ni, Pb, Zn, Ca, Mg, K) foram determinadas por ICP-OES (Espectroscopia de Emissão Óptica de Plasma Indutivamente Acoplado) (Thermo Fisher Scientific, EUA) de acordo com métodos e concordância padrão.Garantir procedimentos de Garantia de Qualidade e Controle (QA/QC) (SRM NIST 2711a Montana II Soil).PTEs com limites de detecção abaixo da metade foram excluídos deste estudo. O limite de detecção do PTE usado neste estudo foi 0,0004.(você). Além disso, o processo de controle de qualidade e garantia de qualidade para cada análise é garantido pela análise de padrões de referência. Para garantir que os erros fossem minimizados, uma análise dupla foi realizada.
A Krigagem Bayesiana Empírica (EBK) é uma das muitas técnicas de interpolação geoestatística usadas na modelagem em diversos campos, como a ciência do solo. Ao contrário de outras técnicas de interpolação de krigagem, a EBK difere dos métodos de krigagem tradicionais por considerar o erro estimado pelo modelo de semivariograma. Na interpolação de EBK, vários modelos de semivariograma são computados durante a interpolação, em vez de um único semivariograma. As técnicas de interpolação abrem caminho para a incerteza e a programação associadas a essa plotagem do semivariograma, que constitui uma parte altamente complexa de um método de krigagem suficiente. O processo de interpolação de EBK segue os três critérios propostos por Krivoruchko50: (a) o modelo estima o semivariograma a partir do conjunto de dados de entrada, (b) o novo valor previsto para cada localização do conjunto de dados de entrada com base no semivariograma gerado e (c) o modelo final A é computado a partir de um conjunto de dados simulado. A regra da equação bayesiana é dada como uma posterior
Onde \(Prob\left(A\right)\) representa o anterior, \(Prob\left(B\right)\) a probabilidade marginal é ignorada na maioria dos casos, \(Prob (B,A)\ ). O cálculo do semivariograma é baseado na regra de Bayes, que mostra a propensão de conjuntos de dados de observação que podem ser criados a partir de semivariogramas. O valor do semivariograma é então determinado usando a regra de Bayes, que indica a probabilidade de criar um conjunto de dados de observações a partir do semivariograma.
Uma máquina de vetores de suporte é um algoritmo de aprendizado de máquina que gera um hiperplano de separação ideal para distinguir classes idênticas, mas não linearmente independentes. Vapnik51 criou o algoritmo de classificação de intenção, mas ele tem sido usado recentemente para resolver problemas orientados à regressão. De acordo com Li et al.52, SVM é uma das melhores técnicas de classificação e tem sido usada em vários campos. O componente de regressão de SVM (Support Vector Machine Regression - SVMR) foi usado nesta análise. Cherkassky e Mulier53 foram pioneiros em SVMR como uma regressão baseada em kernel, cujo cálculo foi realizado usando um modelo de regressão linear com funções espaciais de vários países. John et al54 relatam que a modelagem SVMR emprega regressão linear de hiperplano, que cria relacionamentos não lineares e permite funções espaciais. De acordo com Vohland et al. 55, epsilon (ε)-SVMR usa o conjunto de dados treinado para obter um modelo de representação como uma função insensível a epsilon que é aplicada para mapear os dados independentemente com o melhor viés de epsilon do treinamento em dados correlacionados. O erro de distância predefinido é ignorado do valor real e, se o erro for maior que ε(ε), as propriedades do solo o compensam. O modelo também reduz a complexidade dos dados de treinamento para um subconjunto mais amplo de vetores de suporte. A equação proposta por Vapnik51 é mostrada abaixo.
onde b representa o limite escalar, \(K\left({x}_{,}{ x}_{k}\right)\) representa a função kernel, \(\alpha\) representa o multiplicador de Lagrange, N representa um conjunto de dados numéricos, \({x}_{k}\) representa a entrada de dados e \(y\) é a saída de dados. Um dos principais kernels usados é a operação SVMR, que é uma função de base radial gaussiana (RBF). O kernel RBF é aplicado para determinar o modelo SVMR ideal, que é crítico para obter o fator C do conjunto de penalidades mais sutil e o parâmetro do kernel gama (γ) para os dados de treinamento PTE. Primeiro, avaliamos o conjunto de treinamento e depois testamos o desempenho do modelo no conjunto de validação. O parâmetro de direção usado é sigma e o valor do método é svmRadial.
Um modelo de regressão linear múltipla (MLR) é um modelo de regressão que representa a relação entre a variável de resposta e uma série de variáveis preditoras usando parâmetros lineares agrupados calculados usando o método dos mínimos quadrados. No MLR, um modelo de mínimos quadrados é uma função preditiva das propriedades do solo após a seleção de variáveis explicativas. É necessário usar a resposta para estabelecer uma relação linear usando variáveis explicativas. O PTE foi usado como variável de resposta para estabelecer uma relação linear com as variáveis explicativas. A equação MLR é
onde y é a variável de resposta, \(a\) é o intercepto, n é o número de preditores, \({b}_{1}\) é a regressão parcial dos coeficientes, \({x}_{ i}\) representa um preditor ou variável explicativa, e \({\varepsilon }_{i}\) representa o erro no modelo, também conhecido como resíduo.
Modelos mistos foram obtidos intercalando EBK com SVMR e MLR. Isso é feito extraindo valores previstos da interpolação de EBK. Os valores previstos obtidos a partir do Ca, K e Mg interpolados são obtidos por meio de um processo combinatório para obter novas variáveis, como CaK, CaMg e KMg. Os elementos Ca, K e Mg são então combinados para obter uma quarta variável, CaKMg. No geral, as variáveis obtidas são Ca, K, Mg, CaK, CaMg, KMg e CaKMg. Essas variáveis se tornaram nossos preditores, ajudando a prever as concentrações de níquel em solos urbanos e periurbanos. O algoritmo SVMR foi executado nos preditores para obter um modelo misto Krigagem Bayesiana Empírica-Máquina de Vetores de Suporte (EBK_SVM). Da mesma forma, as variáveis também são canalizadas por meio do algoritmo MLR para obter um modelo misto Krigagem Bayesiana Empírica-Regressão Linear Múltipla (EBK_MLR). Normalmente, as variáveis Ca, K, Mg, CaK, CaMg, KMg e CaKMg são usadas como covariáveis como preditores do conteúdo de Ni em solos urbanos e periurbanos. O modelo mais aceitável obtido (EBK_SVM ou EBK_MLR) será então visualizado usando um gráfico auto-organizado. O fluxo de trabalho deste estudo é mostrado na Figura 2.
O uso do SeOM se tornou uma ferramenta popular para organizar, avaliar e prever dados no setor financeiro, saúde, indústria, estatística, ciência do solo e muito mais. O SeOM é criado usando redes neurais artificiais e métodos de aprendizado não supervisionado para organização, avaliação e previsão. Neste estudo, o SeOM foi usado para visualizar concentrações de Ni com base no melhor modelo para prever Ni em solos urbanos e periurbanos. Os dados processados na avaliação do SeOM são usados como variáveis vetoriais de entrada n-dimensionais43,56. Melssen et al. 57 descreve a conexão de um vetor de entrada em uma rede neural por meio de uma única camada de entrada a um vetor de saída com um único vetor de peso. A saída gerada pelo SeOM é um mapa bidimensional que consiste em diferentes neurônios ou nós entrelaçados em mapas topológicos hexagonais, circulares ou quadrados de acordo com sua proximidade. Comparando os tamanhos dos mapas com base na métrica, erro de quantização (QE) e erro topográfico (TE), o modelo SeOM com 0,086 e 0,904, respectivamente, é selecionado, que é uma unidade de 55 mapas (5 × 11). A estrutura do neurônio é determinada de acordo com o número de nós na equação empírica
O número de dados usados neste estudo é de 115 amostras. Uma abordagem aleatória foi usada para dividir os dados em dados de teste (25% para validação) e conjuntos de dados de treinamento (75% para calibração). O conjunto de dados de treinamento é usado para gerar o modelo de regressão (calibração) e o conjunto de dados de teste é usado para verificar a capacidade de generalização58. Isso foi feito para avaliar a adequação de vários modelos para prever o conteúdo de níquel em solos. Todos os modelos usados passaram por um processo de validação cruzada décupla, repetido cinco vezes. As variáveis produzidas pela interpolação EBK são usadas como preditores ou variáveis explicativas para prever a variável alvo (PTE). A modelagem é tratada no RStudio usando os pacotes library(Kohonen), library(caret), library(modelr), library(“e1071″), library(“plyr”), library(“caTools”), library(” prospectr”) e libraries (“Metrics”).
Vários parâmetros de validação foram usados para determinar o melhor modelo adequado para prever concentrações de níquel no solo e para avaliar a precisão do modelo e sua validação. Os modelos de hibridização foram avaliados usando erro absoluto médio (MAE), erro quadrático médio (RMSE) e R-quadrado ou determinação de coeficiente (R2). O R2 define a variância das proporções na resposta, representada pelo modelo de regressão. O RMSE e a magnitude da variância em medidas independentes descrevem o poder preditivo do modelo, enquanto o MAE determina o valor quantitativo real. O valor R2 deve ser alto para avaliar o melhor modelo de mistura usando os parâmetros de validação, quanto mais próximo o valor for de 1, maior a precisão. De acordo com Li et al. 59, um valor de critério R2 de 0,75 ou maior é considerado um bom preditor; de 0,5 a 0,75 é o desempenho do modelo aceitável e abaixo de 0,5 é o desempenho do modelo inaceitável. Ao selecionar um modelo usando os métodos de avaliação dos critérios de validação RMSE e MAE, os valores mais baixos obtidos foram suficientes e foram considerados a melhor escolha. A equação a seguir descreve o método de verificação.
onde n representa o tamanho do valor observado\({Y}_{i}\) representa a resposta medida, e \({\widehat{Y}}_{i}\) também representa o valor de resposta previsto, portanto, para as primeiras i observações.
As descrições estatísticas das variáveis preditoras e de resposta são apresentadas na Tabela 1, mostrando média, desvio padrão (DP), coeficiente de variação (CV), mínimo, máximo, curtose e assimetria. Os valores mínimo e máximo dos elementos estão em ordem decrescente de Mg < Ca < K < Ni e Ca < Mg < K < Ni, respectivamente. As concentrações da variável de resposta (Ni) amostradas na área de estudo variaram de 4,86 a 42,39 mg/kg. A comparação de Ni com a média mundial (29 mg/kg) e a média europeia (37 mg/kg) mostrou que a média geométrica geral calculada para a área de estudo estava dentro da faixa tolerável. No entanto, conforme mostrado por Kabata-Pendias11, uma comparação da concentração média de níquel (Ni) no estudo atual com solos agrícolas na Suécia mostra que a concentração média atual de níquel é maior. Da mesma forma, a concentração média de Frydek Mistek em solos urbanos e periurbanos no estudo atual (Ni 16,15 mg/kg) foi maior do que o limite permitido de 60 (10,2 mg/kg) para Ni em solos urbanos poloneses relatados por Różański et al. Além disso, Bretzel e Calderisi61 registraram concentrações médias de Ni muito baixas (1,78 mg/kg) em solos urbanos na Toscana em comparação com o estudo atual. Jim62 também encontrou uma concentração de níquel mais baixa (12,34 mg/kg) em solos urbanos de Hong Kong, que é menor do que a concentração atual de níquel neste estudo. Birke et al63 relataram uma concentração média de Ni de 17,6 mg/kg em uma antiga área de mineração e indústria urbana na Saxônia-Anhalt, Alemanha, que foi 1,45 mg/kg maior do que a concentração média de Ni na área (16,15 mg/kg). Pesquisa atual. O conteúdo excessivo de níquel em solos em algumas áreas urbanas e suburbanas da área de estudo pode ser atribuído principalmente à indústria siderúrgica e à indústria metalúrgica. Isso é consistente com o estudo de Khodadoust et al. 64 que a indústria siderúrgica e a metalurgia são as principais fontes de contaminação por níquel nos solos. No entanto, os preditores também variaram de 538,70 mg/kg a 69.161,80 mg/kg para Ca, 497,51 mg/kg a 3.535,68 mg/kg para K e 685,68 mg/kg a 5.970,05 mg/kg para Mg. Jakovljevic et al. 65 investigaram o conteúdo total de Mg e K de solos na Sérvia central. Eles descobriram que as concentrações totais (410 mg/kg e 400 mg/kg, respectivamente) eram menores do que as concentrações de Mg e K do estudo atual. Indistinguível, no leste da Polônia, Orzechowski e Smolczynski66 avaliaram o conteúdo total de Ca, Mg e K e mostraram concentrações médias de Ca (1100 mg/kg), Mg (590 mg/kg) e K (810 mg/kg). O conteúdo na camada superficial do solo é menor do que o elemento único neste estudo. Um estudo recente de Pongrac et al. 67 mostrou que o conteúdo total de Ca analisado em 3 solos diferentes na Escócia, Reino Unido (solo de Mylnefield, solo de Balruddery e solo de Hartwood) indicou um conteúdo maior de Ca neste estudo.
Devido às diferentes concentrações medidas dos elementos amostrados, as distribuições do conjunto de dados dos elementos exibem assimetria diferente. A assimetria e a curtose dos elementos variaram de 1,53 a 7,24 e 2,49 a 54,16, respectivamente. Todos os elementos calculados têm níveis de assimetria e curtose acima de +1, indicando que a distribuição dos dados é irregular, distorcida na direção correta e com pico. Os CVs estimados dos elementos também mostram que K, Mg e Ni exibem variabilidade moderada, enquanto Ca tem variabilidade extremamente alta. Os CVs de K, Ni e Mg explicam sua distribuição uniforme. Além disso, a distribuição de Ca não é uniforme e fontes externas podem afetar seu nível de enriquecimento.
A correlação das variáveis preditoras com os elementos de resposta indicou uma correlação satisfatória entre os elementos (ver Figura 3). A correlação indicou que CaK exibiu correlação moderada com valor de r = 0,53, assim como CaNi. Embora Ca e K mostrem associações modestas entre si, pesquisadores como Kingston et al. 68 e Santo69 sugerem que seus níveis no solo são inversamente proporcionais. No entanto, Ca e Mg são antagônicos ao K, mas CaK se correlaciona bem. Isso pode ser devido à aplicação de fertilizantes como o carbonato de potássio, que é 56% maior em potássio. O potássio foi moderadamente correlacionado com o magnésio (KM r = 0,63). Na indústria de fertilizantes, esses dois elementos estão intimamente relacionados porque o sulfato de potássio e magnésio, o nitrato de potássio e magnésio e o potássio são aplicados aos solos para aumentar seus níveis de deficiência. O níquel é moderadamente correlacionado com Ca, K e Mg com valores de r = 0,52, 0,63 e 0,55, respectivamente. As relações envolvendo cálcio, magnésio e PTEs como o níquel são complexas, mas, mesmo assim, o magnésio inibe a absorção de cálcio, o cálcio reduz os efeitos do excesso de magnésio e tanto o magnésio quanto o cálcio reduzem os efeitos tóxicos do níquel no solo.
Matriz de correlação para elementos mostrando a relação entre preditores e respostas (Nota: esta figura inclui um gráfico de dispersão entre elementos, os níveis de significância são baseados em p < 0,001).
A Figura 4 ilustra a distribuição espacial dos elementos. De acordo com Burgos et al. 70, a aplicação da distribuição espacial é uma técnica usada para quantificar e destacar pontos críticos em áreas poluídas. Os níveis de enriquecimento de Ca na Figura 4 podem ser vistos na parte noroeste do mapa de distribuição espacial. A figura mostra pontos críticos de enriquecimento de Ca de moderado a alto. O enriquecimento de cálcio no noroeste do mapa é provavelmente devido ao uso de cal viva (óxido de cálcio) para reduzir a acidez do solo e seu uso em siderúrgicas como oxigênio alcalino no processo de fabricação de aço. Por outro lado, outros agricultores preferem usar hidróxido de cálcio em solos ácidos para neutralizar o pH, o que também aumenta o conteúdo de cálcio do solo. O potássio também mostra pontos críticos no noroeste e leste do mapa. O noroeste é uma grande comunidade agrícola, e o padrão moderado a alto de potássio pode ser devido às aplicações de NPK e potássio. Isso é consistente com outros estudos, como Madaras e Lipavský 72, Madaras et al.73, Pulkrabová et al.74, Asare et al.75, que observaram que a estabilização do solo e o tratamento com KCl e NPK resultaram em alto teor de K. O enriquecimento espacial de potássio no noroeste do mapa de distribuição pode ser devido ao uso de fertilizantes à base de potássio, como cloreto de potássio, sulfato de potássio, nitrato de potássio, potássio e potássio para aumentar o teor de potássio em solos pobres. Zádorová et al.76 e Tlustoš et al. 77 destacou que a aplicação de fertilizantes à base de K aumentou o conteúdo de K no solo e aumentaria significativamente o conteúdo de nutrientes do solo a longo prazo, especialmente K e Mg, mostrando um ponto crítico no solo. Pontos críticos relativamente moderados no noroeste do mapa e no sudeste do mapa. A fixação coloidal no solo esgota a concentração de magnésio no solo. Sua falta no solo faz com que as plantas apresentem clorose internerval amarelada. Fertilizantes à base de magnésio, como sulfato de potássio e magnésio, sulfato de magnésio e kieserita, tratam deficiências (as plantas parecem roxas, vermelhas ou marrons, indicando deficiência de magnésio) em solos com uma faixa de pH normal6. O acúmulo de níquel em superfícies de solo urbano e periurbano pode ser devido a atividades antropogênicas, como agricultura e a importância do níquel na produção de aço inoxidável78.
Distribuição espacial dos elementos [o mapa de distribuição espacial foi criado usando o ArcGIS Desktop (ESRI, Inc, Versão 10.7, URL: https://desktop.arcgis.com).]
Os resultados do índice de desempenho do modelo para os elementos usados neste estudo são mostrados na Tabela 2. Por outro lado, o RMSE e o MAE de Ni são próximos de zero (0,86 RMSE, -0,08 MAE). Por outro lado, os valores de RMSE e MAE de K são aceitáveis. Os resultados de RMSE e MAE foram maiores para cálcio e magnésio. Os resultados de Ca e K MAE e RMSE são maiores devido a diferentes conjuntos de dados. O RMSE e o MAE deste estudo usando EBK para prever Ni foram considerados melhores do que os resultados de John et al. 54 usando krigagem sinérgica para prever concentrações de S no solo usando os mesmos dados coletados. As saídas de EBK que estudamos se correlacionam com as de Fabijaczyk et al. 41, Yan et al. 79, Beguin et al. 80, Adhikary et al. 81 e John et al. 82, especialmente K e Ni.
O desempenho de métodos individuais para prever o teor de níquel em solos urbanos e periurbanos foi avaliado usando o desempenho dos modelos (Tabela 3). A validação do modelo e a avaliação da precisão confirmaram que o preditor Ca_Mg_K combinado com o modelo EBK SVMR produziu o melhor desempenho. O modelo de calibração Ca_Mg_K-EBK_SVMR R2, a raiz do erro quadrático médio (RMSE) e o erro absoluto médio (MAE) foram 0,637 (R2), 95,479 mg/kg (RMSE) e 77,368 mg/kg (MAE) Ca_Mg_K-SVMR foi 0,663 (R2), 235,974 mg/kg (RMSE) e 166,946 mg/kg (MAE). No entanto, bons valores de R2 foram obtidos para Ca_Mg_K-SVMR (0,663 mg/kg R2) e Ca_Mg-EBK_SVMR (0,643 = R2); seus resultados de RMSE e MAE foram maiores do que aqueles para Ca_Mg_K-EBK_SVMR (R2 0,637) (ver Tabela 3). Além disso, o RMSE e o MAE do modelo Ca_Mg-EBK_SVMR (RMSE = 1664,64 e MAE = 1031,49) são 17,5 e 13,4, respectivamente, que são maiores do que aqueles do Ca_Mg_K-EBK_SVMR. Da mesma forma, o RMSE e o MAE do modelo Ca_Mg-K SVMR (RMSE = 235,974 e MAE = 166,946) são 2,5 e 2,2 maiores do que aqueles do RMSE e MAE do Ca_Mg_K-EBK_SVMR, respectivamente. Os resultados de RMSE calculados indicam o quão concentrado o conjunto de dados é com a linha de melhor ajuste. RSME e MAE mais altos foram observado. De acordo com Kebonye et al. 46 e john et al. 54, quanto mais próximo o RMSE e o MAE estiverem de zero, melhores serão os resultados. SVMR e EBK_SVMR têm valores RSME e MAE quantizados mais altos. Foi observado que as estimativas de RSME foram consistentemente maiores do que os valores de MAE, indicando a presença de outliers. De acordo com Legates e McCabe83, a extensão em que o RMSE excede o erro absoluto médio (MAE) é recomendada como um indicador da presença de outliers. Isso significa que quanto mais heterogêneo o conjunto de dados, maiores serão os valores de MAE e RMSE. A precisão da avaliação de validação cruzada do modelo misto Ca_Mg_K-EBK_SVMR para prever o conteúdo de Ni em solos urbanos e suburbanos foi de 63,70%. De acordo com Li et al. 59, esse nível de precisão é uma taxa de desempenho de modelo aceitável. Os resultados atuais são comparados a um estudo anterior de Tarasov et al. 36 cujo modelo híbrido criou MLPRK (Multilayer Perceptron Residual Kriging), relacionado ao índice de avaliação de precisão EBK_SVMR relatado no estudo atual, RMSE (210) e O MAE (167,5) foi maior do que nossos resultados no estudo atual (RMSE 95,479, MAE 77,368). No entanto, ao comparar o R2 do estudo atual (0,637) com o de Tarasov et al. 36 (0,544), fica claro que o coeficiente de determinação (R2) é maior neste modelo misto. A margem de erro (RMSE e MAE) (EBK SVMR) para o modelo misto é duas vezes menor. Da mesma forma, Sergeev et al.34 registraram 0,28 (R2) para o modelo híbrido desenvolvido (Multilayer Perceptron Residual Kriging), enquanto Ni no estudo atual registrou 0,637 (R2). O nível de precisão de previsão deste modelo (EBK SVMR) é de 63,7%, enquanto a precisão de previsão obtida por Sergeev et al. 34 é de 28%. O mapa final (Fig. 5) criado usando o modelo EBK_SVMR e Ca_Mg_K como um preditor mostra previsões de pontos quentes e moderados a níquel em toda a área de estudo. Isso significa que a concentração de níquel na área de estudo é principalmente moderada, com concentrações mais altas em algumas áreas específicas.
O mapa de previsão final é representado usando o modelo híbrido EBK_SVMR e usando Ca_Mg_K como preditor. [O mapa de distribuição espacial foi criado usando o RStudio (versão 1.4.1717: https://www.rstudio.com/).]
A Figura 6 apresenta as concentrações de PTE como um plano de composição constituído por neurônios individuais. Nenhum dos planos componentes exibiu o mesmo padrão de cores mostrado. No entanto, o número apropriado de neurônios por mapa desenhado é 55. O SeOM é produzido usando uma variedade de cores, e quanto mais semelhantes os padrões de cores, mais comparáveis as propriedades das amostras. De acordo com sua escala de cores precisa, os elementos individuais (Ca, K e Mg) apresentaram padrões de cores semelhantes aos de neurônios altos individuais e à maioria dos neurônios baixos. Assim, CaK e CaMg compartilham algumas semelhanças com neurônios de ordem muito alta e padrões de cores baixos a moderados. Ambos os modelos preveem a concentração de Ni no solo exibindo tons de cores médios a altos, como vermelho, laranja e amarelo. O modelo KMg exibe muitos padrões de cores altos com base em proporções precisas e manchas de cores baixas a médias. Em uma escala de cores precisa de baixa a alta, o padrão de distribuição planar dos componentes do modelo mostrou um padrão de cores alto, indicando a concentração potencial de níquel no solo (ver Figura 4). O plano de componentes do modelo CakMg mostra um padrão de cores diversificado de baixo a alto de acordo com uma escala de cores precisa. Além disso, a previsão do modelo do conteúdo de níquel (CakMg) é semelhante à distribuição espacial de níquel mostrada na Figura 5. Ambos os gráficos mostram proporções altas, médias e baixas de concentrações de níquel em solos urbanos e periurbanos. A Figura 7 descreve o método de contorno no agrupamento k-means no mapa, dividido em três clusters com base no valor previsto em cada modelo. O método de contorno representa o número ideal de clusters. Das 115 amostras de solo coletadas, a categoria 1 obteve o maior número de amostras de solo, 74. O cluster 2 recebeu 33 amostras, enquanto o cluster 3 recebeu 8 amostras. A combinação do preditor planar de sete componentes foi simplificada para permitir a interpretação correta do cluster. Devido aos numerosos processos antropogênicos e naturais que afetam a formação do solo, é difícil ter padrões de cluster adequadamente diferenciados em um mapa SeOM distribuído78.
Saída do plano de componentes por cada variável da Máquina de Vetores de Suporte de Krigagem Bayesiana Empírica (EBK_SVM_SeOM). [Mapas SeOM foram criados usando o RStudio (versão 1.4.1717: https://www.rstudio.com/).]
Diferentes componentes de classificação de cluster [Mapas SeOM foram criados usando RStudio (versão 1.4.1717: https://www.rstudio.com/).]
O estudo atual ilustra claramente técnicas de modelagem para concentrações de níquel em solos urbanos e periurbanos. O estudo testou diferentes técnicas de modelagem, combinando elementos com técnicas de modelagem, para obter a melhor maneira de prever as concentrações de níquel no solo. As características espaciais planares composicionais do SeOM da técnica de modelagem exibiram um alto padrão de cores de baixo para alto em uma escala de cores precisa, indicando concentrações de Ni no solo. No entanto, o mapa de distribuição espacial confirma a distribuição espacial planar dos componentes exibidos por EBK_SVMR (ver Figura 5). Os resultados mostram que o modelo de regressão da máquina de vetores de suporte (Ca Mg K-SVMR) prevê a concentração de Ni no solo como um único modelo, mas os parâmetros de validação e avaliação de precisão mostram erros muito altos em termos de RMSE e MAE. Por outro lado, a técnica de modelagem empregada com o modelo EBK_MLR também é falha devido ao baixo valor do coeficiente de determinação (R2). Bons resultados foram obtidos usando EBK SVMR e elementos combinados (CaKMg) com baixos erros de RMSE e MAE com uma precisão de 63,7%. Acontece que a combinação do algoritmo EBK com um algoritmo de aprendizado de máquina pode gerar um algoritmo híbrido que pode prever a concentração de PTEs no solo. Os resultados mostram que o uso de Ca Mg K como preditores para prever as concentrações de Ni na área de estudo pode melhorar a previsão de Ni nos solos. Isso significa que a aplicação contínua de fertilizantes à base de níquel e a poluição industrial do solo pela indústria siderúrgica têm uma tendência a aumentar a concentração de níquel no solo. Este estudo revelou que o modelo EBK pode reduzir o nível de erro e melhorar a precisão do modelo de distribuição espacial do solo em solos urbanos ou periurbanos. Em geral, propomos aplicar o modelo EBK-SVMR para avaliar e prever PTE no solo; além disso, propomos usar EBK para hibridizar com vários algoritmos de aprendizado de máquina. As concentrações de Ni foram previstas usando elementos como covariáveis; no entanto, o uso de mais covariáveis melhoraria muito o desempenho do modelo, o que pode ser considerado uma limitação do trabalho atual. Outra limitação deste estudo é que o número de conjuntos de dados é 115. Portanto, se mais dados forem fornecidos, o desempenho do método de hibridização otimizado proposto pode ser melhorado.
PlantProbs.net.Nickel em plantas e solo https://plantprobs.net/plant/nutrientImbalances/sodium.html (Acessado em 28 de abril de 2021).
Kasprzak, KS Avanços do níquel na toxicologia ambiental moderna.entorno.toxicologia.11, 145–183 (1987).
Cempel, M. & Nikel, G. Nickel: Uma revisão de suas fontes e toxicologia ambiental. Polish J. Environment. Stud. 15, 375–382 (2006).
Freedman, B. & Hutchinson, TC Entrada de poluentes da atmosfera e acumulação no solo e na vegetação perto de uma fundição de níquel-cobre em Sudbury, Ontário, Canadá.can.J. Bot.58(1), 108-132.https://doi.org/10.1139/b80-014 (1980).
Manyiwa, T. et al. Metais pesados no solo, plantas e riscos associados ao pastoreio de ruminantes perto da mina de cobre e níquel Selebi-Phikwe em Botsuana. arredores. Geoquímica. Saúde https://doi.org/10.1007/s10653-021-00918-x (2021).
Cabata-Pendias.Kabata-Pendias A. 2011. Oligoelementos no solo e… – Google Scholar https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Kabata-Pendias+A.+2011.+Trace+ Elements+in+soils+and+plants.+4th+ed.+New+York+%28NY%29%3A+CRC+Press&btnG= (Acessado em 24 de novembro de 2020).
Almås, A., Singh, B., Agricultura, TS-NJ de & 1995, indefinido. Efeitos da indústria russa de níquel nas concentrações de metais pesados em solos agrícolas e gramíneas em Soer-Varanger, Noruega.agris.fao.org.
Nielsen, GD et al.A absorção e retenção de níquel na água potável estão relacionadas à ingestão de alimentos e à sensibilidade ao níquel.toxicologia.aplicação.farmacodinâmica.154, 67–75 (1999).
Costa, M. & Klein, CB Carcinogênese do níquel, mutação, epigenética ou seleção. Entorno. Perspectiva de saúde. 107, 2 (1999).
Ajman, PC; Ajado, SK; Borůvka, L.; Bini, JKM; Sarkody, VYO; Cobonye, NM; Análise de tendências de elementos potencialmente tóxicos: uma revisão bibliométrica.Geoquímica Ambiental e Saúde.Springer Science & Business Media BV 2020.https://doi.org/10.1007/s10653-020-00742-9.
Minasny, B. & McBratney, AB Mapeamento digital do solo: uma breve história e algumas lições. Geoderma 264, 301–311. https://doi.org/10.1016/j.geoderma.2015.07.017 (2016).
McBratney, AB, Mendonça Santos, ML & Minasny, B. Sobre mapeamento digital de solos.Geoderma 117(1-2), 3-52.https://doi.org/10.1016/S0016-7061(03)00223-4 (2003).
Deutsch.CV Modelagem geoestatística de reservatórios,… – Google Scholar https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=CV+Deutsch%2C+2002%2C+Geostatistical+Reservoir+Modeling%2C +Oxford+University+Press%2C+376+pages.+&btnG= (Acessado em 28 de abril de 2021).
Data de publicação: 22 de julho de 2022


