Благодарим вас за посещение Nature.com. Версия браузера, которую вы используете, имеет ограниченную поддержку CSS. Для наилучшей работы мы рекомендуем вам использовать обновленный браузер (или отключить режим совместимости в Internet Explorer). В то же время, чтобы обеспечить постоянную поддержку, мы будем отображать сайт без стилей и JavaScript.
Загрязнение почвы является большой проблемой, вызванной деятельностью человека. Пространственное распределение потенциально токсичных элементов (ПТЭ) различается в большинстве городских и пригородных районов. Поэтому сложно пространственно предсказать содержание ПТЭ в таких почвах. Всего было получено 115 образцов из Фридека Мистека в Чешской Республике. Концентрации кальция (Ca), магния (Mg), калия (K) и никеля (Ni) определялись с помощью эмиссионной спектрометрии с индуктивно связанной плазмой. Переменной отклика является Ni, а предикторами являются Ca, Mg и K. Матрица корреляции между переменной отклика и переменной предиктора показывает удовлетворительную корреляцию между элементами. Результаты прогнозирования показали, что регрессия опорных векторов (SVMR) показала хорошие результаты, хотя ее расчетная среднеквадратичная ошибка (RMSE) (235,974 мг/кг) и средняя абсолютная ошибка (MAE) (166,946 мг/кг) были выше, чем у других примененных методов. Смешанные модели для эмпирического байесовского кригинга - множественного линейного Регрессия (EBK-MLR) работает плохо, о чем свидетельствуют коэффициенты детерминации менее 0,1. Модель регрессии эмпирического байесовского кригинга с опорными векторами (EBK-SVMR) оказалась лучшей моделью с низкими значениями RMSE (95,479 мг/кг) и MAE (77,368 мг/кг) и высоким коэффициентом детерминации (R2 = 0,637). Выходные данные метода моделирования EBK-SVMR визуализируются с помощью самоорганизующейся карты. Кластеризованные нейроны в плоскости компонента гибридной модели CakMg-EBK-SVMR демонстрируют множественные цветовые узоры, которые предсказывают концентрации Ni в городских и пригородных почвах. Результаты показывают, что объединение EBK и SVMR является эффективным методом прогнозирования концентраций Ni в городских и пригородных почвах.
Никель (Ni) считается микроэлементом для растений, поскольку он способствует фиксации атмосферного азота (N) и метаболизму мочевины, оба из которых необходимы для прорастания семян. Помимо своего вклада в прорастание семян, Ni может действовать как ингибитор грибков и бактерий и способствовать развитию растений. Недостаток никеля в почве позволяет растению поглощать его, что приводит к хлорозу листьев. Например, коровий горох и зеленая фасоль требуют внесения удобрений на основе никеля для оптимизации фиксации азота2. Постоянное внесение удобрений на основе никеля для обогащения почвы и повышения способности бобовых фиксировать азот в почве непрерывно увеличивает концентрацию никеля в почве. Хотя никель является микроэлементом для растений, его чрезмерное поступление в почву может принести больше вреда, чем пользы. Токсичность никеля в почве минимизирует pH почвы и препятствует усвоению железа как необходимого питательного вещества для роста растений1. По словам Лю3, Ni оказался 17-м важным элементом, необходимым для развития и роста растений. Помимо роли никеля в растениях развитие и рост, людям он нужен для различных применений. Гальваника, производство сплавов на основе никеля и производство устройств зажигания и свечей зажигания в автомобильной промышленности — все это требует использования никеля в различных промышленных секторах. Кроме того, сплавы на основе никеля и гальванические изделия широко используются в кухонной утвари, аксессуарах для бальных залов, поставках для пищевой промышленности, электротехнике, проводах и кабелях, реактивных турбинах, хирургических имплантатах, текстиле и судостроении5. Уровни богатого никелем в почвах (т. е. поверхностных почвах) приписываются как антропогенным, так и природным источникам, но в первую очередь Ni является природным источником, а не антропогенным4,6. К естественным источникам никеля относятся извержения вулканов, растительность, лесные пожары и геологические процессы; однако антропогенные источники включают никель-кадмиевые батареи в сталелитейной промышленности, гальванопокрытие, дуговую сварку, дизельное топливо и мазут, а также выбросы в атмосферу от сжигания угля и отходов и шлама Накопление никеля7,8. Согласно Фридману и Хатчинсону9 и Маниве и др. 10, основными источниками загрязнения верхнего слоя почвы в непосредственной близости и прилегающей среде являются в основном металлургические комбинаты и шахты, работающие на основе никеля и меди. Верхний слой почвы вокруг завода по переработке никеля и меди в Садбери в Канаде имел самые высокие уровни загрязнения никелем — 26 000 мг/кг11. Напротив, загрязнение от производства никеля в России привело к более высоким концентрациям никеля в норвежской почве11. По данным Альмса и др. 12, количество никеля, извлекаемого HNO3, в лучших пахотных землях региона (производство никеля в России) варьировалось от 6,25 до 136,88 мг/кг, что соответствует среднему значению 30,43 мг/кг и базовой концентрации 25 мг/кг. По данным Кабата 11, внесение фосфорных удобрений в сельскохозяйственные почвы в городских или пригородных почвах в течение последовательных вегетационных сезонов может привести к проникновению или загрязнению почвы. Потенциальное воздействие никеля на людей может привести к раку через мутагенез, повреждение хромосом, генерацию Z-ДНК, блокированную эксцизионную репарацию ДНК или эпигенетические процессы13. В экспериментах на животных было обнаружено, что никель может вызывать различные опухоли, а канцерогенные комплексы никеля могут усугублять такие опухоли.
Оценки загрязнения почвы в последнее время процветают из-за широкого спектра проблем, связанных со здоровьем, возникающих из-за взаимоотношений почвы и растений, биологических взаимоотношений почвы и почвы, экологической деградации и оценки воздействия на окружающую среду. До настоящего времени пространственное прогнозирование потенциально токсичных элементов (ПТЭ), таких как Ni в почве, было трудоемким и отнимающим много времени с использованием традиционных методов. Появление цифрового картирования почв (DSM) и его нынешний успех15 значительно улучшили прогностическое картирование почв (PSM). По словам Минасны и МакБратни16, прогностическое картирование почв (DSM) оказалось важной поддисциплиной почвоведения. Лагашери и МакБратни, 2006 определяют DSM как «создание и заполнение пространственных систем информации о почве посредством использования методов наблюдения in situ и лабораторных исследований, а также пространственных и непространственных систем вывода о почве». МакБратни и др. 17 подчеркивают, что современная DSM или PSM является наиболее эффективным методом прогнозирования или картирования пространственного распределения PTE, типов почв и свойств почв. Геостатистика и алгоритмы машинного обучения (MLA) представляют собой методы моделирования DSM, которые создают оцифрованные карты с помощью компьютеров, используя существенные и минимальные данные.
Deutsch18 и Olea19 определяют геостатистику как «совокупность числовых методов, которые имеют дело с представлением пространственных атрибутов, в основном с использованием стохастических моделей, таких как то, как анализ временных рядов характеризует временные данные». В первую очередь, геостатистика включает в себя оценку вариограмм, которые позволяют количественно определять и определять зависимости пространственных значений из каждого набора данных20.Gumiaux et al. 20 дополнительно иллюстрируют, что оценка вариограмм в геостатистике основана на трех принципах, включая (a) вычисление масштаба корреляции данных, (b) выявление и вычисление анизотропии в несоответствии наборов данных и (c) в дополнение к учету неотъемлемой погрешности данных измерений, отделенных от локальных эффектов, также оцениваются площадные эффекты. Основываясь на этих концепциях, в геостатистике используются многие методы интерполяции, включая общий кригинг, кокригинг, обычный кригинг, эмпирический байесовский кригинг, метод простого кригинга и другие известные методы интерполяции для картирования или прогнозирования PTE, характеристик почвы и типов почвы.
Алгоритмы машинного обучения (MLA) — это относительно новая технология, которая использует более крупные нелинейные классы данных, подпитываемые алгоритмами, которые в основном используются для интеллектуального анализа данных, выявления закономерностей в данных и неоднократно применяются для классификации в таких научных областях, как почвоведение и задачи возврата. Многочисленные исследовательские работы опираются на модели MLA для прогнозирования PTE в почвах, например, Tan et al. 22 (случайные леса для оценки тяжелых металлов в сельскохозяйственных почвах), Sakizadeh et al. 23 (моделирование с использованием машин опорных векторов и искусственных нейронных сетей) загрязнения почвы). Кроме того, Vega et al. 24 (CART для моделирования удержания и адсорбции тяжелых металлов в почве), Sun et al. 25 (применение кубизма — распределение Cd в почве) и другие алгоритмы, такие как k-ближайший сосед, обобщенная усиленная регрессия и усиленная регрессия Trees также применяли MLA для прогнозирования PTE в почве.
Применение алгоритмов DSM в прогнозировании или картировании сталкивается с рядом проблем. Многие авторы считают, что MLA превосходит геостатистику и наоборот. Хотя один лучше другого, их сочетание повышает уровень точности картирования или прогнозирования в DSM15. Вудкок и Гопал26 Финке27; Понтиус и Чеук28 и Грюнвальд29 комментируют недостатки и некоторые ошибки в прогнозируемом картировании почв. Почвоведы испробовали различные методы для оптимизации эффективности, точности и предсказуемости картирования и прогнозирования DSM. Сочетание неопределенности и проверки является одним из многих различных аспектов, интегрированных в DSM для оптимизации эффективности и уменьшения дефектов. Однако Агьеман и др. 15 подчеркивают, что поведение проверки и неопределенность, вносимые созданием карты и прогнозированием, должны быть независимо проверены для улучшения качества карты. Ограничения DSM обусловлены географически рассредоточенным качеством почвы, которое включает в себя компонент неопределенности; Однако отсутствие определенности в DSM может быть вызвано несколькими источниками ошибок, а именно ковариационной ошибкой, ошибкой модели, ошибкой местоположения и аналитической ошибкой 31. Неточности моделирования, вызванные в MLA и геостатистических процессах, связаны с отсутствием понимания, что в конечном итоге приводит к чрезмерному упрощению реального процесса32. Независимо от характера моделирования, неточности могут быть отнесены к параметрам моделирования, предсказаниям математической модели или интерполяции33. Недавно появилась новая тенденция DSM, которая способствует интеграции геостатистики и MLA в картографирование и прогнозирование. Несколько почвоведов и авторов, таких как Сергеев и др. 34; Субботина и др. 35; Тарасов и др. 36 и Тарасов и др. 37 использовали точное качество геостатистики и машинного обучения для создания гибридных моделей, которые повышают эффективность прогнозирования и картографирования. качество. Некоторые из этих гибридных или комбинированных моделей алгоритмов — это кригинг с использованием искусственных нейронных сетей (ANN-RK), кригинг с использованием многослойного персептрона и остатков (MLP-RK), кригинг с использованием обобщенной регрессии нейронных сетей и остатков (GR-NNRK)36, кригинг с использованием искусственных нейронных сетей и многослойного персептрона (ANN-K-MLP)37 и ко-кригинг и регрессия гауссовского процесса38.
По словам Сергеева и др., объединение различных методов моделирования может устранить дефекты и повысить эффективность полученной гибридной модели, а не разрабатывать ее единственную модель. В этом контексте в этой новой статье утверждается, что необходимо применять комбинированный алгоритм геостатистики и MLA для создания оптимальных гибридных моделей для прогнозирования обогащения Ni в городских и пригородных районах. Это исследование будет опираться на эмпирический байесовский кригинг (EBK) в качестве базовой модели и смешивать его с моделями опорных векторов (SVM) и множественной линейной регрессии (MLR). Гибридизация EBK с любым MLA неизвестна. Несколько рассмотренных смешанных моделей представляют собой комбинации обычного, остаточного, регрессионного кригинга и MLA. EBK — это метод геостатистической интерполяции, который использует пространственно-стохастический процесс, локализованный как нестационарное/стационарное случайное поле с определенными параметрами локализации по полю, что позволяет учитывать пространственные вариации39. EBK использовался в различных исследованиях, включая анализ распределения органического углерода в сельскохозяйственных почвы40, оценка загрязнения почвы41 и картирование свойств почвы42.
С другой стороны, самоорганизующийся граф (SeOM) — это алгоритм обучения, который применялся в различных статьях, таких как Li et al. 43, Wang et al. 44, Hossain Bhuiyan et al. 45 и Kebonye et al. 46 Определение пространственных атрибутов и группировки элементов. Wang et al. 44 подчеркивают, что SeOM — это мощный метод обучения, известный своей способностью группировать и представлять нелинейные проблемы. В отличие от других методов распознавания образов, таких как анализ главных компонентов, нечеткая кластеризация, иерархическая кластеризация и многокритериальное принятие решений, SeOM лучше организует и идентифицирует шаблоны PTE. По словам Wang et al. 44, SeOM может пространственно группировать распределение связанных нейронов и обеспечивать визуализацию данных с высоким разрешением. SeOM визуализирует данные прогнозирования Ni, чтобы получить наилучшую модель для характеристики результатов для прямой интерпретации.
Целью данной статьи является создание надежной модели картирования с оптимальной точностью для прогнозирования содержания никеля в городских и пригородных почвах. Мы предполагаем, что надежность смешанной модели в основном зависит от влияния других моделей, прикрепленных к базовой модели. Мы признаем проблемы, стоящие перед DSM, и хотя эти проблемы решаются на нескольких фронтах, сочетание достижений в области геостатистики и моделей MLA, по-видимому, является постепенным; поэтому мы попытаемся ответить на вопросы исследования, которые могут привести к созданию смешанных моделей. Однако насколько точна модель при прогнозировании целевого элемента? Кроме того, каков уровень оценки эффективности, основанный на проверке и оценке точности? Поэтому конкретными целями данного исследования были: (a) создание комбинированной смешанной модели для SVMR или MLR с использованием EBK в качестве базовой модели, (b) сравнение полученных моделей, (c) предложение лучшей смешанной модели для прогнозирования концентраций Ni в городских или пригородных почвах и (d) применение SeOM для создания карты пространственного изменения никеля с высоким разрешением.
Исследование проводится в Чешской Республике, а именно в районе Фридек-Мистек в Моравско-Силезском регионе (см. Рисунок 1). География исследуемой территории очень пересеченная и в основном является частью региона Моравско-Силезские Бескиды, который является частью внешнего края Карпатских гор. Исследуемая территория расположена между 49° 41′ 0′ с.ш. и 18° 20′ 0′ в.д., а высота над уровнем моря составляет от 225 до 327 м; Однако система классификации Коппена для климатического состояния региона оценивается как Cfb = умеренный океанический климат. Даже в засушливые месяцы выпадает много осадков. Температура в течение года немного колеблется от −5 °C до 24 °C, редко опускаясь ниже −14 °C или выше 30 °C, в то время как среднегодовое количество осадков составляет от 685 до 752 мм47. Предполагаемая площадь обследования всей области составляет 1208 квадратных километров, из которых 39,38% занимают обрабатываемые земли и 49,36% — лесной покров. С другой стороны, площадь, используемая в этом исследовании, составляет около 889,8 квадратных километров. В Остраве и ее окрестностях очень активны сталелитейная промышленность и металлургические заводы. Металлургические заводы, сталелитейная промышленность, где никель используется в нержавеющих сталях (например, для устойчивости к атмосферной коррозии) и легированных сталях (никель повышает прочность сплава, сохраняя при этом его хорошую пластичность и вязкость), и интенсивное сельское хозяйство, такое как внесение фосфатных удобрений и животноводство, являются потенциальными источниками никеля для исследований в регионе (например, добавление никеля ягнятам для увеличения темпов роста ягнят и скота с низким содержанием корма). Другие промышленные применения никеля в исследовательских областях включают его использование в гальванопокрытии, включая процессы гальванического никеля и химического никелирования. Свойства почвы легко отличить по цвету почвы, структуре и содержанию карбонатов. Текстура почвы от средней до мелкой, полученная из исходного материала. Они имеют коллювиальную, аллювиальную или эоловую природу. Некоторые участки почвы кажутся пятнистыми на поверхности и подпочве, часто с бетоном и отбеливанием. Однако камбисоли и стагносоли являются наиболее распространенными типами почв в регионе48. С высотой от 455,1 до 493,5 м камбисоли доминируют в Чешской Республике49.
Карта исследуемой области [Карта исследуемой области была создана с помощью ArcGIS Desktop (ESRI, Inc, версия 10.7, URL: https://desktop.arcgis.com).]
Всего было получено 115 образцов верхнего слоя почвы из городских и пригородных почв в районе Фридек-Мистек. Используемая схема отбора проб представляла собой регулярную сетку с образцами почвы, расположенными на расстоянии 2 × 2 км друг от друга, а верхний слой почвы измерялся на глубине от 0 до 20 см с помощью портативного устройства GPS (Leica Zeno 5 GPS). Образцы упаковывались в пакеты Ziploc, надлежащим образом маркировались и отправлялись в лабораторию. Образцы высушивались на воздухе для получения измельченных образцов, измельчались с помощью механической системы (дисковая мельница Fritsch) и просеивались (размер сита 2 мм). Поместите 1 грамм высушенных, гомогенизированных и просеянных образцов почвы в четко маркированные тефлоновые бутылки. В каждый тефлоновый сосуд налейте 7 мл 35% HCl и 3 мл 65% HNO3 (используя автоматический дозатор — по одному для каждой кислоты), слегка закройте и оставьте образцы на ночь для Реакция (программа «царская водка»). Поместите супернатант на горячую металлическую плиту (температура: 100 Вт и 160 °C) на 2 часа, чтобы облегчить процесс переваривания образцов, затем охладите. Перенесите супернатант в мерную колбу объемом 50 мл и разбавьте до 50 мл деионизированной водой. После этого отфильтруйте разбавленный супернатант в пробирку из ПВХ объемом 50 мл с деионизированной водой. Кроме того, 1 мл раствора для разбавления разбавляли 9 мл деионизированной воды и фильтровали в пробирку объемом 12 мл, подготовленную для псевдоконцентрации ФТЭ. Концентрации ФТЭ (As, Cd, Cr, Cu, Mn, Ni, Pb, Zn, Ca, Mg, K) определяли методом ICP-OES (оптико-эмиссионная спектроскопия с индуктивно связанной плазмой) (Thermo Fisher Scientific, США) в соответствии со стандартными методами и соглашением. Обеспечьте контроль и обеспечение качества (QA/QC) процедуры (SRM NIST 2711a Montana II Soil). PTE с пределами обнаружения ниже половины были исключены из этого исследования. Предел обнаружения PTE, использованного в этом исследовании, составил 0,0004.(you). Кроме того, процесс контроля качества и обеспечения качества для каждого анализа обеспечивается путем анализа эталонных стандартов. Чтобы гарантировать минимизацию ошибок, был проведен двойной анализ.
Эмпирический байесовский кригинг (ЭБК) — один из многих методов геостатистической интерполяции, используемых при моделировании в различных областях, таких как почвоведение. В отличие от других методов интерполяции кригинга, ЭБК отличается от традиционных методов кригинга тем, что учитывает ошибку, оцененную моделью полувариограммы. При интерполяции ЭБК во время интерполяции вычисляется несколько моделей полувариограммы, а не одна полувариограмма. Методы интерполяции убирают неопределенность и программирование, связанные с этим построением полувариограммы, что составляет весьма сложную часть достаточного метода кригинга. Процесс интерполяции ЭБК следует трем критериям, предложенным Криворучко50: (a) модель оценивает полувариограмму из входного набора данных, (b) новое прогнозируемое значение для каждого местоположения входного набора данных на основе сгенерированной полувариограммы и (c) окончательная модель A вычисляется из смоделированного набора данных. Правило байесовского уравнения задается как апостериорное
Где \(Prob\left(A\right)\) представляет априорную вероятность, \(Prob\left(B\right)\) в большинстве случаев игнорируется, \(Prob (B,A)\ ). Расчет вариограммы основан на правиле Байеса, которое показывает склонность наборов данных наблюдений, которые могут быть созданы из вариограмм. Затем значение вариограммы определяется с помощью правила Байеса, которое устанавливает, насколько вероятно создание набора данных наблюдений из вариограммы.
Машина опорных векторов — это алгоритм машинного обучения, который генерирует оптимальную разделяющую гиперплоскость для различения идентичных, но не линейно независимых классов. Вапник51 создал алгоритм классификации намерений, но недавно он использовался для решения проблем, ориентированных на регрессию. По словам Ли и др.52, SVM является одним из лучших методов классификатора и используется в различных областях. В этом анализе использовался регрессионный компонент SVM (регрессия опорных векторов — SVMR). Черкасский и Мюлье53 впервые применили SVMR как регрессию на основе ядра, вычисление которой выполнялось с использованием линейной регрессионной модели с пространственными функциями для нескольких стран. Джон и др.54 сообщают, что моделирование SVMR использует линейную регрессию гиперплоскости, которая создает нелинейные связи и допускает пространственные функции. По словам Вохланда и др. 55, epsilon (ε)-SVMR использует обученный набор данных для получения модели представления в качестве функции, нечувствительной к эпсилону, которая применяется для независимого отображения данных с наилучшим смещением эпсилон из обучения на коррелированных данных. Предварительно заданная ошибка расстояния игнорируется из фактического значения, и если ошибка больше ε(ε), свойства почвы компенсируют ее. Модель также снижает сложность обучающих данных до более широкого подмножества опорных векторов. Уравнение, предложенное Vapnik51, показано ниже.
где b представляет скалярный порог, \(K\left({x}_{,}{ x}_{k}\right)\) представляет функцию ядра, \(\alpha\) представляет множитель Лагранжа, N представляет числовой набор данных, \({x}_{k}\) представляет входные данные, а \(y\) является выходными данными. Одним из ключевых используемых ядер является операция SVMR, которая является гауссовой радиальной базисной функцией (RBF). Ядро RBF применяется для определения оптимальной модели SVMR, которая имеет решающее значение для получения наиболее тонкого фактора набора штрафов C и параметра ядра gamma (γ) для обучающих данных PTE. Сначала мы оценили обучающий набор, а затем протестировали производительность модели на проверочном наборе. Используемый параметр управления - сигма, а значение метода - svmRadial.
Модель множественной линейной регрессии (MLR) — это регрессионная модель, которая представляет связь между переменной отклика и рядом переменных-предикторов с использованием линейных объединенных параметров, рассчитанных с использованием метода наименьших квадратов. В MLR модель наименьших квадратов является предсказательной функцией свойств почвы после выбора объясняющих переменных. Необходимо использовать отклик для установления линейной связи с использованием объясняющих переменных. PTE использовалась в качестве переменной отклика для установления линейной связи с объясняющими переменными. Уравнение MLR имеет вид
где y — переменная отклика, \(a\) — свободный член, n — число предикторов, \({b}_{1}\) — частичная регрессия коэффициентов, \({x}_{ i}\) представляет предиктор или объясняющую переменную, а \({\varepsilon }_{i}\) представляет ошибку в модели, также известную как остаток.
Смешанные модели были получены путем наложения EBK с SVMR и MLR. Это делается путем извлечения прогнозируемых значений из интерполяции EBK. Прогнозируемые значения, полученные из интерполированных Ca, K и Mg, получаются с помощью комбинаторного процесса для получения новых переменных, таких как CaK, CaMg и KMg. Затем элементы Ca, K и Mg объединяются для получения четвертой переменной, CaKMg. В целом, полученные переменные - это Ca, K, Mg, CaK, CaMg, KMg и CaKMg. Эти переменные стали нашими предикторами, помогая прогнозировать концентрации никеля в городских и пригородных почвах. Алгоритм SVMR был выполнен на предикторах для получения смешанной модели Эмпирический байесовский кригинг - Машина опорных векторов (EBK_SVM). Аналогичным образом переменные также пропускаются через алгоритм MLR для получения смешанной модели Эмпирический байесовский кригинг - Множественный линейный Регрессия (EBK_MLR). Обычно переменные Ca, K, Mg, CaK, CaMg, KMg и CaKMg используются в качестве ковариатов в качестве предикторов содержания Ni в городских и пригородных почвах. Наиболее приемлемая полученная модель (EBK_SVM или EBK_MLR) затем визуализируется с помощью самоорганизующегося графика. Рабочий процесс этого исследования показан на рисунке 2.
Использование SeOM стало популярным инструментом для организации, оценки и прогнозирования данных в финансовом секторе, здравоохранении, промышленности, статистике, почвоведении и т. д. SeOM создается с использованием искусственных нейронных сетей и методов неконтролируемого обучения для организации, оценки и прогнозирования. В этом исследовании SeOM использовался для визуализации концентраций Ni на основе наилучшей модели для прогнозирования Ni в городских и пригородных почвах. Данные, обработанные при оценке SeOM, используются в качестве n входных векторных переменных размерности43,56.Melssen et al. 57 описывают соединение входного вектора в нейронной сети через один входной слой с выходным вектором с одним вектором веса. Выходные данные, генерируемые SeOM, представляют собой двумерную карту, состоящую из различных нейронов или узлов, сплетенных в гексагональные, круглые или квадратные топологические карты в соответствии с их близостью. Сравнивая размеры карт на основе метрики, ошибки квантования (QE) и топографической ошибки (TE), выбирается модель SeOM с 0,086 и 0,904 соответственно, что представляет собой блок из 55 карт (5 × 11). Структура нейронов определяется в соответствии с количеством узлов в эмпирическом уравнении.
Количество данных, используемых в этом исследовании, составляет 115 образцов. Для разделения данных на тестовые данные (25% для проверки) и обучающие наборы данных (75% для калибровки) использовался случайный подход. Обучающий набор данных используется для создания регрессионной модели (калибровка), а тестовый набор данных используется для проверки способности к обобщению58. Это было сделано для оценки пригодности различных моделей для прогнозирования содержания никеля в почвах. Все используемые модели прошли десятикратный процесс перекрестной проверки, повторенный пять раз. Переменные, полученные с помощью интерполяции EBK, используются в качестве предикторов или объясняющих переменных для прогнозирования целевой переменной (PTE). Моделирование выполняется в RStudio с использованием пакетов library(Kohonen), library(caret), library(modelr), library(“e1071″), library(“plyr”), library(“caTools”), library(”spectr”) и libraries (“Metrics”).
Различные параметры проверки использовались для определения наилучшей модели, подходящей для прогнозирования концентраций никеля в почве, а также для оценки точности модели и ее проверки. Модели гибридизации оценивались с использованием средней абсолютной ошибки (MAE), среднеквадратической ошибки (RMSE) и R-квадрата или определения коэффициента (R2). R2 определяет дисперсию пропорций в ответе, представленном регрессионной моделью. RMSE и величина дисперсии в независимых измерениях описывают предсказательную силу модели, в то время как MAE определяет фактическое количественное значение. Значение R2 должно быть высоким для оценки наилучшей модели смеси с использованием параметров проверки, чем ближе значение к 1, тем выше точность. Согласно Ли и др. 59, значение критерия R2 0,75 или больше считается хорошим предиктором; от 0,5 до 0,75 — приемлемая эффективность модели, а ниже 0,5 — неприемлемая эффективность модели. При выборе модели с использованием методов оценки критериев проверки RMSE и MAE полученные более низкие значения были достаточными и считались наилучшим выбором. Следующее уравнение описывает метод проверки.
где n представляет собой размер наблюдаемого значения, \({Y}_{i}\) представляет собой измеренный отклик, а \({\widehat{Y}}_{i}\) также представляет собой прогнозируемое значение отклика, следовательно, для первых i наблюдений.
Статистические описания предикторных и ответных переменных представлены в таблице 1, показывающей среднее значение, стандартное отклонение (SD), коэффициент вариации (CV), минимум, максимум, эксцесс и асимметрию. Минимальные и максимальные значения элементов расположены в порядке убывания Mg < Ca < K < Ni и Ca < Mg < K < Ni соответственно. Концентрации ответной переменной (Ni), отобранные из исследуемой области, варьировались от 4,86 до 42,39 мг/кг. Сравнение Ni со средним мировым значением (29 мг/кг) и средним европейским значением (37 мг/кг) показало, что общее рассчитанное геометрическое среднее для исследуемой области находилось в допустимом диапазоне. Тем не менее, как показал Кабата-Пендиас11, сравнение средней концентрации никеля (Ni) в текущем исследовании с сельскохозяйственными почвами в Швеции показывает, что текущая средняя концентрация никеля выше. Аналогичным образом, средняя концентрация Фридека Мистека в городских и пригородных почвах в текущем исследовании (Ni 16,15 мг/кг) было выше допустимого предела 60 (10,2 мг/кг) для Ni в польских городских почвах, о котором сообщили Różański et al. Кроме того, Bretzel и Calderisi61 зафиксировали очень низкие средние концентрации Ni (1,78 мг/кг) в городских почвах в Тоскане по сравнению с текущим исследованием. Jim62 также обнаружил более низкую концентрацию никеля (12,34 мг/кг) в городских почвах Гонконга, что ниже текущей концентрации никеля в этом исследовании. Birke et al63 сообщили о средней концентрации Ni 17,6 мг/кг в старой горнодобывающей и городской промышленной зоне в Саксонии-Анхальт, Германия, что на 1,45 мг/кг выше средней концентрации Ni в этом районе (16,15 мг/кг). Текущее исследование. Избыточное содержание никеля в почвах в некоторых городских и пригородных районах исследуемой области может быть в основном связано с металлургическая и металлургическая промышленность. Это согласуется с исследованием Ходадуста и др. 64 о том, что сталелитейная промышленность и металлообработка являются основными источниками загрязнения почв никелем. Однако предикторы также варьировались от 538,70 мг/кг до 69 161,80 мг/кг для Ca, от 497,51 мг/кг до 3535,68 мг/кг для K и от 685,68 мг/кг до 5970,05 мг/кг для Mg. Яковлевич и др. 65 исследовали общее содержание Mg и K в почвах центральной Сербии. Они обнаружили, что общие концентрации (410 мг/кг и 400 мг/кг соответственно) были ниже, чем концентрации Mg и K в текущем исследовании. Неразличимо, в восточной Польше Ожеховски и Смольчински66 оценили общее содержание Ca, Mg и K и показали средние концентрации Ca (1100 мг/кг), Mg (590 мг/кг) и K (810 мг/кг). Содержание в верхнем слое почвы ниже, чем у одного элемента в этом исследовании. Недавнее исследование Понграка и др. 67 показало, что общее содержание Ca, проанализированное в 3 различных почвах в Шотландии, Великобритания (почва Милнфилд, почва Балруддери и почва Хартвуд), указало на более высокое содержание Ca в этом исследовании.
Из-за различных измеренных концентраций отобранных элементов распределения элементов в наборах данных демонстрируют различную асимметрию. Асимметрия и эксцесс элементов варьировались от 1,53 до 7,24 и от 2,49 до 54,16 соответственно. Все рассчитанные элементы имеют уровни асимметрии и эксцесса выше +1, что указывает на то, что распределение данных является нерегулярным, асимметричным в правильном направлении и пиковым. Оцененные CV элементов также показывают, что K, Mg и Ni демонстрируют умеренную изменчивость, в то время как Ca имеет чрезвычайно высокую изменчивость. CV K, Ni и Mg объясняют их равномерное распределение. Кроме того, распределение Ca неравномерно, и внешние источники могут влиять на уровень его обогащения.
Корреляция предикторных переменных с элементами отклика показала удовлетворительную корреляцию между элементами (см. Рисунок 3). Корреляция показала, что CaK продемонстрировал умеренную корреляцию со значением r = 0,53, как и CaNi. Хотя Ca и K показывают умеренные ассоциации друг с другом, такие исследователи, как Кингстон и др. 68 и Santo69 предполагают, что их уровни в почве обратно пропорциональны. Однако Ca и Mg антагонистичны K, но CaK хорошо коррелирует. Это может быть связано с применением удобрений, таких как карбонат калия, который на 56% выше по содержанию калия. Калий умеренно коррелировал с магнием (KM r = 0,63). В индустрии удобрений эти два элемента тесно связаны, поскольку сульфат калия и магния, нитрат калия и поташ вносятся в почвы для повышения уровня их дефицита. Никель умеренно коррелирует с Ca, K и Mg со значениями r = 0,52, 0,63 и 0,55 соответственно. Взаимосвязи между кальцием, магнием и PTE, такими как никель, сложны, но, тем не менее, магний ингибирует усвоение кальция, кальций снижает эффекты избытка магния, а магний и кальций снижают токсические эффекты никеля в почве.
Матрица корреляции для элементов, показывающая связь между предикторами и ответами (Примечание: этот рисунок включает диаграмму рассеяния между элементами, уровни значимости основаны на p < 0,001).
Рисунок 4 иллюстрирует пространственное распределение элементов. Согласно Бургосу и др.70, применение пространственного распределения — это метод, используемый для количественной оценки и выделения горячих точек в загрязненных районах. Уровни обогащения Ca на рис. 4 можно увидеть в северо-западной части карты пространственного распределения. На рисунке показаны горячие точки обогащения Ca от умеренного до высокого. Обогащение кальцием на северо-западе карты, вероятно, связано с использованием негашеной извести (оксида кальция) для снижения кислотности почвы и ее использованием на сталелитейных заводах в качестве щелочного кислорода в процессе производства стали. С другой стороны, другие фермеры предпочитают использовать гидроксид кальция в кислых почвах для нейтрализации pH, что также увеличивает содержание кальция в почве71. Горячие точки калия также показаны на северо-западе и востоке карты. Северо-запад является крупным сельскохозяйственным сообществом, и умеренный или высокий уровень калия может быть обусловлен внесением NPK и калийных удобрений. Это согласуется с другими исследованиями, такими как Мадарас и Липавский72, Мадарас и др.73, Пулкрабова и др.74, Асаре и др.75, которые наблюдали, что стабилизация почвы и обработка KCl и NPK привели к высокому содержанию K в почве. Пространственное обогащение калия на северо-западе карты распределения может быть связано с использованием удобрений на основе калия, таких как хлорид калия, сульфат калия, нитрат калия, поташ и калий для увеличения содержания калия в бедных почвах. Задорова и др.76 и Тлустош и др. 77 подчеркивается, что применение удобрений на основе калия увеличивает содержание калия в почве и значительно увеличит содержание питательных веществ в почве в долгосрочной перспективе, особенно калия и магния, показывая горячую точку в почве. Относительно умеренные горячие точки на северо-западе карты и юго-востоке карты. Коллоидная фиксация в почве истощает концентрацию магния в почве. Его недостаток в почве приводит к тому, что растения проявляют желтоватый межжилковый хлороз. Удобрения на основе магния, такие как сульфат калия и магния, сульфат магния и кизерит, лечат дефицит (растения становятся фиолетовыми, красными или коричневыми, что указывает на дефицит магния) в почвах с нормальным диапазоном pH6. Накопление никеля на городских и пригородных поверхностях почвы может быть связано с антропогенной деятельностью, такой как сельское хозяйство, и важностью никеля в производстве нержавеющей стали78.
Пространственное распределение элементов [карта пространственного распределения была создана с помощью ArcGIS Desktop (ESRI, Inc, версия 10.7, URL: https://desktop.arcgis.com).]
Результаты индекса эффективности модели для элементов, используемых в этом исследовании, показаны в таблице 2. С другой стороны, значения RMSE и MAE для Ni близки к нулю (0,86 RMSE, -0,08 MAE). С другой стороны, значения RMSE и MAE для K приемлемы. Результаты RMSE и MAE были выше для кальция и магния. Результаты MAE и RMSE для Ca и K больше из-за разных наборов данных. Было обнаружено, что RMSE и MAE этого исследования с использованием EBK для прогнозирования Ni лучше, чем результаты Джона и др. 54, использующих синергетический кригинг для прогнозирования концентраций S в почве с использованием тех же собранных данных. Изученные нами выходные данные EBK коррелируют с данными Фабиачика и др. 41, Яна и др. 79, Бегина и др. 80, Адхикари и др. 81 и Джона и др. 82, особенно для K и Ni.
Эффективность отдельных методов прогнозирования содержания никеля в городских и пригородных почвах оценивалась с использованием эффективности моделей (таблица 3). Проверка модели и оценка точности подтвердили, что предиктор Ca_Mg_K в сочетании с моделью EBK SVMR показал наилучшую эффективность. Калибровочная модель Ca_Mg_K-EBK_SVMR модель R2, среднеквадратическая ошибка (RMSE) и средняя абсолютная ошибка (MAE) составили 0,637 (R2), 95,479 мг/кг (RMSE) и 77,368 мг/кг (MAE). Ca_Mg_K-SVMR составила 0,663 (R2), 235,974 мг/кг (RMSE) и 166,946 мг/кг (MAE). Тем не менее, хорошие значения R2 были получены для Ca_Mg_K-SVMR (0,663 мг/кг R2) и Ca_Mg-EBK_SVMR (0,643 = R2); их результаты RMSE и MAE были выше, чем у Ca_Mg_K-EBK_SVMR (R2 0,637) (см. Таблицу 3). Кроме того, RMSE и MAE модели Ca_Mg-EBK_SVMR (RMSE = 1664,64 и MAE = 1031,49) составляют 17,5 и 13,4 соответственно, что больше, чем у Ca_Mg_K-EBK_SVMR. Аналогично, RMSE и MAE модели Ca_Mg-K SVMR (RMSE = 235,974 и MAE = 166,946) на 2,5 и 2,2 больше, чем у Ca_Mg_K-EBK_SVMR RMSE и MAE соответственно. Рассчитанные результаты RMSE показывают, насколько сконцентрирован набор данных с линией наилучшего соответствия. Более высокие значения RSME и MAE были наблюдалось. Согласно Kebonye et al. 46 и john et al. 54, чем ближе RMSE и MAE к нулю, тем лучше результаты. SVMR и EBK_SVMR имеют более высокие квантованные значения RSME и MAE. Было замечено, что оценки RSME были последовательно выше значений MAE, что указывает на наличие выбросов. Согласно Legates и McCabe83, степень, в которой RMSE превышает среднюю абсолютную ошибку (MAE), рекомендуется в качестве индикатора наличия выбросов. Это означает, что чем более неоднороден набор данных, тем выше значения MAE и RMSE. Точность оценки перекрестной проверки смешанной модели Ca_Mg_K-EBK_SVMR для прогнозирования содержания Ni в городских и пригородных почвах составила 63,70%. Согласно Li et al. 59, этот уровень точности является приемлемым показателем производительности модели. Настоящие результаты сравниваются с предыдущим исследованием Тарасова и др. 36, чья гибридная модель создала MLPRK (Multilayer Perceptron Residual Kriging), связанный с индексом оценки точности EBK_SVMR, представленным в текущем исследовании, RMSE (210) и MAE (167,5) были выше, чем наши результаты в текущем исследовании (RMSE 95,479, MAE 77,368). Однако при сравнении R2 текущего исследования (0,637) с результатами Тарасова и др. 36 (0,544), очевидно, что коэффициент детерминации (R2) выше в этой смешанной модели. Погрешность (RMSE и MAE) (EBK SVMR) для смешанной модели в два раза ниже. Аналогично, Сергеев и др.34 зафиксировали 0,28 (R2) для разработанной гибридной модели (Multilayer Perceptron Residual Kriging), в то время как Ni в текущем исследовании зафиксировал 0,637 (R2). Уровень точности прогнозирования этой модели (EBK SVMR) составляет 63,7%, в то время как точность прогнозирования, полученная Сергеевым и др.34, составляет 28%. Окончательная карта (рис. 5), созданная с использованием модели EBK_SVMR и Ca_Mg_K в качестве предиктора, показывает прогнозы горячих точек и умеренных до никеля по всей исследуемой области. Это означает, что концентрация никеля в исследуемой области в основном умеренная, с более высокими концентрациями в некоторых определенных областях.
Окончательная карта прогнозирования представлена с использованием гибридной модели EBK_SVMR и использованием Ca_Mg_K в качестве предиктора. [Карта пространственного распределения была создана с использованием RStudio (версия 1.4.1717: https://www.rstudio.com/).]
На рисунке 6 представлены концентрации PTE в виде плоскости композиции, состоящей из отдельных нейронов. Ни одна из плоскостей компонентов не продемонстрировала тот же цветовой рисунок, что и показано. Однако соответствующее количество нейронов на нарисованную карту составляет 55. SeOM создается с использованием различных цветов, и чем больше похожи цветовые рисунки, тем более сопоставимы свойства образцов. Согласно их точной цветовой шкале, отдельные элементы (Ca, K и Mg) показали похожие цветовые рисунки с отдельными нейронами высокого порядка и большинством нейронов низкого порядка. Таким образом, CaK и CaMg имеют некоторое сходство с нейронами очень высокого порядка и цветовыми рисунками от низкого до среднего. Обе модели предсказывают концентрацию Ni в почве, отображая средние и высокие оттенки цветов, такие как красный, оранжевый и желтый. Модель KMg отображает множество цветовых рисунков высокого уровня на основе точных пропорций и цветовых пятен от низкого до среднего уровня. На точной цветовой шкале от низкого до высокого планарный рисунок распределения компонентов модели показал высокий цветовой рисунок, указывающий на потенциальную концентрацию никеля в почве (см. рисунок 4). Плоскость компонентов модели CakMg показывает разнообразный цветовой рисунок от низкого до высокого в соответствии с точной цветовой шкалой. Кроме того, прогнозирование модели содержания никеля (CakMg) аналогично пространственному распределению никеля, показанному на рисунке 5. Оба графика показывают высокие, средние и низкие доли концентраций никеля в городских и пригородных почвах. Рисунок 7 изображает метод контуров в группировке k-средних на карте, разделенной на три кластера на основе прогнозируемого значения в каждой модели. Метод контуров представляет оптимальное количество кластеров. Из 115 собранных образцов почвы категория 1 получила наибольшее количество образцов почвы, 74. Кластер 2 получил 33 образца, в то время как кластер 3 получил 8 образцов. Комбинация семикомпонентного плоскостного предиктора была упрощена, чтобы обеспечить правильную интерпретацию кластера. Из-за многочисленных антропогенных и естественных процессов, влияющих на формирование почвы, сложно иметь правильно дифференцированные шаблоны кластеров на распределенной карте SeOM78.
Выходные данные компонентной плоскости по каждой переменной машины опорных векторов эмпирического байесовского кригинга (EBK_SVM_SeOM). [Карты SeOM были созданы с помощью RStudio (версия 1.4.1717: https://www.rstudio.com/).]
Различные компоненты классификации кластеров [Карты SeOM были созданы с использованием RStudio (версия 1.4.1717: https://www.rstudio.com/).]
Текущее исследование наглядно иллюстрирует методы моделирования для концентраций никеля в городских и пригородных почвах. В исследовании тестировались различные методы моделирования, объединяющие элементы с методами моделирования, чтобы получить наилучший способ прогнозирования концентраций никеля в почве. Композиционные плоские пространственные характеристики SeOM метода моделирования продемонстрировали высокую цветовую схему от низкой до высокой на точной цветовой шкале, указывающую на концентрации Ni в почве. Однако карта пространственного распределения подтверждает плоскостное пространственное распределение компонентов, продемонстрированное EBK_SVMR (см. Рисунок 5). Результаты показывают, что модель регрессии опорных векторов (Ca Mg K-SVMR) прогнозирует концентрацию Ni в почве как единую модель, но параметры проверки и оценки точности показывают очень высокие ошибки с точки зрения RMSE и MAE. С другой стороны, метод моделирования, используемый с моделью EBK_MLR, также имеет недостатки из-за низкого значения коэффициента детерминации (R2). Хорошие результаты были получены с использованием EBK SVMR и комбинированных элементов (CaKMg) с низкими ошибками RMSE и MAE. с точностью 63,7%. Оказывается, объединение алгоритма EBK с алгоритмом машинного обучения может создать гибридный алгоритм, который может предсказывать концентрацию PTE в почве. Результаты показывают, что использование Ca Mg K в качестве предикторов для прогнозирования концентраций Ni в исследуемой области может улучшить прогнозирование Ni в почвах. Это означает, что постоянное применение удобрений на основе никеля и промышленное загрязнение почвы сталелитейной промышленностью имеют тенденцию к увеличению концентрации никеля в почве. Это исследование показало, что модель EBK может снизить уровень ошибки и повысить точность модели пространственного распределения почвы в городских или пригородных почвах. В целом, мы предлагаем применять модель EBK-SVMR для оценки и прогнозирования PTE в почве; кроме того, мы предлагаем использовать EBK для гибридизации с различными алгоритмами машинного обучения. Концентрации Ni были предсказаны с использованием элементов в качестве ковариат; Однако использование большего количества ковариатов значительно улучшит производительность модели, что можно считать ограничением текущей работы. Еще одним ограничением данного исследования является то, что количество наборов данных составляет 115. Поэтому, если предоставить больше данных, производительность предлагаемого оптимизированного метода гибридизации может быть улучшена.
PlantProbs.net.Никель в растениях и почве https://plantprobs.net/plant/nutrientImbalances/sodium.html (дата обращения 28 апреля 2021 г.).
Каспржак, К.С. Никелевые достижения в современной экологической токсикологии.окружающая среда.токсикология.11, 145–183 (1987).
Цемпель, М. и Никель, Г. Никель: обзор его источников и экологической токсикологии. Польский журнал по окружающей среде. Исследования. 15, 375–382 (2006).
Фридман, Б. и Хатчинсон, Т. К. Поступление загрязняющих веществ из атмосферы и их накопление в почве и растительности вблизи медеплавильного завода в Садбери, Онтарио, Канада. can.J. Bot.58(1), 108-132.https://doi.org/10.1139/b80-014 (1980).
Манива, Т. и др. Тяжелые металлы в почве, растениях и риски, связанные с выпасом жвачных животных вблизи медно-никелевого рудника Селеби-Фикве в Ботсване. Окрестности. Геохимия. Здоровье https://doi.org/10.1007/s10653-021-00918-x (2021).
Кабата-Пендиас.Кабата-Пендиас А. 2011. Микроэлементы в почве и… – Google Scholar https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Kabata-Pendias+A.+2011.+Мелкие+элементы+в+почвах+и+растениях.+4th+ed.+New+York+%28NY%29%3A+CRC+Press&btnG= (дата обращения: 24 ноября 2020 г.).
Альмас, А., Сингх, Б., Сельское хозяйство, TS-NJ of & 1995, не определено. Влияние российской никелевой промышленности на концентрацию тяжелых металлов в сельскохозяйственных почвах и травах в Сер-Варангере, Норвегия.agris.fao.org.
Нильсен, Г.Д. и др. Поглощение и удержание никеля в питьевой воде связаны с потреблением пищи и чувствительностью к никелю. Токсикология. Применение. Фармакодинамика. 154, 67–75 (1999).
Коста, М. и Кляйн, К.Б. Никелевый канцерогенез, мутация, эпигенетика или селекция. Окружающая среда. Перспектива здравоохранения. 107, 2 (1999).
Аджман, ПК; Аджадо, СК; Борувка, Л.; Бини, Дж. К. М.; Саркоди, В. Ю. О.; Кобонье, Н. М.; Анализ тенденций потенциально токсичных элементов: библиометрический обзор. Геохимия окружающей среды и здоровье. Springer Science & Business Media BV 2020. https://doi.org/10.1007/s10653-020-00742-9.
Минасны, Б. и МакБратни, А.Б. Цифровое картографирование почв: краткая история и некоторые уроки. Geoderma 264, 301–311.https://doi.org/10.1016/j.geoderma.2015.07.017 (2016).
МакБрэтни А.Б., Мендонса Сантос М.Л. и Минасни Б. О цифровом картировании почвы. Geoderma 117(1-2), 3-52.https://doi.org/10.1016/S0016-7061(03)00223-4 (2003).
Deutsch.CV Геостатистическое моделирование резервуаров,… – Google Scholar https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=CV+Deutsch%2C+2002%2C+Geostatistical+Reservoir+Modeling%2C +Oxford+University+Press%2C+376+pages.+&btnG= (дата обращения: 28 апреля 2021 г.).
Время публикации: 22 июля 2022 г.


